Semantic and event ontology EventOnto: basic terminology, development processes and principles of subject unit classification
Semantic and event ontology EventOnto: basic terminology, development processes and principles of subject unit classification
Abstract
The article presents a review and analysis of existing approaches to the creation of semantic markup of texts. It proposes a new approach based on event ontology description of text, focusing on key events of text and their classification, as well as on the reverse order of ontology description compilation: from the expressed to the form of expression. The work describes the main stages in the development of an event ontology, its key parameters and potential prospects, as well as the limitations and difficulties in its creation.
The author describes the developed concept of semantic and event ontology EventOnto, which includes basic terminological apparatus, development processes and principles of classification of subject units. To develop EventOnto, the author proposes to go through 8 stages, each of which is described in detail in the article (selection of a sub-corpus of texts to compose an experimental model of the event ontology, selection of subject instances in selected texts, selection of events and acts, modelling of links of acts forming the structure of events, modelling of links of acts with subject instances and subject instances, calculation of resources and making predictions about the resource-cost of processing textual material, work with linguistic data, optimization of linguistic data processes).
1. Введение
В данной статье описываются итоги одного из этапов обширной программы исследований по разработке методологии конструирования событийных онтологий. Проект разработки событийной онтологии, общая концепция которой была представлена ранее , требует уточнений, касающихся, прежде всего, терминологического аппарата и поэтапного плана исследовательских работ, что в совокупности составляет цель данной работы.
Ключевым в нашей концепции является понятие событийной онтологии, под которой (в наиболее сжатой формулировке) мы предлагаем понимать концептуализацию информации о событиях, формирующих смысловое пространство текста. Концептуализация предполагает организацию эмпирического материала, предметных смысловых единиц, в схемы, позволяющие отобразить функции данных единиц в контексте события, а также их связи друг с другом. Соотношения единиц формулируются в виде связанной совокупности RDF-утверждений, позволяющей составить общую онтологию включенных в нее текстов.
События определяются как запечатленный в тексте факт изменения предметных единиц в пространстве-времени, представляющий собой совокупность отдельных актов (явлений физического мира, направленных действий, а также инициированных действиями процессов), характеризующихся общей завершенностью (достижением результата), что определяет саму возможность умозрительно выделить его как отдельное событие в тексте. Наиболее иллюстративным, на наш взгляд, будет пример какого-либо известного яркого исторического события, которое имеет результат, продуцирующий ряд других событий. К таковым может относиться, к примеру, переход Юлия Цезаря через Рубикон со своими легионами 10 января 49 г. до н.э. Произошедшее событие имеет конкретный результат – объявление гражданской войны, включающей множество других отдельных событий: сражений, военных маневров и перемещений, политических изменений и пр. При этом каждое из событий является уникальным, что определяется как его внутренним содержанием (совокупность лиц, предметов, отдельных действий, явлений и процессов, имевших отношение к конкретному событию в конкретном месте), так и его положение в контексте других событий, происходивших до, после и одновременно с ним, иными словами, положение события в контексте времени. Безусловно, не каждое событие, отраженное в том или ином тексте, имеет столь глобальное значение, как в представленном примере: это может быть совместное перемещение героев текста в какой-либо город, встреча, обед, создание чего-либо и т. п.. Определение более четких границ событий, их классификация в контексте реализации проекта, будут возможны на более поздних этапах работы в связи с накоплением достаточного объема данных. На текущем этапе, в рамках которого проводятся работы по выделению и классификации предметных экземпляров, мы оперируем несколько абстрактным определением понятия «событие», которое будет уточняться в процессе работы над проектом. Общая интерпретация позволяет провести некоторые иллюстративные параллели с принципами выделения в тексте сверхфразовых единств (сложных синтаксических целых) на синтаксическом уровне, представляющих собой совокупность связанных между собой предложений, в предикативном ядре которых мы чаще всего находим единицы, выражающие отдельные действия, процессы явления (сказуемые), при этом контуры сложного синтаксического целого определяются возможностью умозрительно зафиксировать его общую микротему (в нашем случае – общий результат события) .
Разграничение явлений, действий и процессов, своими параметрами и системой связей определяющих формальную структуру события, также требует уточнения. Под действиями подразумеваются отдельные акты, инициируемые действующими лицами (актантами), обладающими относительной свободой воли в принятии решений (здесь наблюдается близость, но не тождественность с категорией одушевлённости), иллюстративным действием может быть, к примеру, произнесение приказа переправиться через реку. Процессами мы называем цепочки актов, инициированных действиями (и, косвенно, актантами), но в дальнейшем происходящими независимо от него направлено или циклично под его контролем или вне контроля, к примеру, падение брошенного камня, работа какой-либо запущенной машины и т.п. В свою очередь, к явлениям здесь относятся факты природы, происходящие независимо, изолированно от актантов, являющиеся контекстом, условиями и обстоятельствами действий и процессов.
Необходимо также четко представлять контуры той «информации», которую представляется возможным извлечь из текста для дальнейшей онтологической концептуализации. Прежде всего, выделяется «явная» информация, которая прямо следует из текста (например, из предложения «Иван читает книгу» мы знаем, что актором здесь является «Иван», действие, которое он совершает – «читает», а объектом является «книга»), а также «тёмное поле» семантики, которое, в свою очередь, разделяется на «восстановимое» и «неизвестное». Восстановимой может быть явно (с высокой степенью вероятности) следующая из текста дополнительная информация (например, «Иван» – лицо мужского пола). Контекстуально-предположительной является неоднозначная дополнительная информация, которую можно «предположить» с той или иной степенью вероятности. Так, например, мы можем предположить, что книга сделана из бумаги, но может использоваться электронный носитель информации, либо, напротив, это может быть древняя книга, написанная на специально выделанной коже животного («велень»). Достоверность того или иного умозаключения, дополняющего основной выводимый смысл текста, зависит от контекста окружающих действие событий, предметов и локаций: вероятность использования «древнего» текста будет выше, если действие происходит в библиотеке музея, где хранятся такие книги, а электронного носителя – если действие происходит в современную эпоху. Следует подчеркнуть, что в рамках текущего проекта мы ограничиваем себя «явной» информацией, углублённая концептуализация событийной информации текста с расширением в область дополняющих текст вероятных логических выводов мыслится возможным перспективным направлением развития текущего проекта в том случае, если его базовая составляющая будет успешно реализована. Так, к примеру, по схожей логике в отечественных исследованиях велась работа с использованием многофункционального лингвистического процессора «ЭТАП-3» в рамках реализации проекта «Референциальные аспекты компьютерной семантики», поддержанного Российским научным фондом .
Работы по составлению корпусов и словарей «пропозиций» (называемыми в зарубежной научной литературе «proposition banks» или «propbanks»), в предикативном центре которых находится глагол, связанный с теми или иными предметными единицами (лицами и объектами), обширно представлены на англоязычном материале. Прежде всего, к ним относятся проекты FrameNet , VerbNet , . В отечественных исследованиях также поднимался вопрос о перспективах создания русскоязычного аналога, представлена адекватная для русского языка модель словаря . Несмотря на некоторую схожесть идей, предлагаемая нами разработка концептуально отличается от приведенных примеров: предполагается разработать связанный массив данных о событийно-предметной структуре текстов, а не репозиторий отдельных аннотированных конструкций. Некоторые идеи реализованных проектов тем не менее могут быть использованы в работе над текущим проектом. Особо следует подчеркнуть успешно развивающийся в данный момент проект Лаборатории № 15 (ИППИ им. А. А. Харкевича) SemOntoCor под руководством д. филол. н., профессора И. М. Богуславского . Разработчики также ставят своей целью создание семантического корпуса на основе лингвистических и онтологических ресурсов, создаваемого на базе синтаксического корпуса SynTagRus. Несмотря на близкую идеологию проектов, описываемый здесь событийно-предметный подход онтологической концептуализации информации о тексте, безусловно, отличается в своих целях и методологической основе. Представляется невозможным также сопоставлять проекты, поскольку поставленные задачи, искомые результаты являются абсолютно различными. Предполагаемая разработка, получившая рабочее название EventOnto, не ставит своей целью создание семантического анализатора, способного интерпретировать смысл тех или иных предложений, написанных на естественном языке, либо использовать естественный язык в искуственно сгенерированной речи, т.е. ключевых задач автоматической обработки естественного языка и Искусственного интеллекта. Перед нами стоит задача систематизации событийных данных, извлекаемых из текста, в машиночитаемом формате онтологии, которые предполагается использовать для создания семантико-событийной разметки, которая, в свою очередь, позволит создавать новые поисковые инструменты по корпусам текстов. К примеру, в перспективе это может помочь в создании инструментов, позволяющих быстро подобрать схожие по структуре цепочки событий в различных текстах (например, схожие с переходом Рубикона поворотные исторические события, где пересечение некой условной «красной черты» приводит к цепочке связанных событий, схожих по тем или иным параметрам, интенсивности, с античными событиями гражданской войны), отдельные схожие события (например, путешествия из одного города в другой, столкновения с непреодолимым препятствием, т. н. «бродячие сюжеты»), подчеркивать сходства и различия отдельных выделенных пользователем событий. На данный момент не существует корпусов текстов с подобными семантико-событийными поисковыми инструментами, разработка данного инструментария по существу является экспериментальной работой, что определяет некоторую «гибкость» подхода, не позволяя, в свою очередь, сформулировать достаточно четкие количественно-качественные параметры результата работы до завершения всех ее ключевых этапов. Полученная база данных машиночитаемой информации в дальнейшем также может использоваться для обучения систем на базе искусственного интеллекта, однако потенциал такого использования также может быть определен лишь результатом реализации текущего проекта.
Более подробно процессы работы над проектом конкретизированы в поэтапном плане. Первые три этапа частично завершены к текущему моменту, в том числе:
1-й этап: определение конечного продукта, его параметров, а также исходных требований к нему. Потенциал использования событийных онтологий представляется достаточно широким, однако определение конкретной разработки и детализация её параметров (насколько это представляется возможным для исходного этапа) позволит адекватно рассчитать распределение ресурсов в проекте и позволит наглядно продемонстрировать некоторые прикладные перспективы формируемого подхода. Конечная разработка представляет собой онтологический граф, ключевыми элементами которого станут отраженные в избранном корпусе текстов события, представляющие собой совокупность связанных актов (отдельных действий, процессов и явлений) и предметных экземпляров. Событийная онтология будет дополнена связанной с исходными текстами лингвистической информацией о лексике, грамматике и стилевой специфике. Полученная онтология будет применима к существующим текстовым корпусам, что позволит создать набор поисковых инструментов по текстам: поиск сюжетно-событийных интертекстуальных связей различных текстов внутри корпуса, описаний схожих событий в различных текстах (их сходства и различия в семантическом, событийно-предметном аспектах, а в перспективе – связанных грамматических и стилистических аспектах), степень реальности / вымышленности событий текста. Данные инструменты могут использоваться как для филологических (лингвистических и литературоведческих) исследований, так и для специфичных творческих задач. Полученные метаданные о текстах корпуса потенциально могут использоваться также для задач при обучении генеративных языковых моделей, что, к примеру, может повысить сюжетно-композиционное качество текстов, генерируемых языковыми моделями ИИ.
2-й этап: отбор подкорпуса текстов для составления экспериментальной модели событийной онтологии, адекватного задачам, следующим из требований и параметров конечного продукта. Подход должен быть адаптирован к использованию текстов различных жанров и функциональных стилей, в частности, нами будут использоваться тексты с художественным повествованием, официально-деловые документы, тексты описания исторических событий, научные тексты, тексты СМИ. Первым текстом для построения опытной модели событийной онтологии избран текст повести А.Н. и Б.Н. Стругацких «Понедельник начинается в субботу» . Разработка данной модели позволит отобрать тексты других жанров и функциональных стилей, событийно связанные с исходным текстом .
3-й этап: выделение в избранных текстах предметных экземпляров, их классификация и присвоение уникальных номеров. Под предметными экземплярами событийной онтологии понимаются единицы материального мира (лица и предметы), которые могут выполнять различные роли в событии. Согласовываясь с основными функциями предметных единиц, нами было выделено три ключевых класса: актанты, вещи и пространства. Принципы выделения и классификации данных единиц на базе избранного для экспериментальной событийной онтологии текста (повесть А.Н. и Б.Н. Стругацких «Понедельник начинается в субботу») составляют предмет данного исследования. Следует подчеркнуть, что на текущем этапе оставлены без внимания «нематериальные» единицы и абстрактные понятия. Включение единиц такого уровня может быть реализовано в дальнейшем на базе созданной «наивной» модели событийной онтологии.
Следующие этапы работы над проектом относятся к числу незавершенных:
4-й этап: выделение событий и актов, моделирование связей актов, формирующих структуру событий. При построении событийно-актовой структуры не будет учитываться временные величины, вполне позволяющие отразить течение времени, включая календарные даты описываемых событий. Нельзя также представить данную модель вполне соответствующей этерналистскому подходу к природе времени, где все события происходили бы «одномоментно». В базовой модели событийной онтологии учитываются причинно-следственные связи, отношения событий друг с другом в позиционных отношениях «до», «после», «одновременно». Механизмы описания событийно-актовых связей будут предметом отдельного исследования на материале результатов завершения четвертого этапа работы над проектом EventOnto.
5-й этап: моделирование связей актов с предметными экземплярами и предметных экземпляров друг с другом.
6-й этап: оптимизация процессов 3 и 4 этапа, расчёт ресурсов и составление прогнозов о ресурсозатратности обработки текстового материала.
Следует отметить, что работа с 1 по 6 этапы будет производиться циклично. Анализ и обработка первого текста, включающая выделение и классификацию предметных и событийно-актовых экземпляров, а также моделирование онтологии, производится исключительно «вручную» с использованием существующих ресурсов Национального корпуса русского языка . Ход проведенных работ будет проанализирован, что позволит изучить возможности использования ресурсов автоматической обработки языка, разработать предложения по оптимизации процессов. Результаты шестого этапа, проведенные на основе анализа работ с текстом повести «Понедельник начинается в субботу», будут использованы для работы над следующим событийно связанным текстом авторов «Сказка о Тройке» . В дальнейшем будут использованы тексты других авторов, жанров и стилей. Выбор художественного текста для первичной обработки мотивирован тем, что для литературного произведения характерны целостность и определенное развитие сюжета, последовательность событий, система действующих лиц с определенными взаимоотношениями, что позволяет определить его наиболее удобной отправной точкой исследований.
7-й этап: работа с лингвистическими данными (лексика, грамматика, стилистические показатели отдельных текстов). В качестве идейно схожей разработки здесь интересен опыт взаимодействия онтологии верхнего уровня SUMO и лингвистической базы данных WordNet, проанализированной в зарубежной научной литературе . Данный этап также требует комплексного изучения.
8-й этап: оптимизация процессов работы с лингвистическими данными.
Важно также подчеркнуть, что предварительный поэтапный план работы над проектом в целом зависим от промежуточных результатов, что обуславливает вероятность его актуальных корректировок в дальнейшем.
К ключевым рискам проекта относится, в первую очередь, необходимость работы с колоссальным объемом данных. Создать онтологию достаточно крупного корпуса текста вручную представляется абсолютно невозможным. Поэтому объем текстов, необходимых для создания экспериментальной модели, является достаточно небольшим. Результат этой работы позволит оценить необходимые ресурсы и оптимизировать работу, автоматизировать процессы обработки текста (этапы 6 и 8). Иными словами, ручная обработка небольшого объема текстов для конструирования экспериментальной событийной онтологии позволит проанализировать и определить как и в каком объеме для получения качественно схожего результата могут быть применены существующие разработки и технологии (к примеру, перспективы использование машинного обучения для классификации предметных экземпляров). В несколько обобщенном смысле, это предполагает анализ того, как уже существующие технологии работы с языковым материалом могут быть применены для создания технологий другого качества на примере конкретной задачи.
2. Методы и принципы исследования
В методологической основе третьего этапа работы над проектом EventOnto лежит классификация предметных экземпляров. В основу данной классификации заложены адекватные исходным требованиям к разработке параметры выделения предметных единиц, в частности, отражена специфика реальности-вымышленности экземпляров, определена их таксономия (отношения часть-целое). Обработка первого текста («Понедельник начинается в субботу») производится исследователями самостоятельно, исходя из результатов анализа произведения. Для дальнейшего моделирования связей предметных единиц необходимым является присвоение им уникальных номеров, отражающих их позицию в общей классификации.
В дальнейшем моделировании мы исходим из ряда общих принципов, которые будут влиять на работу с отдельными экземплярами. Прежде всего, необходимо разделить в структуре разработки уникальные, семантически значимые единицы текстов, а также универсальные единицы, которые будут содержаться в тезаурусах верхнего уровня.
Рисунок 1 - Разработанная классификация событий
3. Основные результаты
Выделенные предметные единицы распределены на три основных класса: актанты, вещи и пространства. Под актантами (в анализируем тексте выявлено 195 единиц) понимаются реальные или потенциальные инициаторы действий и процессов, связанных с другими предметными единицами или самими собой («мыться») или частью себя («умыть лицо»). К классу «вещи» (в тексте выделено 389 единиц) относятся материальные предметы как естественного происхождения («Солнце», OAA0007RN), так и созданные актантами («Спальный мешок», OAA0021AATOM). Для двух указанных классов применимы общие принципы классификации.
Рисунок 2 - Классификация предметных единиц «актанты» и «вещи»
Актанты и вещи, используемые в тексте в комбинации с предлогами или наречиями, образующими в совокупности семантическую единицу места действия (в комнате) или его пространственного направления (в комнату, из комнаты), образуют класс экземпляров «локации» (в тексте выделено 114 единиц). Данные единицы в своей новой роли получают новое уникальное именование, основанное на другой классификации.
Рисунок 3 - Классификация предметных единиц простанства
Таким образом, главный герой текста, «Александр Иванович Привалов» (SAA0000AATON), определяется как актант, обладающий способностью инициировать действия и процессы, является вымышленным персонажем текста, созданным автором текста и не имеющим известного прототипа в действительности, но представляющим типичный класс («человек»), не обладающим при этом нетипичными для человека свойствами. «Кот Василий» (SAA0004AATSN) также относится к числу актантов, является вымышленным персонажем, не имеющим отношения к какому-либо известному прототипу в действительности, представляющим типичный класс («кот»), но обладающим нетипичным свойством (умение говорить). «Солнце» (OAA0007RN) является реальным объектом естественного происхождения, а «Спальный мешок» (OAA0021AATOM) – вымышленным объектом, созданным автором, типичным, обыкновенным предметом материальной культуры, созданным людьми.
4. Обсуждение
События, формирующие онтологию EventOnto, в весьма обобщенном смысле содержат в себе информацию «кто» / «с кем» > «используя что» / «из чего» / «с чем» и т.п. > «где» > и, в конечном счете, «что сделал». Массив предметных экземпляров позволяет сформировать базу для ответов на первый ряд этих вопросов. Выделенные характеристики предметных экземпляров позволят в дальнейшем охарактеризовать достоверность запечатленной в событиях текстов действительности и распределить её на три типа реальности: подлинную, вымышленную и дополненную. К последнему типу реальности будут относиться вымышленные события, в которые были добавлены реальные лица, предметы или пространства, а также подлинные события, к участию в которых добавлены вымышленные лица и предметы, либо действия перенесены в иные локации (вымышленные, либо реальные, но не достоверные). Глубина вымысла «дополненной реальности» в том или ином тексте может быть детально конкретизирована, что коррелирует с качеством классификации предметных экземпляров онтологии и моделирования событий.
5. Заключение
Известные на данный момент семантические корпуса можно условно распределить на две ключевые группы: во-первых, корпуса, в которых представлено семантическое аннотирование отдельных слов (к их числу на данный момент относится и Национальный корпус русского языка), но в которых не представлено никакой информации об их связи внутри текстов; во-вторых, корпуса, выражающие смысловые отношения между словами, представляющие собой семантические структуры, построенные в соответствии с определенной лингвистической теорией или теоретико-нейтральные . Проект EventOnto по существу не относится ни к одному из представленных типов и выходит за рамки устоявшейся парадигмы формальной семантики, фокусируя свое внимание не на языке (как структуре) и его способности в тех или иных комбинациях единиц выражать те или иные смыслы, но на концептуализации запечатленной в различных текстах событийной информации (отдельные события, их структура, связь и отношения друг с другом). Сформулированная в формате машиночитаемых RDF-утверждений информация о структурно-событийном содержании текстов позволит в дальнейшем создать комплекс поисковых инструментов в аннотированном корпусе. Данные инструменты открывают возможность формулировать запросы по корпусу или избранным подкорпусам, касающиеся событийно-сюжетной организации текстов, структуре и связей запечатленных в текстах событий, их интертекстуальных пересечений, специфику вымысла отдельных событий и их соотношение с действительностью, а также связанную статистическую информацию. Качество поисковых результатов во многом коррелирует со спецификой классификации предметных экземпляров текста, представленной в данной работе. Сформулированная классификация предметных единиц текста в дальнейшем может быть дополнена в процессе работы над пятым этапом реализации проекта EventOnto, что будет отражено в публикациях по результатам завершения описанного этапа.