SEMANTIC TEXT SIMILARITY ANALYSIS
Смехун Я.А.
Аспирант, Дальневосточный федеральный университет
СЕМАНТИЧЕСКИЙ АНАЛИЗ ПОДОБИЯ ТЕКСТОВ
Аннотация
В статье рассмотрены методы семантического анализа подобия текстов. Данные методы основаны на использовании процедур семантико-синтаксического и концептуального анализа, которые позволяют выявить понятийный состав текста и назначения его основных терминов, их семантической роли и значимости в тексте.
Ключевые слова: семантическое подобие текстов, семантическая обработка, обработка естественных языков.
Smekhun Y.A.
Postgraduate student, Far Eastern Federal University
SEMANTIC TEXT SIMILARITY ANALYSIS
Abstract
In the article we considered the methods of the semantic analysis of text similarity. These methods are based on using procedures of the semantic, syntactical and conceptual analysis which allow us to reveal the conceptual structure of the text and the assignment of its main terms for their semantic role and the importance in the text.
Keywords: semantic text similarity, natural language processing, semantic processing.
За последние пятьдесят лет исследования в области обработки естественного языка получили существенное развитие. Основными ранними областями исследования были синтаксис, морфология и семантика языков. При тщательном исследовании каждого из языковых разделов, встречаются неизученные области, требующие иного подхода к проблеме.
Для статистических данных, таких как частота употребления слов, схожесть слов или предложений, используются методы, в большей мере независимые от языка. К таким методам относят: логарифмическое отношение правдоподобия, тегирование частей речи, алгоритм быстрого поиска подобия. Остановимся подробнее на последнем алгоритме.
При работе с большими корпусами, содержащими миллионы различных словоформ, необходим высокоэффективный алгоритм для вычисления общих черт, так как слова необходимо сравнивать по-парным способом. Для данной задачи был выбран алгоритм быстрого поиска подобия (Fast Similarity Search algorithm (FastSS)).
Измерение семантического подобия текстов является той темой обработки естественных языков, где используется большое разнообразие вариантов. Нахождение семантически похожего содержания текстов приведёт к расширению случаев использования базового элемента поиска для извлечения информации. Мы можем просто повторно сформулировать характерный вариант использования извлечения информации, используя произвольные документы в качестве запроса, например, в модели векторного пространства.[3] Однако помимо извлечения информации, многие другие приложения, которые имеют дело с текстовыми данными, могут извлечь выгоду из алгоритмов текстового подобия и ассоциированных индексных структур. К примеру, в почтовой программе, это может использоваться, чтобы показать электронные письма, относящиеся к одному пользователю, которые он читает или пишет в настоящее время. Данный метод также может быть использован в качестве основы для текстовой кластеризации, автоматической фильтрации, автоматической классификации сообщений электронной почты в папки, и даже предсказания получателя или верификации.
Одним из возможных методов, для сокращения количества сравнений, является сокращенный обратный индекс, который связывает термин с ограниченным набором источников. Но у любого вида сокращения есть риск потери важной информации, из-за обычных пропусков. Это может привести к сокращению числа уже найденных схожих элементов. При соответствующих хороших условиях, с точки зрения семантического подобия, качество сокращений найденных пунктов может даже увеличится. Но стоит проблема в компьютеризации представления соответствий. Часто, это сделано с помощью мер статистического значения. Дифференциальная аналитическая формула, представленная в работе Ганса Фридриха Витшела (которая, в свою очередь, основана на проверке значимости логарифмическая функция правдоподобия.[1]), используется в исследованиях, чтобы построить основанную на индексах базу документов, основанных на частоте слова в документе по сравнению с его частотой в предварительно обработанном корпусе.
Другой аспект измерения семантической схожести заключается в том, что, даже без любого сокращения, есть риск потери документов той же темы, в которых используются другие похожие по смыслу слова. Например, возьмём два предложения: «That tank fired around» (Танк пустил очередь) и «Armor fire detected» (Броневик открыл огонь), они будут упущены индексом, который основан только на словах. Поэтому, необходимы дополнительные знания (как это предусмотрено использованием тезаурусов), чтобы позволить системе определения схожести текстов сопоставить слова с относящимися к ним значениями. Такие знания могут быть обеспечены лексической базой данных Word Net.[2,4]. Доступность и объём таких скомпилированных лексических баз данных для некоторых языков ограничена.
Системы анализа текстового подобия состоят из множества компонентов. Рисунок 1 описывает основные модули нашего решения для обработки естественных языков (NLP). Главная идея, лежащая в основе данной модели состоит в том, чтобы традиционные модули обработки естественного языка (такие как распознавание временных и именных сущностей) прибегали к ней только после тщательной предварительной обработки. С помощью данной модели возможно обнаружить типы текстов и блоков, и применять аналитические алгоритмы только тогда, когда они имеют смысл. Данный подход снижает количество ошибок до уровня сравнимого с теми, что описаны в литературе [1, 2, 3], а также сохраняет уровень ошибок относительно постоянными.
Предварительная обработка текста начинается с парсинга необработанных документов и затем продолжает обнаружение языка и текстовую очистку. Очистка теста напрямую зависит от источника и типа текстовых данных. Для универсальных веб-страниц, например, используется самообучающийся модуль, который учится пропускать рекламные объявления и такие структурные элементы как меню.
Как правило, сложная информационно-поисковая система также включает ограничивающий модуль, который может отнести слова, «fired» и«fire» в одну и ту же тему. Он может также содержать вышеупомянутую модуль тезауруса, которая допускала бы соответствие таких синонимов, как «tank» и «armor».
Оценка семантического подобия текстов (Semantic Text Similarity–STS) состоит из набора попарных предложений, которые связывают оценками от 0 до 5, для определения их наблюдаемой семантической связанности, где 0 означает, что предложения не связанны, а 5 указывает на идентичность предложений на семантическом уровне.
Рис. 1 – Обзор архитектуры NLP решения для обработки корпусов текстов.
Литература
- Dunning T (1993) Accurate methods for the statistics of surprise and coincidence. Comput Linguist 19(1):61–74
- Richardson R, Smeaton AF, Murphy J (1994) Using WordNet as a knowledge base for measuring semantic similarity between words. In: Technical Report, Proceedings of AICS conference, 1994
- Salton G (1989) Automatic text processing: The transformation, analysis, and retrieval of information by computer. Addison Wesley, Reading
- Varelas G, Voutsakis E, Euripides, Petrakis EG, Milios EE, Raftopoulou P (2005) Semantic similarity methods in WordNet and their application to information retrieval on the web. In: 7th ACM international workshop on web information and data management (WIDM 2005), pp 10–16, ACM Press, 2005