СЕМАНТИЧЕСКИЙ АНАЛИЗАТОР ДЛЯ ВЫДЕЛЕНИЯ ФАКТОВ ИЗ ТЕКСТОВЫХ СООБЩЕНИЙ

Научная статья
DOI:
https://doi.org/10.23670/IRJ.2017.66.129
Выпуск: № 12 (66), 2017
Опубликована:
2017/12/18
PDF

Ладанова Е.О.1, Ямашкин С.А.2

1Преподаватель, 2Кандидат технических наук, старший преподаватель,

ФГБОУ ВО «МГУ им. Н. П. Огарева»

СЕМАНТИЧЕСКИЙ АНАЛИЗАТОР ДЛЯ ВЫДЕЛЕНИЯ ФАКТОВ ИЗ ТЕКСТОВЫХ СООБЩЕНИЙ

Аннотация

В статье приведено описание процесса разработки эффективного алгоритма семантического и синтаксического анализа текстовой информации для выделения фактов и программного комплекса, работающего на его основе. Научно-технический продукт, о котором говорится в статье, планируется использовать для решения ряда функциональных задач в области анализа текстовой информации и извлечения фактов. В рамках описываемого исследования будет создана методика анализа данных на основе концепции Ensemble Learning.

Ключевые слова: Ensemble Learning, анализ текста, семантический анализ.

Ladanova E.O.1, Yamashkin S.A.2

1Teacher, 2PhD in Engineering, Senior Lecturer,

FSBEI of Higher Education “Ogarev Mordovia State University”

SEMANTIC ANALYZER FOR THE SELECTION OF FACTS FROM TEXT MESSAGES

Abstract

The article describes the process of developing an effective algorithm for the semantic and syntactic analysis of textual information for the identification of facts and a software complex running on its basis. The scientific and technical product mentioned in the article is planned to be used to solve a number of functional problems in the field of analyzing textual information and extracting facts. Data analysis methodology based on the Ensemble Learning concept will be created as a part of this study.

Keywords: Ensemble Learning, text analysis, semantic analysis.

Целью данной статьи является описание процесса разработки эффективного алгоритма семантического анализа текстовой информации для выделения фактов и программного комплекса, работающего на его основе. Программный комплекс позволит предоставлять услугу семантического анализа текста через графический и REST API интерфейсы по гибкой модели монетизации.

Семантический анализ текста в последние годы получил значительную актуальность. Развитие информационных ресурсов сети Internet многократно усилило проблему информационной перегрузки. Еще в начале XXI века количество страниц в сети Internet превысило 4 миллиарда, и с каждым днем оно увеличивается на 7 миллионов. Неструктурированные данные составляют большую часть информации, с которой имеют дело пользователи, поэтому многие организации и частные лица, в частности, владельцы ГИС-ресурсов [4], [5], [6], [7], [8], заинтересованы в эффективных технологиях автоматизированного семантического анализа текстовой информации, представленной на естественном языке.

На международном рынке в данный момент существует множество программных продуктов, которые позволяют проанализировать текст с точки зрения семантики. Среди отечественных стоит выделить АОТ и Semantic Analyzer Group, позволяющие строить синтактико-семантическую сеть текста. Из зарубежных – мощный инструмент анализа текстов IBM Text Miner, содержащий утилиты классификации, кластеризации, поиска ключевых слов и составления аннотации текстов. Российская система Яндекс Новости позволяет автоматически группировать данные в новостные сюжеты и составлять аннотации статей на основе кластера документов. Сервис InfoStream обеспечивает доступ к оперативной информации с учетом семантической близости документов. Также одним из аналогов системы является мобильный агрегатор Summly, купленный в марте 2013 компанией года Yahoo!, однако данное приложение абсолютно неприменимо для обработки текстов на русском языке.

Таким образом, существующие на сегодняшний день программные системы полностью не решают поставленную проблему. Объяснением этого является сложность и неоднозначность решения задачи семантического анализа для различного вида текстов. Разрабатываемое решение призвано устранить недостатки существующих систем. Основная идея заключается в разработке нового подхода к обработке текстов, основанного на методологии Ensemble Learning.

Научно-технический продукт будет успешно использован для решения следующих функциональных задач:

- каталогизация новостей;

- геопривязка событий по неструктурированному описанию;

- эффективная фильтрация спама и нежелательного контента;

- детектирование террористических переписок;

- сбор и составление статистики;

- любое другое выделение информации из больших объемов текста.

Ключевыми потребители научно-технического продукта станут владельцы новостных ресурсов и сайтов-агрегаторов, ФСБ и ФСО, архивы и библиотеки, разработчики ПО, которые заинтересованы в использовании создаваемого компонента по API. Реализация проекта предполагает получение результатов, которые характеризуются научной новизной:

-       будет создана новая методика автоматического семантико-синтаксического анализа текстовой информации, включающая оптимальный алгоритм [2], [9], [10] формирования деревьев синтаксического разбора и онтологического анализа, позволяющая значительно повысить полноту и точность в сравнении с существующими реализациями за счет внедрения компонентов обучаемости на основе методологии Ensemble Learning.

-       будут сформированы новые полные онтологические модели [1] различных предметных областей и моделей правил извлечения грамматики и генерации утверждений, основанных на коммуникативной грамматике русского языка. Внедрение компонента автоматизированного поиска шаблонов правил на основе цепей Маркова.

-       на основе научных положений программной инженерии планируется создать информационную веб-систему, которая обладает удобным адаптивным графическим интерфейсом, программными REST API интерфейсами и сделает возможным получение услуги семантического анализа и извлечения фактов по модели SaaS [3].

Результатом научно-исследовательской работы будут являться алгоритм семантического анализа текста, построенный на принципах универсальности, модифицируемости и расширяемости и программный продукт, основанный на работе алгоритма. Особенности программного продукта: предоставление сервиса семантического анализа по модели Software as a Service; оплата работы ПО по временным периодам или задействованным ресурсам; удобный веб-интерфейс; гибкая настройка параметров анализа; сохранение и экспорт результатов семантического анализа. расширение возможностей продукта через загрузку собственных словарей. Качественные характеристики: удобство внедрения и использования алгоритма сторонними разработчиками; качество сопроводительной документации (мануалы); гибкость модель монетизации. Количественные характеристики: абсолютная и относительная точность фильтрации и каталогизации сообщений; показатель доли ошибочно выделенных фактов; быстродействие алгоритма.

Конкурентным преимуществом предлагаемого решения будет сочетание следующих характеристик: повышенная точность выделения фактов, достижение которой возможно благодаря эффективному применению описанных методик; гибкость настройки параметров функционирования алгоритма и легкость использования программного решения, не требующего наличия специальных навыков; возможность автоматизированного анализа больших информационных массивов и составления статистики; представление результатов анализа и их экспорт в удобном, гибко настраиваемом формате; предоставление удобных REST API интерфейсов для обеспечение удобной интеграции решения со сторонними разработками; эффективная модель монетизации с оплатой по времени использования, количеству вызовов, числу используемых компонентов.

План реализации проекта включает следующие этапы:

- проведение обзора литературных источников и изучения отечественного и зарубежного опыта в области вопросов семантического анализа текстов;

-  первый этап разработки методики анализа текстовой информации для выделения фактов, формирование синтаксических и семантических словарей;

-  реализация созданной методики в виде комплекса программ;

- тестирование разработанного комплекса программ и апробация эффективности предлагаемого решения при анализе больших объемов данных;

- доработка на базе экспериментальных данных методики анализа текстовой информации для выделения фактов, формирование более полных словарей.

- развитие программного комплекса через внедрение веб-интерфейсов. Результат – web-система, способная предоставлять услугу анализа текста по модели SaaS.

В ходе работ над проектом будут получены научные и технические решения, которые характеризуются новизной и требуют патентной защиты: новая методика синтаксического и семантического анализа текстовой информации для выделения фактов; программный продукт, реализованный на базе созданной методики с использованием современных методов и средств программного инжиниринга; база данных лексических, синтаксических и семантических конструкций и словарей, позволяющих эффективно выделять сущности и факты из текста.

Список литературы / References

  1. Афонин В. В. Методы моделирования и оптимизации с примерами на языке С/С++ и MATLAB. Том. Часть 1. Методы моделирования / В. В. Афонин, В. В. Никулин. – Саранск : ИП Афанасьев Вячеслав Сергеевич, 2017. – 188 c.
  2. Афонин В. В. Методы моделирования и оптимизации с примерами на языке С/С++ и MATLAB. Том. Часть II. Методы безусловной оптимизации / В. В. Афонин, В. В. Никулин. – Саранск : ИП Афанасьев Вячеслав Сергеевич, 2017. – 232 c.
  3. Егунова А. И. Проектирование развивающего сайта молодёжных квестов / А. И. Егунова, Е. О. Ладанова, С. А. Ямашкин и др. // Образовательные технологии и общество. – 2017. – т. 20. – №3. – С. 292-298.
  4. Ямашкин С. А. Гибридная система анализа данных дистанционного зондирования Земли / С. А. Ямашкин // Научно-технический вестник Поволжья. 2015. № 4. С. 173–175.
  5. Федосин С. А. Технологический процесс решения задачи моделирования структуры землепользования на базе данных ДЗЗ / С. А. Федосин, С. А. Ямашкин // Науч.-техн. вестн. Поволжья. – 2014. – № 6. – С. 356–358.
  6. Вдовин С. М. Получение, хранение и распространение геоданных как единый информационный процесс / С. М. Вдовин, С. А. Федосин, А. А. Ямашкин, С. А. Ямашкин // Природные опасности: связь науки и практики : материалы II Международной науч.-практ. конф. / отв. ред. С. М. Вдовин. – Саранск, 2015. – С. 82–90.
  7. Вдовин, С.М. Университетские геопорталы как инструмент решения экологических проблем / С.М. Вдовин, А.А. Ямашкин, С.А. Ямашкин // Экологические проблемы. Евразийское пространство. – М., 2014. – С. 552–567.
  8. Ямашкин, С. А. Структура регионального геопортала, как инструмента публикации и распространения геопространственных данных / С. А. Ямашкин // Научно-технический вестник Поволжья. – 2015. – № 6. – С. 223–225.
  9. Афонин В.В. Моделирование систем / В.В. Афонин, С.А. Федосин. – М.: Интуит, 2016. – 231 c.
  10. Афонин В.В., Методы моделирования и оптимизации с примерами на языке С/С++ и MATLAB. Ч. I. Методы моделирования. / В. В. Афонин, В. В. Никулин. – Саранск, 2015.

Список литературы на английском языке / References in English

  1. Afonin V. V. Metody modelirovaniya i optimizacii s primerami na yazyke С/С++ i MATLAB. Tom. Chast 1. Metody modelirovaniya [Methods of modeling and optimization with examples in C/C ++ and MATLAB. Vol. Part 1. Methods of modeling] / V. V. Afonin, V. V. Nikulin. – Saransk : IP Afanasev Vyacheslav Sergeevich, 2017. – 188 p. [in Russian]
  2. Afonin V. V. Metody modelirovaniya i optimizacii s primerami na yazyke С/С++ i MATLAB. Tom. Chast II. Metody bezuslovnoj optimizacii [Methods of modeling and optimization with examples in C/C ++ and MATLAB. Vol. Part 2. Unconditional optimization methods] / V. V. Afonin, V. V. Nikulin. – Saransk : IP Afanasev Vyacheslav Sergeevich, 2017. – 232 p. [in Russian]
  3. Egunova A. I. Proektirovanie razvivayushchego sajta molodyozhnyh kvestov [Design of developing site of youth quests] / A. I. Egunova, E. O. Ladanova, S. A. Yamashkin and others. // Obrazovatelnye tekhnologii i obshchestvo [Educational technologies and society]. – 2017. – vol. 20. – № 3. – P. 292-298. [in Russian]
  4. Yamashkin S. A. Gibridnaya sistema analiza dannyh distancionnogo zondirovaniya Zemli [The hybrid system of data analysis remote sensing of the Earth] / S. A. Yamashkin // Nauchno-tekhnicheskij vestnik Povolzh'ya [Scientific and technical Gazette of the Volga region]. 2015. № 4. P. 173–175. [in Russian]
  5. Fedosin S. A. Tehnologicheskij process reshenija zadachi modelirovanija struktury zemlepol'zovanija na baze dannyh DZZ [The technological process of solving the problem of land-use modeling based on remote sensing data] / S. A. Fedosin, S. A. Yamashkin // Nauch.-tehn. vestn. Povolzh'ja [Scientific and technical Gazette of the Volga region]. – 2014. – № 6. – P. 356–358. [in Russian]
  6. Vdovin S. M. Poluchenie, hranenie i rasprostranenie geodannyh kak edinyj informacionnyj process [Receiving, storage and distribution of geo-information as a single process] / S. M. Vdovin, S. A. Fedosin, A. A. Yamashkin, S. A. Yamashkin // Prirodnye opasnosti: svjaz' nauki i praktiki : materialy II Mezhdunarodnoj nauch.-prakt. konf. / otv. red. S. M. Vdovin [Natural hazards: the connection between science and practice: proceedings of the II International scientific-practical. conf. / edited by S. M. Vdovin]. – Saransk, 2015. – P. 82–90. [in Russian]
  7. Vdovin, S.M. Universitetskie geoportaly kak instrument resheniya ekologicheskih problem [University geoportals as a tool for solving environmental problems] / S.M. Vdovin, A.A. Yamashkin, S.A. Yamashkin // Ekologicheskie problemy. Evrazijskoe prostranstvo [Ecological problems. The Eurasian space]. – M., 2014. – S. 552–567. [in Russian]
  8. Yamashkin, S.A. Struktura regionalnogo geoportala, kak instrumenta publikacii i rasprostraneniya geoprostranstvennyh dannyh [The structure of the regional geoportal as a tool for publishing and disseminating geospatial data] / S. A. Yamashkin // Nauchno-tekhnicheskij vestnik Povolzh'ya [Scientific and technical Gazette of the Volga region]. – 2015. – № 6. – S. 223–225. [in Russian]
  9. Afonin V.V. Modelirovanie system [Modeling systems] / V.V. Afonin, S.A. Fedosin. – M.: Intuit, 2016. – 231 c. [in Russian]
  10. Afonin V.V., Metody modelirovaniya i optimizacii s primerami na yazyke C/C++ i MATLAB. Ch. I. Metody modelirovaniya. [Methods of modeling and optimization with examples in C/C ++ and MATLAB. Part 1. Methods of modeling] / V. V. Afonin, V. V. Nikulin. – Saransk, 2015. [in Russian]