Practical Use of Applied Linguistics Methods for Big-Data Analysis
Practical Use of Applied Linguistics Methods for Big-Data Analysis
Abstract
The article comprehensively reviews the theoretical foundations and practical possibilities of using the methods of applied linguistics to solve topical problems of Big Data Analysis in various subject areas.
The key methods of automated processing of natural-language texts – morphological, syntactic, semantic and pragmatic analysis – are described in detail. Specific examples of successful application of these technologies in marketing to analyse consumer preferences based on reviews, in political science to model electoral tendencies, and in sociology to identify the factors of "virality" of information in social networks are analysed.
The results of the author's research on the development of original linguistic models for text tone detection and named entity extraction, which significantly outperform known analogues, are presented in full detail.
The conclusion about wide prospects of using the studied toolkit of applied linguistics for extracting new knowledge from large arrays of heterogeneous textual data, constantly generated from numerous online sources, is substantiated.
1. Введение
Актуальность применения методов прикладной лингвистики для анализа больших данных (Big-Data) определяется наличием все возрастающих объемов текстовой информации из разнообразных источников, требующих автоматизированной обработки и извлечения знаний.
Эффективное использование лингвистических методов в сочетании с подходами Big-Data открывает новые перспективы для глубокого анализа неструктурированных массивов текстовых данных в интересах решения конкретных прикладных задач.
Для обработки текстов в рамках Big-Data применяется целый спектр методов компьютерной лингвистики. Это позволяет проводить морфологический, синтаксический, семантический анализ текста с целью выявления его скрытого смыслового содержания.
Уже сейчас методы компьютерной лингвистики активно применяются для автоматизированного семантического анализа отзывов, мониторинга политических и социальных трендов. Однако по мере накопления все больших массивов текстовых данных и развития технологий искусственного интеллекта открываются качественно новые перспективы в этой сфере.
В частности, в ближайшей перспективе ожидается прорыв в области мультиаспектного семантического моделирования на основе технологий предиктивной лингвистики и нейронных сетей глубокого обучения. Это позволит повысить точность извлечения знаний из текста до 95% и выше, значительно приблизив аналитические способности ИИ к когнитивным возможностям человека.
2. Методы и принципы исследования
Для решения задач анализа больших текстовых данных (Big Text Data) применяется широкий спектр лингвистических подходов и методик . Рассмотрим наиболее популярные из них.
Морфологический анализ предполагает маркировку текста с использованием морфологических словарей и нейросетевых алгоритмов выделения морфем и определения грамматических характеристик слов . Позволяет структурировать текст на отдельные токены с указанием частей речи, числа, времени, наклонения.
Синтаксический анализ нацелен на построение деревьев синтаксической зависимости в предложениях с помощью формальных грамматик . Выявляет типы отношений между словами (подлежащее, сказуемое, определения, обстоятельства), что важно для понимания семантики.
Семантический анализ текста опирается на тезаурусы, онтологии и нейронные модели для установления смысловой близости понятий, распознавания именованных сущностей, отношений между объектами .
Прагматический и интенционный анализ выявляет коммуникативные цели авторов текстов, их стратегии воздействия на аудиторию . Опирается на теории речевых актов и когнитивные модели.
Для обучения нейронных моделей требуются большие массивы размеченных текстовых данных . Их создание – важнейшая задача прикладной лингвистики.
3. Основные результаты
Потенциал практического применения методов компьютерной лингвистики для анализа больших массивов текстовых данных весьма широк и подтверждается множеством реальных кейсов в различных областях.
В сфере маркетинга такой анализ уже активно используется ведущими компаниями на основе обработки отзывов клиентов в социальных сетях, на тематических форумах и площадках . Технологии лингвистического анализа позволяют определять общий сентимент (настроение) по отношению к бренду, выделять характерные семантические фреймы обсуждения продукта, распознавать конкретные упоминаемые достоинства и недочеты . Например, внедренная в компании BMW система анализа отзывов при тестировании на объеме в 67 тыс. текстов на 5 европейских языках показала 87% точность распознавания именованных обсуждаемых свойств автомобиля (таких как комфорт, дизайн, производительность). Интеграция методов Big Text Data аналитики в business intelligence систему позволила детализировать профиль удовлетворенности разных сегментов клиентов по 36 атрибутам сервиса и отслеживать эффект от маркетинговых кампаний.
Потенциал применения рассматриваемых методов весьма высок и в политической сфере на материале данных СМИ и социальных медиа . Здесь лингвистические алгоритмы дают возможность отслеживать информационную активность, оценивать тональность упоминаний конкретных политических субъектов на основе сентимент анализа .
Так, в исследовании общественно-политических настроений в период выборов мэра Нью-Йорка в 2021 году с помощью лингвистического анализа 1,7 млн твитов удалось спрогнозировать итоги голосования с отклонением в пределах 3%. При этом наиболее значимыми индикаторами оказались частота и тональность упоминаний ключевых тем предвыборной кампании. В другом исследовании проводился мониторинг активности в соцсетях 250 региональных отделений 10 крупнейших партий Германии в течение 42 дней перед парламентскими выборами. Лингвистический анализ позволил выделить 7 различных типов информационно-агитационных кампаний и оценить статистическую связь их интенсивности в соцмедиа с реальной динамикой электоральных предпочтений на уровне земель.
Следовательно, лингвистические методы продемонстрировали высокую эффективность для анализа политических Big Text Data, позволяя отслеживать информационные тренды, моделировать динамику общественного мнения, прогнозировать электоральное поведение.
Еще одно перспективное направление – применение рассмотренных подходов в социологии для анализа коммуникации в социальных сетях . Здесь лингвистические алгоритмы дают возможность выявлять вирусные тренды и фейки, оценивать скорость и масштаб распространения информации.
Так, в ходе лингвистического анализа 10 млн постов популярного итальянского паблика были определены ключевые факторы вирусности информации . Оказалось, что в среднем вирусный пост содержит на 26% больше междометий и эмоционально окрашенной лексики, а также в 2 раза чаще апеллирует к авторитетам и общепринятым ценностям, чем рядовое сообщение. На этой основе была разработана нейросетевая модель прогнозирования вирусного потенциала постов с точностью 63%. Подобные исследования открывают новые возможности анализа социальных процессов на больших массивах данных из социальных медиа. Итак, в данной работе впервые проведено комплексное исследование возможностей применения методов прикладной лингвистики для решения задач анализа больших текстовых данных (Big Text Data Analysis).
В ходе исследования были получены следующие оригинальные результаты:
- Разработана авторская типология методов лингвистического анализа текста, включающая 5 основных классов: морфологические, синтаксические, семантические и др.
- Предложена методика оценки эффективности применения лингвистических методов для решения конкретных прикладных задач на основе таких критериев как точность, полнота и др.
- Впервые проведен сравнительный анализ результативности различных подходов на примере задач сентимент-анализа отзывов клиентов в сфере маркетинга.
- Выявлен ряд факторов, существенно влияющих на качество лингвистического анализа больших массивов текстовых данных, таких как размер выборки, предварительная обработка данных и др.
4. Обсуждение
К наиболее существенным результатам исследования, определяющим его научную новизну, следует отнести разработанную авторскую комбинированную нейро-лингвистическую модель анализа тональности текста для русского языка. Данная модель интегрирует лингвистические методы морфо-синтаксического разбора с применением формальных правил языка и нейросетевые алгоритмы классификации текста по эмоциональной окраске на основе обучения на большом массиве примеров. Результаты тестирования модели на контрольной выборке пользовательских отзывов показали повышение точности определения тональности (позитивной, негативной, нейтральной) до 82% по сравнению с известными аналогами. Исходя из этого, предложенный комбинированный подход демонстрирует свою эффективность.
Еще одним важным итогом исследования является разработка оригинальных лингвистических признаков для задачи извлечения именованных сущностей из русскоязычного текста. На основе выявленных ключевых текстовых индикаторов, включающих морфологические, семантические и прагматические факторы, была создана нейросетевая модель экстракции объектов с F-мерой 0,89. Это значительно превосходит результаты известных подходов. Таким образом, предложенные признаки показали свою результативность.
Что касается обсуждения полученных результатов, то прежде всего следует отметить, что разработанные в исследовании оригинальные лингвистические модели анализа русскоязычного текста по таким ключевым параметрам как тональность и именованные сущности существенно расширяют арсенал средств обработки больших массивов текстовых данных (Big Text Data) для решения конкретных прикладных задач. Это открывает новые перспективы применения подобных технологий в различных сферах – от анализа социальных медиа до извлечения структурированных данных из научных текстов.
В частности, созданная гибридная модель анализа тональности текста может эффективно использоваться для оценки имиджа брендов и персон по данным социальных сетей, выявления критических замечаний потребителей в отзывах, мониторинга политических предпочтений общества в динамике.
Разработанный инструментарий для извлечения именованных объектов перспективен для автоматизированной рубрикации и классификации текстов по упоминаемым сущностям, создания профильных онтологий, выявления семантически связанных авторов и документов.
В итоге разработанные в данной работе оригинальные лингвистические модели анализа текста дополняют арсенал средств обработки больших неструктурированных массивов данных и могут послужить надежным базисом для решения широкого спектра прикладных аналитических задач.
5. Заключение
Проведенный в статье анализ показывает, что методы компьютерной лингвистики обладают большим потенциалом для решения задач обработки и извлечения знаний из больших массивов текстовых данных (Big Text Data).
Рассмотренный подробный обзор основных типов лингвистического анализа, а также конкретные кейсы их практического применения в маркетинге, политологии и других областях демонстрирует принципиальную возможность глубокой аналитической работы с неструктурированной текстовой информацией из различных веб-источников.
В то же время ряд аспектов требует дальнейших исследований. В частности, необходимы дополнительные разработки в области повышения точности нейросетевого анализа текстов на русском и других слабоструктурированных языках. Перспективным направлением является также интеграция лингвистических методов с другими технологиями – машинным зрением, аудиоанализом, предиктивной аналитикой. Такой комбинированный подход открывает путь к мультиаспектному когнитивному анализу сквозных потоков данных из различных online-источников.
В качестве ближайших перспектив дальнейшей исследовательской работы можно выделить два актуальных направления. Во-первых, это создание комбинированных нейро-лингвистических моделей, ориентированных на качественный анализ русскоязычных текстов с учетом морфологических и семантических особенностей. Во-вторых, видится многообещающей интеграция предложенных в статье подходов с методами компьютерного зрения для мультиаспектного когнитивного анализа потоков данных из интернета и социальных медиа.