Corpus analysis of factors influencing the tone of the word "patriotism"
Corpus analysis of factors influencing the tone of the word "patriotism"
Abstract
The work presents an effective method for identifying positive and negative factors influencing the emotional tone of the word "patriotism" in a 10 GB corpus of texts from Telegram channel messages. Factors influencing tone are identified among semantic connections obtained using the Word2Vec neural network and tonal dictionaries. The method uses statistical patterns between words from tonal dictionaries that are part of associative groups of semantically similar words. The strongest positive factors in the corpus are morality, spirituality, love for the motherland, and humanism. The method allows to monitor the factors influencing the tone of the word "patriotism" in a large, dynamic corpus of texts, which can contribute to increasing the effectiveness of promoting patriotism as a traditional value in the information environment.
1. Введение
Целью настоящей работы является выявление факторов, влияющих на отношение к патриотизму в современном обществе. Патриотизм — это одна из традиционных ценностей, которые согласно Стратегии национальной безопасности Российской Федерации необходимо защищать, а также принимать меры по их сохранению и укреплению
. Эмоциональная тональность слова «патриотизм» в большом корпусе текстов отражает отношение авторов этих текстов к патриотизму. Если слово «патриотизм» имеет позитивную эмоциональную тональность в популярных текстах, то это способствует сохранению и укреплению патриотизма как ценности.Эмоциональная тональность терминов/ценностей может меняться со временем благодаря появлению новых популярных текстов, в которых эти термины окружает соответствующий позитивный или негативный эмоциональный фон, и создаются соответствующие семантические связи (в том числе ассоциативные). Связи терминов с позитивными словами, такими как комфорт, успех, семейное счастье, создают позитивный/привлекательный образ и повышают эмоциональную тональность этих терминов, что часто используется в рекламе недвижимости
. Напротив, деструктивные тексты разрушают и обесценивают ценности, а также снижают их позитивную тональность путем создания семантических связей с негативными словами. Негативизация — это одна из наиболее часто встречаемых деструктивных стратегий .Семантические связи ценностей с позитивными и негативными словами влияют на эмоциональную тональность ценностей и поэтому являются факторами позитивного и негативного влияния. В научной литературе термин «фактор» обозначает «элемент, условие или параметр, который влияет на исследуемый процесс или явление»
. Знание и понимание факторов помогает анализировать закономерности, предсказывать результаты, строить работающие модели.В настоящее время широкое распространение получили методы тонального анализа текстов (sentiment analysis) , с помощью которых можно автоматически определять эмоциональную окраску/тональность текста и его фрагментов, чтобы понять, отражают ли они позитивное, негативное или нейтральное отношение автора к соответствующим объектам, явлениям и ценностям. В некоторых случаях для тонального анализа текстов используются тональные словари
, . Тональный словарь (sentiment dictionary, sentiment lexicon) — это список слов и словосочетаний с указанной тональностью (положительной или отрицательной). В тональном словаре словам и словосочетаниям сопоставляются соответствующие им оценки настроения или эмоциональные коннотации. Тональный словарь может создаваться экспертами или с помощью опроса/краудсорсинга , в котором о каждом слове опрашивается определенное количество участников. Тональные словари используются для различных задач, связанных с тональным анализом текстов, например, для анализа отзывов о товарах и исследования социальных трендов. Особенно часто тональные словари применяются для тонального анализа редких языков, которые не имеют достаточного количества размеченных корпусов, необходимых для качественной работы программ тонального анализа на основе машинного обучения.В ряде научных работ
, , тональный анализ текстов применяется для выявления факторов, влияющих на тональность интересующего объекта/явления. В этих работах в анализируемых текстах сначала вместе с определением тональности выявляется множество элементов таких как ключевые слова, темы, параметры, переменные, а затем среди выявленных элементов с помощью статистического анализа (например, корреляции) определяются элементы/факторы, статистически связанные с тональностью интересующего объекта/явления.В настоящем исследовании факторы, влияющие на тональность слова «патриотизм», выявляются в корпусе текстов среди семантических связей, полученных с помощью нейросети Word2Vec и тональных словарей.
2. Методы и принципы исследования
Для проведения исследования использовался корпус текстов объемом 10 ГБ из сообщений телеграм-каналов, таких как Радио Говорит Москва, Владимир Соловьев и RT на русском, а также из связанных по ссылкам телеграм-каналов. В корпусе содержались данные за несколько последних лет от начала каждого телеграм-канала до января 2025 года. С помощью программы gensim.models.Word2Vec на языке Python по корпусу текстов были построены 3 лингвистические модели для слов с частотами >1000, >100 и >5. Затем для каждого слова в каждой модели с помощью функции model.most_similar были рассчитаны ассоциативные группы, содержащие наиболее близкие по семантике слова. Приведем три примера ассоциативных групп со словом «патриотизм».
• Группа 1: любовь, нежность, доброта, сострадание, вера, теплота, патриотизм, святость, милосердие, радость, чувство.
• Группа 2: патриотизм, духовность, любовь, нравственность, нравственный, гуманизм, чувство, воспитание, гордость, идеал, эгоизм.
• Группа 3: патриотизм, духовность, мужественность, нравственность, нравственный, гуманизм, любовь, гражданственность, эгоизм, коллективизм, чувство.
Вторая группа состоит из наиболее семантически близких слов с количеством вхождений в корпусе >1000, а третья — из слов с количеством вхождений в корпусе >100. Всего слово «патриотизм» вошло в 32 различные ассоциативные группы.
Для анализа тональности слов в ассоциативных группах использовался объединенный тональный словарь на базе словарей RuSentiLex
и KartaSlovSent . Словарь RuSentiLex содержит 2368 позитивных и 7177 негативных слов. Словарь KartaSlovSent содержит 6215 позитивных и 11863 негативных слов. В объединенный словарь вошли 6892 позитивных и 14156 негативных слов, которые имели одинаковую или непротиворечащую тональность в базовых словарях. Эти позитивные и негативные слова мы в дальнейшем называем тональными словами.Предлагаемая методика использует статистические закономерности между тональными словами, входящими в ассоциативные группы. Тональности большинства слов в каждой ассоциативной группе часто совпадают. Поэтому большинство тональных слов, окружающих любое слово в различных ассоциативных группах, имеют одинаковую тональность. Подсчет подобной статистики совместной встречаемости тональных слов в ассоциативных группах для 21048 слов из объединенного словаря дал следующие результаты. Если в ассоциативных группах со словом Х разность числа окружающих позитивных и негативных тональных слов равна +1 или -1, то с вероятностью 67% это слово Х имеет такую же тональность как у большинства окружающих тональных слов. Данный факт был установлен для 964 слов из объединенного тонального словаря. Если разность равна +2 или -2, то вероятность повышается до 71.8% из 666 случаев. Если разность равна +3 или -3, то вероятность повышается до 74.4% из 523 случаев. Эта закономерность представлена на графике рис.1.

Рисунок 1 - График вероятности совпадения тональности слова Х со знаком разности (Y-Z) в зависимости от абсолютного значения |Y-Z|:
Y – это количество вхождений позитивных тональных слов в ассоциативные группы со словом Х; Z - количество вхождений негативных тональных слов в эти группы
Из графика видно, что тональность слова Х зависит от разности числа семантически похожих позитивных и негативных тональных слов. Поэтому семантически похожие позитивные слова являются позитивными факторами, влияющими на тональность, причем их влияние тем сильнее, чем больше число Y. Аналогично, негативные слова являются негативными факторами, влияющими на тональность, причем их влияние тем сильнее, чем больше число Z.
В соответствии с описанной статистической закономерностью для определения факторов влияющих на тональность слова «патриотизм» в 32 группах со словом «патриотизм» были подсчитаны количества вхождений для каждого позитивного и негативного тонального слова. На основе полученной статистики были построены рейтинги позитивных и негативных слов по количеству их вхождений. Полученные рейтинги определяют наиболее сильные факторы влияния на тональность слова «патриотизм», и поэтому их можно назвать рейтингами позитивных и негативных факторов.
3. Основные результаты
В соответствии с описанной методикой был построен следующий рейтинг позитивных факторов: нравственный (16), духовность (15), нравственность (13), любовь (10), гуманизм (8), мораль (7), воспитание (7), вера (6), эмпатия (5), гордость (5), духовный (5), святость (4), идеал (4), моральный (4), коллективизм (4), сострадание (3), радость (3), мудрость (3), задор (3), восхищение (3), благодарность (3), мотивация (3), стимул (3), добродетель (3), мужественность (3), обожание (3), нежность (2), доброта (2), благородство (2), стойкость (2), мощь (2), человеческий (2), социализация (2), наставничество (2), воспитательный (2), единение (2), гибкость (2), ценностный (2), гуманистический (2), ценность (2), подрастать (2), самоуважение (2), мотивированность (2), юношество (2), трудолюбие (2), образованность (2), осознанность (2), всепрощение (2), целомудрие (2).
Рейтинг негативных факторов: эгоизм (4), стыд (3), презрение (2), шовинизм (2), совковый (2). В скобках указано количество вхождений слова в 32 ассоциативные группы, что соответствует силе данного фактора.
Полученные результаты находят подтверждение в официальной и научной литературе. Приведем примеры работ, подтверждающие некоторые выявленные факторы и их тональность. В приведенных ниже примерах выявленные факторы выделены жирным шрифтом. Так, в работе
утверждается, что «противоположностью или врагом патриотизма является эгоизм и его разновидности (эгоцентризм, нарциссизм и пр.)».«Открыто приняв в 90-х годах западные ценности и западную культуру, мы как-то растеряли, а молодое поколение так и не сформировало, чувство гордости за свою землю, свой народ, свое государство»
. Западная система образования вместо гордости за свою Родину и ее исторические достижения насаждала эгоизм, жажду наживы, презрение к патриотизму, стыд за свою страну. «Слово «патриотизм» в устах некоторых идеологов и политиков стало ругательным, уничижительным, отождествляемым с такими понятиями, как «совки», «комуняки» .Председатель Совета Федерации Валентина Матвиенко уверена, что патриотизм «должен стать неотъемлемой частью характера человека. Но при этом не перерастать в шовинизм. Подлинный патриот — тот, кто любит свою Родину и в то же время с уважением относится к другим народам»
.Таким образом, защите и укреплению патриотизма способствует уменьшение в обществе проявлений негативных факторов, таких как эгоизм, шовинизм, стыд за свою страну и презрение к патриотизму, а также увеличение проявлений позитивных факторов, включая нравственность, духовность, любовь к Родине, гордость за свою страну и ее исторические достижения.
4. Заключение
В работе представлен эффективный метод выявления позитивных и негативных факторов, влияющих на эмоциональную тональность слова «патриотизм», в анализируемом корпусе текстов. Факторы, влияющие на тональность, выявляются среди семантических связей, полученных с помощью нейросети Word2Vec и тональных словарей.
Предлагаемый метод позволяет осуществлять мониторинг факторов, влияющих на тональность, в большом динамическом корпусе текстов, что может повысить эффективность работы по патриотическому воспитанию, защите и укреплению традиционных ценностей, а также по продвижению патриотизма как традиционной ценности в информационной среде.
