ПОСТРОЕНИЕ НЕЧЕТКОЙ КОГНИТИВНОЙ КАРТЫ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ

Научная статья
DOI:
https://doi.org/10.23670/IRJ.2022.123.52
Выпуск: № 9 (123), 2022
Предложена:
02.08.2022
Принята:
18.08.2022
Опубликована:
16.09.2022
2114
19
XML
PDF

Аннотация

Статья посвящена автоматизированному построению нечеткой когнитивной карты, которая дает целостное представление о сложной хозяйственной ситуации, позволяет строить различные сценарии ее развития. Общепринятыми являются экспертные методы построения когнитивных карт. Это связано со сложностью рассматриваемых систем, их слабой формализуемостью. Однако активное развитие методов машинного обучения позволяет автоматизировать не только процесс выявления концептов, но и установления причинно-следственных связей между ними. В статье предлагается выявлять концепты когнитивной карты на основе методов тематического моделирования – активно развивающегося направления статистического анализа текстов. В работе построена динамическая тематическая модель в области стратегического управления на основе ключевых публикаций из ScienceDirect за период с 2009 по 2021 гг., в разбивке по 2 месяца, итого 78 временных интервалов. Она позволила выявить 6 общих для рассматриваемого периода концептов, проанализировать их динамику. Модель Doc2Vec позволила представить найденные концепты в виде векторов, которые формализуют их содержание. Благодаря этому стало возможным провести тест Грэнджера на причинность и установить взаимосвязи между концептами, а также вклад каждого концепта в динамику другого концепта. В итоге была получена нечеткая когнитивная карта, с помощью которой можно проводить системный анализ ситуации. Это позволит повысить доверие к выводам и прогнозам, сделанным на основе методов когнитивного моделирования.

1. Введение

Современные условия хозяйствования характеризуются высокой степенью неопределенности и сложности, что существенно ограничивает возможности применения количественных методов для анализа и прогнозирования экономической ситуации. Когнитивные карты позволяют целостно взглянуть на ситуацию за счет ее качественно-количественного, пространственно-временного описания. Поэтому они активно применяются в условиях неопределенности [1].

Строят когнитивные карты на основе мнений экспертов, что вызывает к ним недоверие из-за возможной субъективности суждений отдельных специалистов, сомнений в соблюдении процедуры проведения экспертизы.

Поэтому задача повышения объективности в выявлении ключевых факторов сложившейся хозяйственной ситуации и связей между ними является актуальной, а с развитием методов машинного обучения становится осуществимой.

2. Обзор литературы

При выявлении концептов когнитивной карты Роберт Аксельрод анализировал частоту встречаемости терминов в текстах по интересующему его вопросу [2]. Современные методы тематического моделирования позволяют автоматизировать процесс выявления тем в рассматриваемой области [3]. При этом темы мы интерпретируем по связанным с ними наиболее часто встречающимся терминам. Латентное размещение Дирихле LDA является доминирующим подходом в вероятностном тематическом моделировании [4].

Авторы статьи [5] обратили внимание на то, что темы в коллекции документов развиваются с течением времени, и предложили способ моделировать динамику выделенных тем с помощью динамической тематической модели DTM, которая является расширением модели LDA.

Идея применения теста Грэнджера к анализу влияния друг на друга выявленных в процессе тематического моделирования концептов когнитивной карты была навеяна статьей [6], в которой решается проблема анализа влияния общественного мнения, высказываемого в социальных сетях, на официальные новости с помощью разработанной авторами схемы, в основе которой лежит векторное представление выявленных тем с помощью модели Word2Vec и тест Грэнджера на причинность.

В работе [7] авторы представили алгоритм Paragraph Vector (в модуле genism среды программирования python он реализован в модели Doc2Vec), который обычно превосходит простое усреднение векторов Word2Vec. Paragraph Vector – метод обучения без учителя, который позволяет получить вектор фиксированной длины из фрагментов текстов переменной длины, таких как предложения, абзацы и документы. В отличие от модели мешка слов, в данной модели важен порядок слов, а также, что для нас очень важно, улавливается смысл слов.

Указанные работы сформировали концепцию автоматизированного построения нечеткой когнитивной карты, которая позволяет провести анализ состояния и динамики любой сложной системы.

3. Описание используемых данных и компьютерных технологий для их обработки

В работе предлагается методика автоматизированного построения нечеткой когнитивной карты, которая включает в себя следующие шаги:

1. Выбор временного интервала и величины единичного периода для анализа.

2. Выявление концептов когнитивной карты на основе метода динамического тематического моделирования.

3. Обучение модели Doc2Vec на основе всего набора лемматизированных слов.

4. Использование обученной модели Doc2Vec для векторного (скалярного) представления выявленных концептов за весь временной интервал.

5. Применение теста Греннджера к формализованному представлению содержания концептов для установления возможных причинно-следственных связей между концептами.

Была поставлена задача построения нечеткой когнитивной карты в области стратегического управления на основе ключевых публикаций из ScienceDirect, сделать это на основе имеющихся полных данных (наличие не менее 10 публикаций в каждом месяце), т.е. за 13 лет (с 2009 по 2021 годы). В качестве единичного временного периода было выбрано 2 месяца, чтобы увеличить количество публикаций, на основе которых строится тематическая модель в каждом временном срезе.

Другими словами, в работе использовался ScienceDirect – один из крупнейших в мире онлайн-сборников опубликованных научных исследований. При этом для каждого рассматриваемого периода отбирались статьи, которые отвечают следующим требованиям:

· Key words: strategic management.

· Years: 2009-2021.

·  Article type: Research articles.

· Subject areas: Business, Management and Accounting.

· Access type: Open access & Open archive.

Благодаря имеющимся возможностям системы для каждого года был скачан архив статей за интересующие временные интервалы, не менее 10 статей в месяц. Это заняло довольно много времени, не меньше недели, т.к. в день можно скачать не более 100 статей.

В итоге были собраны pdf файлы статей за 78 временных интервалов (1 интервал равен 2 месяцам) с 2009 по 2021 гг.

Обработка и тематическое моделирование статей проводились в среде программирования python. При этом использовался Google Colab – бесплатный облачный сервис на основе Jupyter Notebook.

Сначала был написан код для изменения формата представления данных с pdf на txt.

Построение и анализ тематических моделей проводились с использованием следующих основных модулей: gensim (для тематического моделирования и построения модели Doc2Vec), spacy (для лемматизации), nltk (для удаления стоп-слов), statsmodels (для использования теста Грэнджера). Когнитивная карта строилась на основе модуля для построения графов networkx. Тепловая карта строилась с использованием модуля seaborn.

4. Методы

В работе применялись следующие методы и модели:

1. Тематическое моделирование на основе латентного размещения Дирихле LDA для автоматизированного выявления тем (концептов) когнитивной карты в конкретном временном периоде.

2. Средняя когерентность тем, как мера интерпретируемости тематической модели, для выявления оптимального количества тем в каждом временном периоде.

3. Динамическая тематическая модель для автоматизированного выявления общих тем (концептов) когнитивной карты за рассматриваемый временной период.

4. Модель Doc2Vec для векторного представления содержания выявленных тем (концептов).

5. Тест Грэнджера для установления возможных причинно-следственных связей между концептами когнитивной карты.

Динамическая модель очень громоздкая и ресурсоемкая. Поэтому при ее запуске желательно знать «правильное» количество выделяемых тем. Предлагаем найти моду количества тем, при котором достигается локальный максимум когерентности статических тематических моделей, построенных в каждом единичном временном интервале. Найденная мода в дальнейшем используется при построении динамической тематической модели.

Впервые динамическая тематическая модель DTM была предложена в работе [5]. Модель DTM является расширением модели LDA. Авторы статьи обратили внимание на то, что темы в коллекции документов развиваются с течением времени, и предложили способ моделировать динамику выделенных тем. В динамической тематической модели статьи сгруппированы по годам, статьи каждого года возникают из набора тем, которые развились из прошлогодних тем.

Модель Doc2Vec позволяет представить содержание выявленных тем (концептов) в виде векторов заданной размерности. Она является развитием модели Word2Vec.

Word2Vec – это модель, которая встраивает слова в векторное пространство с использованием неглубокой нейронной сети [8]. Результатом является набор слов-векторов, где векторы, расположенные близко друг к другу в векторном пространстве, имеют схожий контекст, а слова-векторы, удаленные друг от друга, имеют разные значения. Например, слова «сильный» и «могущественный» будут расположены рядом, а слова «сильный» и «Париж» будут находиться относительно далеко. С помощью модели Word2Vec мы можем вычислить векторы для каждого слова в документе. Но что, если мы захотим вычислить вектор для всего документа? Мы могли бы усреднить векторы для каждого слова в документе. Однако есть способ лучше.

В работе [7] авторы представили алгоритм Paragraph Vector (в модуле genism среды программирования python он реализован в модели Doc2Vec), который обычно превосходит простое усреднение векторов Word2Vec. Paragraph Vector – метод обучения без учителя, который позволяет получить вектор фиксированной длины из фрагментов текстов переменной длины, таких как предложения, абзацы и документы. В отличие от модели мешка слов, в данной модели важен порядок слов, а также улавливается смысл слов. Модель позволяет прогнозировать следующее слово в тексте. Векторы слов и векторы абзацев получаются на основе методов стохастического градиентного спуска и обратного распространения. В то время как векторы абзацев являются уникальными для абзацев, векторы слов являются общими. Во время предсказания векторы абзацев выводятся путем фиксации векторов слов и обучения нового вектора абзаца до сходимости.

В статье предлагается представить темы, выделенные с помощью динамической тематической модели, в виде векторов размерности 1 (скаляров). Затем установить возможность наличия причинно-следственной связи между темами на основе теста Гренджера.

Тест Грэнджера на причинно-следственную зависимость (Granger causality test) гласит следующее: «если х влияет на у, то изменения х должны предшествовать изменениям у, но не наоборот. Иначе говоря, должны выполняться два условия: во-первых, х должен вносить вклад в прогноз у; во-вторых, у не должен вносить значимый вклад в прогноз х. Если же каждая из этих двух переменных дает значимый вклад в прогноз другой, то, скорее всего, существует третья переменная z, влияющая на обе переменные» [9].

5. Результаты

Проводилось тематическое моделирование на основе латентного размещения Дирихле LDA для автоматизированного выявления оптимального количества тем (концептов) когнитивной карты в каждом единичном временном периоде (за каждые 2 месяца с 2009 по 2021 гг.), при котором средняя когерентность тем тематической модели достигает своего локального максимума.

Мода количества тем, при котором достигается локальный максимум когерентности статических тематических моделей, оказалась равной 6. Поэтому в дальнейшем с помощью динамической тематической модели осуществлялся поиск 6 общих тем (концептов) когнитивной карты за рассматриваемый временной период.

Аналитический вид модели позволил проинтерпретировать 6 выявленных тем. Была оставлена нумерация, принятая в python, т.е. с нуля.

Темы (концепты) с весами 5-ти ключевых слов, найденные с помощью динамической тематической модели в 17-м временном интервале (ноябрь-декабрь 2011 г.), имеют следующий вид:

Тема 0 – Фактор затрат в повышении потребительской ценности:

· ('factor', 0.0207),

· ('cost', 0.0150),

· ('customer', 0.0116),

· ('value', 0.0106),

· ('high', 0.0093).

Тема 1 – Развитие бизнеса компании – социальный и продуктовый аспект:

· ('business', 0.0199),

· ('company', 0.0146),

· ('social', 0.0136),

· ('product', 0.0122),

· ('development', 0.0101).

Тема 2 – Менеджмент, маркетинг, технологии и бухгалтерский учет:

· ('management', 0.1021),

· ('vol', 0.0420),

· ('technology', 0.0418),

· ('marketing', 0.0365),

· ('accounting', 0.0305).

Тема 3 – Государственное потребление и финансы:

· ('government', 0.0256),

· ('consumer', 0.0213),

· ('capital', 0.0200),

· ('do', 0.0196),

· ('exist', 0.0132).

Тема 4 – Использование информации:

· ('use', 0.0131),

· ('set', 0.0088),

· ('student', 0.0086),

· ('information', 0.0072),

· ('present', 0.0066).

Тема 5 – Разнообразие потребностей клиентов:

· ('com', 0.0254),

· ('como', 0.0211),

· ('autore', 0.0160),

· ('diferente', 0.01427346219203583),

· ('cliente', 0.013136699992952588).

Далее была обучена модель Doc2Vec на всем наборе лемматизированных слов. Размер вектора был задан равным 1, чтобы в дальнейшем была возможность представить тему в конкретном временном интервале в виде скаляра, что позволило применить тест Грэнджера к результатам построения динамической тематической модели.

На основе обученной Doc2Vec модели было найдено векторное представление 6 тем динамической тематической модели за 78 временных периодов, где 1 временной период равен 2 месяцам.

Скалярное представление 6 тем динамической тематической модели за первые 5 временных периодов представлены на рисунке 1, где период 0 – это январь, февраль 2009 г., а период 4 – сентябрь, октябрь 2009 г.

Скалярное представление 6 тем динамической тематической модели за первые 5 временных периодов

Рисунок 1 - Скалярное представление 6 тем динамической тематической модели за первые 5 временных периодов

Далее к полученным результатам был применен тест Грэнджера на причинность (см.рис.2).
Результаты применения теста Грэнджера на причинность к скалярному представлению тем динамической тематической модели

Рисунок 2 - Результаты применения теста Грэнджера на причинность к скалярному представлению тем динамической тематической модели

Из рисунка 2 видно следующее (столбец влияет на строку):

· Тема 0 слабо влияет на тему 2, 3, 5.

· Тема 1 умеренно влияет на тему 2 и слабо влияет на темы 3 и 5.

· Тема 2 слабо влияет на темы 0, 1, 3, 5.

· Тема 3 слабо влияет на темы 1 и 2.

· Тема 4 слабо влияет на темы 0, 1, 2, 3.

· Тема 5 слабо влияет на темы 0, 1, 3.

Графическое изображение когнитивной карты представлено на рисунке 3. Здесь цифры соответствуют номерам выявленных тем.

Когнитивная карта интересов научного сообщества в области стратегического управления

Рисунок 3 - Когнитивная карта интересов научного сообщества в области стратегического управления

Тепловая карта с регрессионными коэффициентами теста Грэнджера представлена на рисунке 4.
Тепловая карта с регрессионными коэффициентами теста Грэнджера

Рисунок 4 - Тепловая карта с регрессионными коэффициентами теста Грэнджера

Регрессионные коэффициенты теста Грэнджера можно принять в качестве весов в нечеткой когнитивной карте, т.к. они показывают вклад одного концепта в динамику другого концепта.

В результате удалось автоматизировать процесс построения нечеткой когнитивной карты интересов научного сообщества в области стратегического управления.

6. Заключение

Таким образом, в статье разработана методика автоматизированного построения нечеткой когнитивной карты, позволяющей целостно взглянуть на хозяйственную ситуацию, а именно предложено выявлять концепты на основе методов тематического моделирования, их содержание представлять в виде скаляра с помощью модели Doc2Vec, затем устанавливать возможность наличия причинно-следственной связи между концептами на основе теста Гренджера.

В результате проведенного исследования построена нечеткая когнитивная карта в области стратегического управления на основе ключевых публикаций из ScienceDirect за 2009-2021 гг., что позволило выявить семантическую структуру научных публикаций, ключевые темы, волновавшие мировое научное сообщество в области стратегического управления за рассматриваемый период, и их динамику. Было обнаружено, что темы из года в год меняются, что выражается в изменении состава и порядка наиболее значимых терминов, связанных с темой. Так, в ноябре-декабре 2011 г. актуальными были темы, которые были проинтерпретированы следующим образом:

Тема 0 – Фактор затрат в повышении потребительской ценности.

Тема 1 – Развитие бизнеса компании – социальный и продуктовый аспект.

Тема 2 – Менеджмент, маркетинг, технологии и бухгалтерский учет.

Тема 3 – Государственное потребление и финансы.

Тема 4 – Использование информации.

Тема 5 – Разнообразие потребностей клиентов.

Формализованное представление тем на основе модели Doc2Vec и тест Грэнджера позволили установить вклад каждого концепта в динамику другого концепта когнитивной карты, что дает возможность моделировать крайне неопределенную ситуацию с помощью аппарата нечетких когнитивных карт.

Нужно отметить существующие ограничения предложенной методики. В настоящее время нет возможности дообучать модель DTM, тем самым наращивать ее сложность. Модель можно обучить на всех данных, что в нашем случае заняло неделю. Это существенный недостаток данного подхода к построению нечеткой когнитивной карты, который ограничивает его широкое применение и делает более привлекательными экспертные оценки. В связи с этим на данном этапе развития технологий представляется предпочтительным сочетание автоматизированного выделения концептов на основе методов тематического моделирования и экспертного установления причинно-следственных связей между выявленными концептами.

Метрика статьи

Просмотров:2114
Скачиваний:19
Просмотры
Всего:
Просмотров:2114