CONSTRUCTING A FUZZY COGNITIVE MAP USING MACHINE LEARNING METHODS

Research article
DOI:
https://doi.org/10.23670/IRJ.2022.123.52
Issue: № 9 (123), 2022
Suggested:
02.08.2022
Accepted:
18.08.2022
Published:
16.09.2022
2083
19
XML
PDF

Abstract

The article is dedicated to the automated construction of a fuzzy cognitive map, which gives a comprehensive view of the complex economic situation, allows to build different scenarios of its development. Generally accepted are expert methods of constructing cognitive maps. This is due to the complexity of the systems in question and their weak formalizability. However, the active development of machine learning methods allows to automate not only the process of identifying concepts, but also the establishment of cause-effect relations between them. The article suggests identifying the concepts of the cognitive map on the basis of methods of thematic modeling, which is an actively developing direction of statistical analysis of texts. The paper constructs a dynamic topic model in the area of strategic management on the basis of key publications from ScienceDirect for the period from 2009 to 2021, broken down by 2 months, a total of 78 time intervals. It made it possible to identify 6 concepts common to the period under consideration and to analyze their dynamics. Doc2Vec model made it possible to present the found concepts in the form of vectors, which formalize their content. Due to that, it was possible to perform Granger Test and to establish interrelations between concepts, as well as the contribution of each concept to the dynamics of another concept. As a result, a fuzzy cognitive map was obtained, which can be used to conduct a systematic analysis of the situation. This will increase the credibility of conclusions and predictions made on the basis of cognitive modeling methods.

1. Введение

Современные условия хозяйствования характеризуются высокой степенью неопределенности и сложности, что существенно ограничивает возможности применения количественных методов для анализа и прогнозирования экономической ситуации. Когнитивные карты позволяют целостно взглянуть на ситуацию за счет ее качественно-количественного, пространственно-временного описания. Поэтому они активно применяются в условиях неопределенности [1].

Строят когнитивные карты на основе мнений экспертов, что вызывает к ним недоверие из-за возможной субъективности суждений отдельных специалистов, сомнений в соблюдении процедуры проведения экспертизы.

Поэтому задача повышения объективности в выявлении ключевых факторов сложившейся хозяйственной ситуации и связей между ними является актуальной, а с развитием методов машинного обучения становится осуществимой.

2. Обзор литературы

При выявлении концептов когнитивной карты Роберт Аксельрод анализировал частоту встречаемости терминов в текстах по интересующему его вопросу [2]. Современные методы тематического моделирования позволяют автоматизировать процесс выявления тем в рассматриваемой области [3]. При этом темы мы интерпретируем по связанным с ними наиболее часто встречающимся терминам. Латентное размещение Дирихле LDA является доминирующим подходом в вероятностном тематическом моделировании [4].

Авторы статьи [5] обратили внимание на то, что темы в коллекции документов развиваются с течением времени, и предложили способ моделировать динамику выделенных тем с помощью динамической тематической модели DTM, которая является расширением модели LDA.

Идея применения теста Грэнджера к анализу влияния друг на друга выявленных в процессе тематического моделирования концептов когнитивной карты была навеяна статьей [6], в которой решается проблема анализа влияния общественного мнения, высказываемого в социальных сетях, на официальные новости с помощью разработанной авторами схемы, в основе которой лежит векторное представление выявленных тем с помощью модели Word2Vec и тест Грэнджера на причинность.

В работе [7] авторы представили алгоритм Paragraph Vector (в модуле genism среды программирования python он реализован в модели Doc2Vec), который обычно превосходит простое усреднение векторов Word2Vec. Paragraph Vector – метод обучения без учителя, который позволяет получить вектор фиксированной длины из фрагментов текстов переменной длины, таких как предложения, абзацы и документы. В отличие от модели мешка слов, в данной модели важен порядок слов, а также, что для нас очень важно, улавливается смысл слов.

Указанные работы сформировали концепцию автоматизированного построения нечеткой когнитивной карты, которая позволяет провести анализ состояния и динамики любой сложной системы.

3. Описание используемых данных и компьютерных технологий для их обработки

В работе предлагается методика автоматизированного построения нечеткой когнитивной карты, которая включает в себя следующие шаги:

1. Выбор временного интервала и величины единичного периода для анализа.

2. Выявление концептов когнитивной карты на основе метода динамического тематического моделирования.

3. Обучение модели Doc2Vec на основе всего набора лемматизированных слов.

4. Использование обученной модели Doc2Vec для векторного (скалярного) представления выявленных концептов за весь временной интервал.

5. Применение теста Греннджера к формализованному представлению содержания концептов для установления возможных причинно-следственных связей между концептами.

Была поставлена задача построения нечеткой когнитивной карты в области стратегического управления на основе ключевых публикаций из ScienceDirect, сделать это на основе имеющихся полных данных (наличие не менее 10 публикаций в каждом месяце), т.е. за 13 лет (с 2009 по 2021 годы). В качестве единичного временного периода было выбрано 2 месяца, чтобы увеличить количество публикаций, на основе которых строится тематическая модель в каждом временном срезе.

Другими словами, в работе использовался ScienceDirect – один из крупнейших в мире онлайн-сборников опубликованных научных исследований. При этом для каждого рассматриваемого периода отбирались статьи, которые отвечают следующим требованиям:

· Key words: strategic management.

· Years: 2009-2021.

·  Article type: Research articles.

· Subject areas: Business, Management and Accounting.

· Access type: Open access & Open archive.

Благодаря имеющимся возможностям системы для каждого года был скачан архив статей за интересующие временные интервалы, не менее 10 статей в месяц. Это заняло довольно много времени, не меньше недели, т.к. в день можно скачать не более 100 статей.

В итоге были собраны pdf файлы статей за 78 временных интервалов (1 интервал равен 2 месяцам) с 2009 по 2021 гг.

Обработка и тематическое моделирование статей проводились в среде программирования python. При этом использовался Google Colab – бесплатный облачный сервис на основе Jupyter Notebook.

Сначала был написан код для изменения формата представления данных с pdf на txt.

Построение и анализ тематических моделей проводились с использованием следующих основных модулей: gensim (для тематического моделирования и построения модели Doc2Vec), spacy (для лемматизации), nltk (для удаления стоп-слов), statsmodels (для использования теста Грэнджера). Когнитивная карта строилась на основе модуля для построения графов networkx. Тепловая карта строилась с использованием модуля seaborn.

4. Методы

В работе применялись следующие методы и модели:

1. Тематическое моделирование на основе латентного размещения Дирихле LDA для автоматизированного выявления тем (концептов) когнитивной карты в конкретном временном периоде.

2. Средняя когерентность тем, как мера интерпретируемости тематической модели, для выявления оптимального количества тем в каждом временном периоде.

3. Динамическая тематическая модель для автоматизированного выявления общих тем (концептов) когнитивной карты за рассматриваемый временной период.

4. Модель Doc2Vec для векторного представления содержания выявленных тем (концептов).

5. Тест Грэнджера для установления возможных причинно-следственных связей между концептами когнитивной карты.

Динамическая модель очень громоздкая и ресурсоемкая. Поэтому при ее запуске желательно знать «правильное» количество выделяемых тем. Предлагаем найти моду количества тем, при котором достигается локальный максимум когерентности статических тематических моделей, построенных в каждом единичном временном интервале. Найденная мода в дальнейшем используется при построении динамической тематической модели.

Впервые динамическая тематическая модель DTM была предложена в работе [5]. Модель DTM является расширением модели LDA. Авторы статьи обратили внимание на то, что темы в коллекции документов развиваются с течением времени, и предложили способ моделировать динамику выделенных тем. В динамической тематической модели статьи сгруппированы по годам, статьи каждого года возникают из набора тем, которые развились из прошлогодних тем.

Модель Doc2Vec позволяет представить содержание выявленных тем (концептов) в виде векторов заданной размерности. Она является развитием модели Word2Vec.

Word2Vec – это модель, которая встраивает слова в векторное пространство с использованием неглубокой нейронной сети [8]. Результатом является набор слов-векторов, где векторы, расположенные близко друг к другу в векторном пространстве, имеют схожий контекст, а слова-векторы, удаленные друг от друга, имеют разные значения. Например, слова «сильный» и «могущественный» будут расположены рядом, а слова «сильный» и «Париж» будут находиться относительно далеко. С помощью модели Word2Vec мы можем вычислить векторы для каждого слова в документе. Но что, если мы захотим вычислить вектор для всего документа? Мы могли бы усреднить векторы для каждого слова в документе. Однако есть способ лучше.

В работе [7] авторы представили алгоритм Paragraph Vector (в модуле genism среды программирования python он реализован в модели Doc2Vec), который обычно превосходит простое усреднение векторов Word2Vec. Paragraph Vector – метод обучения без учителя, который позволяет получить вектор фиксированной длины из фрагментов текстов переменной длины, таких как предложения, абзацы и документы. В отличие от модели мешка слов, в данной модели важен порядок слов, а также улавливается смысл слов. Модель позволяет прогнозировать следующее слово в тексте. Векторы слов и векторы абзацев получаются на основе методов стохастического градиентного спуска и обратного распространения. В то время как векторы абзацев являются уникальными для абзацев, векторы слов являются общими. Во время предсказания векторы абзацев выводятся путем фиксации векторов слов и обучения нового вектора абзаца до сходимости.

В статье предлагается представить темы, выделенные с помощью динамической тематической модели, в виде векторов размерности 1 (скаляров). Затем установить возможность наличия причинно-следственной связи между темами на основе теста Гренджера.

Тест Грэнджера на причинно-следственную зависимость (Granger causality test) гласит следующее: «если х влияет на у, то изменения х должны предшествовать изменениям у, но не наоборот. Иначе говоря, должны выполняться два условия: во-первых, х должен вносить вклад в прогноз у; во-вторых, у не должен вносить значимый вклад в прогноз х. Если же каждая из этих двух переменных дает значимый вклад в прогноз другой, то, скорее всего, существует третья переменная z, влияющая на обе переменные» [9].

5. Результаты

Проводилось тематическое моделирование на основе латентного размещения Дирихле LDA для автоматизированного выявления оптимального количества тем (концептов) когнитивной карты в каждом единичном временном периоде (за каждые 2 месяца с 2009 по 2021 гг.), при котором средняя когерентность тем тематической модели достигает своего локального максимума.

Мода количества тем, при котором достигается локальный максимум когерентности статических тематических моделей, оказалась равной 6. Поэтому в дальнейшем с помощью динамической тематической модели осуществлялся поиск 6 общих тем (концептов) когнитивной карты за рассматриваемый временной период.

Аналитический вид модели позволил проинтерпретировать 6 выявленных тем. Была оставлена нумерация, принятая в python, т.е. с нуля.

Темы (концепты) с весами 5-ти ключевых слов, найденные с помощью динамической тематической модели в 17-м временном интервале (ноябрь-декабрь 2011 г.), имеют следующий вид:

Тема 0 – Фактор затрат в повышении потребительской ценности:

· ('factor', 0.0207),

· ('cost', 0.0150),

· ('customer', 0.0116),

· ('value', 0.0106),

· ('high', 0.0093).

Тема 1 – Развитие бизнеса компании – социальный и продуктовый аспект:

· ('business', 0.0199),

· ('company', 0.0146),

· ('social', 0.0136),

· ('product', 0.0122),

· ('development', 0.0101).

Тема 2 – Менеджмент, маркетинг, технологии и бухгалтерский учет:

· ('management', 0.1021),

· ('vol', 0.0420),

· ('technology', 0.0418),

· ('marketing', 0.0365),

· ('accounting', 0.0305).

Тема 3 – Государственное потребление и финансы:

· ('government', 0.0256),

· ('consumer', 0.0213),

· ('capital', 0.0200),

· ('do', 0.0196),

· ('exist', 0.0132).

Тема 4 – Использование информации:

· ('use', 0.0131),

· ('set', 0.0088),

· ('student', 0.0086),

· ('information', 0.0072),

· ('present', 0.0066).

Тема 5 – Разнообразие потребностей клиентов:

· ('com', 0.0254),

· ('como', 0.0211),

· ('autore', 0.0160),

· ('diferente', 0.01427346219203583),

· ('cliente', 0.013136699992952588).

Далее была обучена модель Doc2Vec на всем наборе лемматизированных слов. Размер вектора был задан равным 1, чтобы в дальнейшем была возможность представить тему в конкретном временном интервале в виде скаляра, что позволило применить тест Грэнджера к результатам построения динамической тематической модели.

На основе обученной Doc2Vec модели было найдено векторное представление 6 тем динамической тематической модели за 78 временных периодов, где 1 временной период равен 2 месяцам.

Скалярное представление 6 тем динамической тематической модели за первые 5 временных периодов представлены на рисунке 1, где период 0 – это январь, февраль 2009 г., а период 4 – сентябрь, октябрь 2009 г.

Скалярное представление 6 тем динамической тематической модели за первые 5 временных периодов

Рисунок 1 - Скалярное представление 6 тем динамической тематической модели за первые 5 временных периодов

Далее к полученным результатам был применен тест Грэнджера на причинность (см.рис.2).
Результаты применения теста Грэнджера на причинность к скалярному представлению тем динамической тематической модели

Рисунок 2 - Результаты применения теста Грэнджера на причинность к скалярному представлению тем динамической тематической модели

Из рисунка 2 видно следующее (столбец влияет на строку):

· Тема 0 слабо влияет на тему 2, 3, 5.

· Тема 1 умеренно влияет на тему 2 и слабо влияет на темы 3 и 5.

· Тема 2 слабо влияет на темы 0, 1, 3, 5.

· Тема 3 слабо влияет на темы 1 и 2.

· Тема 4 слабо влияет на темы 0, 1, 2, 3.

· Тема 5 слабо влияет на темы 0, 1, 3.

Графическое изображение когнитивной карты представлено на рисунке 3. Здесь цифры соответствуют номерам выявленных тем.

Когнитивная карта интересов научного сообщества в области стратегического управления

Рисунок 3 - Когнитивная карта интересов научного сообщества в области стратегического управления

Тепловая карта с регрессионными коэффициентами теста Грэнджера представлена на рисунке 4.
Тепловая карта с регрессионными коэффициентами теста Грэнджера

Рисунок 4 - Тепловая карта с регрессионными коэффициентами теста Грэнджера

Регрессионные коэффициенты теста Грэнджера можно принять в качестве весов в нечеткой когнитивной карте, т.к. они показывают вклад одного концепта в динамику другого концепта.

В результате удалось автоматизировать процесс построения нечеткой когнитивной карты интересов научного сообщества в области стратегического управления.

6. Заключение

Таким образом, в статье разработана методика автоматизированного построения нечеткой когнитивной карты, позволяющей целостно взглянуть на хозяйственную ситуацию, а именно предложено выявлять концепты на основе методов тематического моделирования, их содержание представлять в виде скаляра с помощью модели Doc2Vec, затем устанавливать возможность наличия причинно-следственной связи между концептами на основе теста Гренджера.

В результате проведенного исследования построена нечеткая когнитивная карта в области стратегического управления на основе ключевых публикаций из ScienceDirect за 2009-2021 гг., что позволило выявить семантическую структуру научных публикаций, ключевые темы, волновавшие мировое научное сообщество в области стратегического управления за рассматриваемый период, и их динамику. Было обнаружено, что темы из года в год меняются, что выражается в изменении состава и порядка наиболее значимых терминов, связанных с темой. Так, в ноябре-декабре 2011 г. актуальными были темы, которые были проинтерпретированы следующим образом:

Тема 0 – Фактор затрат в повышении потребительской ценности.

Тема 1 – Развитие бизнеса компании – социальный и продуктовый аспект.

Тема 2 – Менеджмент, маркетинг, технологии и бухгалтерский учет.

Тема 3 – Государственное потребление и финансы.

Тема 4 – Использование информации.

Тема 5 – Разнообразие потребностей клиентов.

Формализованное представление тем на основе модели Doc2Vec и тест Грэнджера позволили установить вклад каждого концепта в динамику другого концепта когнитивной карты, что дает возможность моделировать крайне неопределенную ситуацию с помощью аппарата нечетких когнитивных карт.

Нужно отметить существующие ограничения предложенной методики. В настоящее время нет возможности дообучать модель DTM, тем самым наращивать ее сложность. Модель можно обучить на всех данных, что в нашем случае заняло неделю. Это существенный недостаток данного подхода к построению нечеткой когнитивной карты, который ограничивает его широкое применение и делает более привлекательными экспертные оценки. В связи с этим на данном этапе развития технологий представляется предпочтительным сочетание автоматизированного выделения концептов на основе методов тематического моделирования и экспертного установления причинно-следственных связей между выявленными концептами.

Article metrics

Views:2083
Downloads:19
Views
Total:
Views:2083