СТРУКТУРНО-ТЕМАТИЧЕСКИЙ АНАЛИЗ ДОКУМЕНТАЛЬНЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ
Козлова И. В.
Доцент, кандидат технических наук, Российский экономический университет им. Г.В. Плеханова
СТРУКТУРНО-ТЕМАТИЧЕСКИЙ АНАЛИЗ ДОКУМЕНТАЛЬНЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ
Аннотация
Рассматривается эволюция методов структурно-тематического анализа документальных информационных ресурсов. Предлагается подход к динамической структуризации информационного пространства на основе анализа семантических отношений между терминами индексирования информационных ресурсов.
Ключевые слова: информационные ресурсы, структурно-тематический анализ, семантический анализ, статистические методы.
Kozlova I.V.
Associate Professor, PhD in Engineering, Plekhanov Russian University of Economics
STRUCTURAL ANALYSIS OF DOCUMENTARY SUBJECT OF INFORMATION RESOURCES
Abstract
The evolution of the methods of structural and thematic analysis of documentary information resources is considered. The approach to structuring a dynamic information environment based on the analysis of semantic relationships between terms of indexing information resources is offered.
Keywords: information resources, structural and thematic analysis, semantic analysis, statistical methods.
От оперативности анализа, компактности представления информации без потери при этом основного содержания во многом зависит эффективность работы аппарата управления по принятию решений о дальнейших направлениях деятельности в той или иной тематической области. Научно-обоснованному принятию решений предшествует выяснение структуры современной науки и ее составляющих, характеристика существующих и выявление нарождающихся научных направлений. Структура переднего края науки поддается анализу, в том числе и формальными методами.
Информационный анализ основывается на системных свойствах документального информационного потока (ДИП), являющегося «информационной моделью» определенной тематической области. Поскольку анализ полного документального потока по определенному направлению трудно осуществим, с достаточной степенью точности можно использовать ту его часть, которая формируется в базах данных международных информационных ресурсов.
Известные в настоящее время методы анализа информации могут быть классифицированы по двум признакам:
- по виду данных, которые используются для анализа;
- по целям проводимого анализа.
По виду данных, используемых для анализа, можно выделить методы анализа:
- реферативных и библиографических баз данных;
- баз данных о цитировании.
По целям анализа информации существующие методы делятся на:
- методы количественной оценки документального информационного потока (ДИП);
- методы структурно-тематического анализа научно-технической информации.
Метод анализа совместного цитирования публикаций предложен в 1973 году И.В. Маршаковой и H. Small, B. Griffith (США). Сущность метода состоит в том, что научные направления идентифицируются с помощью определения групп статей, которые часто цитируются совместно в некоторой последовательности публикаций по данному направлению. В [2] предcтавлен подход, основанный на формальном анализе мирового потока публикаций с целью построения «карт науки». «Карта науки» - графическое изображение основных направлений исследований, выделяемых в данной области науки и их взаимосвязей. Реализация данного подхода предполагает выделение высокоцитируемых статей из анализируемого документального информационного потока и получение системы связанных между собой кластеров ключевых статей по данной проблеме. Каждый такой кластер моделирует отдельную исследовательскую область, описание которой задается с помощью совокупности терминов, выбираемых из заглавий ключевых статей.
Предлагаемый формальный подход требует неформального выбора и анализа информационной базы для исследований. В качестве наиболее эффективной основы для его реализации используется Web of Science (ISI), США.
Метод социтирования публикаций для определения структуры той или иной области научных исследований, формирования групп тематически связанных журналов, получения оценок научного вклада отдельных ученых и научной деятельности отдельных организаций и стран основывается на использовании документальных баз данных и современных программных средств анализа БД. В МЦНТИ разработаны алгоритмические и программные средства, обеспечивающие машинную обработку БД SCI [1]. Программные средства позволяют осуществлять:
- группирование документов по их совместной цитируемости на основе послойной группировки с тем, чтобы при необходимости проанализировать связи как высокоцитируемых, так и низкоцитируемых источников;
- определение тематики выделенных кластеров.
Метод анализа совместной встречаемости терминов в научно-технических документах для целей определения структуры предметных областей разработан совместно Courtial J.- P., Callon M. и Turner W. во Франции [3]. Метод совместной встречаемости опирается на два теоретических положения, открытых в области социологии науки. Во-первых, было установлено, что существуют так называемые «проблемные сети» - ряд связанных между собой проблем, когда решение одной из них прямо или косвенно зависит от решения другой. Анализ совместной встречаемости терминов позволяет отразить изменения, происходящие в таких проблемных группировках, а также их временную стабилизацию.
Во-вторых, тематика статьи может рассматриваться как ограниченный набор «макротерминов», характеризующих проблемную сеть, которым могут быть поставлены в соответствие множества ключевых слов (КС), используемых при индексировании.
Проблемная сеть интерпретируется как граф, в вершинах которого стоят ключевые слова, связанные дугами, обозначающими совместную встречаемость. Выделяются два вида графов:
- тематический граф, куда входят наиболее частотные термины; их взаимосвязь определяется с помощью коэффициента включения I:
I=fij/fi , (1)
где fi - частота встречаемости i - ого ключевого слова,
fij - частота совместной встречаемости этих двух ключевых слов;
- локальные графы, построенные на терминах, для которых коэффициент включения оказался ниже порогового значения; взаимосвязь этих КС определяется с помощью показателя близости Р:
P = (fij/fi)/( fi /N), (2)
где N - общее количество статей в массиве.
Построение локальных графов характерно для ситуации, когда имеется связь i-j и j-k . Это означает, что термины i и j связаны в одной группе статей, j и k - в другой. Такого рода «локальные графы» отражают изолированные проблемы и существующие между ними взаимоотношения.
Анализ проблемных сетей на основе полученных графов позволяют сделать вывод о том, что в рассматриваемой тематической области имеется некоторая достаточно общая структура, которая характеризуется относительной близостью связанных элементов, изолированностью не связанных, и отражается в совместной встречаемости ключевых слов, используемых при индексировании документов. Этот метод базируется на анализе, как правило, небольших массивов документов - порядка нескольких сотен наиболее значимых с точки зрения экспертов статей, касающихся достаточно «узких» проблемных областей. При этом изучается взаимное расположение и окружение основных понятий исследуемой области, как в определенные моменты времени, так и в динамике.
Дальнейшим развитием исследований по использованию совместной встречаемости ключевых слов в наукометрических целях является метод кластерного анализа библиографических элементов документальных баз данных, разработанный в МЦНТИ [1].
Методы кластерного анализа используются для разбиения изучаемого множества объектов на основании сходства или различия между ними на отдельные группы наиболее сходных объектов, называемые кластерами. В основе методологии кластерного анализа лежат следующие принципы:
- определение единой меры сходства (различия), учитывающей ряд признаков объектов;
- чисто количественное решение вопроса о группировке объектов в кластеры.
В качестве объектов кластерного анализа библиографических данных выступает множество терминов индексирования, характеризующиеся множеством признаков - номеров документов БД, заиндексированных этими терминами. Существование ассоциативных связей между терминами позволяет устанавливать взаимосвязи между отдельными публикациями и даже научными направлениями. Мерой сходства между двумя терминами индексирования является косинусная мера сходства Дж. Сэлтона, основанная на векторном представлении термина, заданного своими координатами. Объектом кластеризации является квадратная матрица сходства размером М х М, где М - количество терминов индексирования в БД. Образование кластеров осуществляется на основе выбора пороговых значений коэффициентов сходства; критерием группирования является превышение величины коэффициента сходства внутри группы заданного порогового значения.
Структура полученных групп может рассматриваться как «дескрипторная карта науки», позволяющая увидеть структуру проблемных областей науки и их отдельных направлений. Изменения в структуре кластеров соответствуют изменениям в структуре исследовательских областей.
Следует отметить, что использование методов кластерного анализа имеет следующие ограничения:
- очень трудоемким является процесс идентификации кластеров, отсутствует методика анализа результатов иерархической кластеризации;
- статистическая природа связей между терминами в БД обусловливает случайный характер связей внутри кластеров;
- применение иерархических процедур кластеризации терминов не дает возможности получения иерархии терминов в традиционном ее понимании, т.к. основывается на анализе только статистических связей между терминами и не учитывает семантических отношений.
Семантические отношения между терминами индексирования отражают объективно существующие связи и отношения между объектами предметной области.
В ряде работ делались попытки количественной оценки основных парадигматических отношений между терминами индексирования, зафиксированных в информационно-поисковом тезаурусе (ИПТ) системы, представляющем собой пару <Tj,RTj> , где Tj - множество терминов БД, а RTj - множество бинарных отношений, заданных на Tj х Tj. Обычно RTj = {<род>, <вид>, <ас>}, где <род>, <вид> соответствуют родо-видовым отношениям, а <ас> - ассоциативным (часть - целое, причина - следствие и т.д.). Известны попытки численно оценить словарный состав ИПТ: количественные оценки родо-видовых отношений учитывали лишь количество ребер в компонентах связности исходного графа зависимостей.
Семантическая функция близости, учитывающая расстояние между терминами ti и tj и ширину основания деления терминов, входящих в путь Wij, основывается на использовании ИПТ системы наравне со статистическими закономерностями распределения терминов. Данная семантическая функция позволяет установить релевантность документов, заиндексированных терминами, отношения между которыми зафиксированы в ИПТ, а также оценить связи между документами при формировании файлов с кластерной организацией.
На практике чаще всего в тезаурусе зафиксировано лишь некоторое подмножество терминов БД Tj ⊆ T, определяющих понятия предметной области, и ограниченное подмножество отношений между ними RTj ⊆ R.
В целях преодоления рассмотренных ограничений в [2] предлагается подход, основанный на представлении ПОД в виде семантической сети, узлами которой являются термины индексирования, а дуги - семантическими отношениями между ними. Рассмотрение всех ПОД, входящих в БД, учет всех терминов и отношений между ними позволит построить семантическую сеть всей предметной области, моделью которой является данная БД.
Кроме того, хранение и использование семантических отношений между терминами индексирования при проведении поиска в БД, позволит обрабатывать запросы следующего вида:
- каковы основные направления заданной области исследований;
- какие виды устройств (например, роботов), в каких отраслях народного хозяйства используются;
- какие методы исследований применяются в данной области и т.д.
Такие запросы возникают у исследователей и организаторов НИР при анализе состояния области исследований, научной проблемы. Для анализа семантических отношений между терминами индексирования документальных баз данных необходимо решить следующие задачи:
- выявить основные классы семантических отношений в БД на основе анализа отношений пар терминов в ПОД;
- статистически выделить классы отношений;
- определить функцию принадлежности пары терминов к определенному классу отношений.
В результате решения этих задач появится возможность, с одной стороны, при построении дескрипторных карт науки выделять группы терминов по типу семантических отношений: объект - его части, объект - области его применения и т.д.:
Ci = Rj(t1,t2,…,tn), (3)
где Rj - семантическое отношение j -го типа,
а с другой - повысить функциональную эффективность АИПС при обработке запросов вышеуказанного типа на основе хранения выделенных семантических отношений между терминами в БД, что в настоящее время практически не используется.
Литература
- Батурин А.В., Молотков Л.И. Опыт автоматизированной обработки базы данных Science Citation Index в наукометрических целях // Проблемы информационных систем / МЦНТИ, М., 1983, № 2, с.54-67.
- Козлова И.В. О подходах к созданию карт науки // Международный научно-исследовательский журнал. № 10 (41). Ч.2. 2015. С.76-78. DOI18454/IRJ.2015.41.192.
- Сallon M., Courtial J., Turner W.A., Bauin S. From translation to problematic networks: an introduction to co-word analysis// Social Sci. Inf. – 1983. - 22(2).- p. 191 – 235.
References
- Baturin A.V., Molotkov L.I. Opyt avtomatizirovannoj obrabotki bazy dannyh Science Citation Index v naukometricheskih celjah // Problemy informacionnyh sistem / MCNTI, M., 1983, № 2, p.54-67.
- Kozlova I.V. O podhodah k sozdaniju kart nauki // Mezhdunarodnyj nauchno-issledovatel'skij zhurnal. № 10 (41). Part.2. 2015. P.76-78. DOI10.18454/IRJ.2015.41.192.
- Sallon M., Courtial J., Turner W.A., Bauin S. From translation to problematic networks: an introduction to co-word analysis// Social Sci. Inf. – 1983. - 22(2).- p. 191 – 235.