ФОРМАЛИЗАЦИЯ ПРОЦЕДУРЫ СТРУКТУРИЗАЦИИ ОБЛАСТИ ИССЛЕДОВАНИЙ
Козлова И.В.1, Васина Е.Н.2
1 ORCID: 0000-0003-0940-942X, Доцент, кандидат технических наук, Российский экономический университет им. Г.В. Плеханова, 2 ORCID: 0000-0002-5205-8525, Доцент, кандидат технических наук, Российская таможенная академия
ФОРМАЛИЗАЦИЯ ПРОЦЕДУРЫ СТРУКТУРИЗАЦИИ ОБЛАСТИ ИССЛЕДОВАНИЙ
Аннотация
В статье предлагается подход, использующий аксиоматическую теорию сходства и элементы теории графов для решения поставленной задачи. Задача разбиения терминологической сети, моделирующей тематическую область, на отдельные составляющие решается как задача выделения на графе классов толерантности методом разбиения графа на максимально полные подграфы.
Ключевые слова: структуризация, область исследований, тематическая структура, аксиоматическая теория сходства, класс толерантности, теория графов, кластеризация.
Kozlova I.V.1, Vasina E.N.2
1 ORCID: 0000-0003-0940-942X, Associate Professor, PhD in Engineering, Plekhanov Russian University of Economics, 2 ORCID: 0000-0002-5205-8525, Associate Professor, PhD in Engineering, Russian Customs Academy
PROCEDURE FORMALIZATION OF RESEARCHES AREA STRUCTURIZATION
Abstract
In the article the approach using the axiomatic similarity theory and elements of graph theory for the solution of an objective is offered. The problem of terminological network splitting - a thematic area model is solved on separate components as a problem of allocation on tolerance classes by method of splitting the graph into the fullest subgraphs.
Keywords: structurization, researches area, thematic structure, axiomatic similarity theory, tolerance class, graph theory, clustering.
Предлагаемый в данной статье подход основан на представлении области исследований в виде совокупности отдельных научных направлений. При этом каждое направление определяется множеством терминов: ключевых слов или дескрипторов, индексирующих информационные ресурсы и связанных между собой тематическим сходством [1;3].
Удобным математическим аппаратом, описывающим сходство между объектами различной природы, является аксиоматическая теория сходства (АТС). В рамках АТС сходство объектов рассматривается как отношение между попарно сравниваемыми объектами - бинарное отношение локального сходства. В свою очередь локальное сходство рассматривается как отношение толерантности, обладающее свойствами рефлексивности и симметричности [4;5].
Для целей структуризации тематической области необходимо представить локальное сходство между терминами индексирования документов баз данных в формализованном виде. С позиций АТС, имеются два множества: T = {t1, t2, …,ti,…tn} - терминов индексирования и документов D={d1, d2,…,dj,…dm} БД. На множестве Т задается набор признаков (свойств), т.е. одноместных предикатов P(ti)={0,1}. Множество признаков D - документы БД. В этом случае отображение f : T→D сопоставляет каждому ti все документы, проиндексированные этим термином,- D(ti), D(ti) ⊆D. Обратное отображение f-1: D→T сопоставляет каждому признаку dj множество T(dj,) терминов, имеющих этот признак.
Отображение f является отношением, т.е. подмножеством R декартова произведения множеств T×D. Используя отношение R на множестве T×D , выразим отображения f (T) и f-1(D)
- множество всех признаков термина ti;
- множество всех терминов, обладающих свойством dj .
Отношение R можно изобразить в виде ориентированного графа
G (T, D, R) (рис.1), множество вершин которого совпадает с , а стрелки соединяют каждую вершину ti⊆T с вершинами dj i⊆D, для которых предикат P(ti )=1.
Рис. 1. Граф G (T, D, R)
Дальнейшие рассуждения основываются на важном понятии АТС – «карты»: С=< Т, D, R>, где T и D - множества терминов и документов, R - отношение на T×D. Карта - это экспликация понятия «множество с признаками». Из свойства регулярности карты C вытекает [4]:
- Отображение f (отношение R) определено на всем множестве T и отображает T на D, т.е. каждый термин обладает хотя бы одним признаком;
- Если для двух признаков d1 и d2 множества прообразов совпадают, то признаки d1 и d2 совпадают, разным признакам соответствуют разные множества терминов.
Вхождение множества Т в карту C позволяет определить на Т отношение локального сходства τ, называемое отношением толерантности (сходства) при выполнении следующих условий:
- рефлексивность ti τ ti , ti ⊆Т;
- симметричность ti τ tj → tj τ ti , ti ⊆Т, tj ⊆Т;
- интранзитивность ti τ tj & ti τ tr not →, tj τ tk.
Термины ti и tj локально сходны, если: D(ti )∩ D(tj )≠Ø
Из вышесказанного следует:
- Локальное сходство требует наличия общего признака у пары терминов;
- Для любой регулярной карты C=<T,D,R> на множестве терминов T можно ввести отношение сходства τ.
Множество T с заданным на нем отношением толерантности τ рассматривается как пространство толерантности Tτ = <T, τ>. Tτ можно изобразить неориентированным графом G (T, τ), в котором ребрами соединены вершины – термины индексирования, связанные отношением τ.
Отношение сходства между двумя терминами определяется их совместной встречаемостью в одних и тех же документах. Это свойство терминов широко применяется при статистическом анализе документальных информационных ресурсов, а также создании карт науки. Граф G (T,τ) представляет собой «терминологическую сеть», заданную на множестве терминов индексирования [2].
Для попарно толерантных терминов используем понятие «предкласса» толерантности:
- подмножество L ⊆ Tτ называется предклассом в Tτ, если выполнено соотношение ti τ tj;
- подмножество К ⊆ Tτ называется классом толерантности, если для любых ti и tj, принадлежащих этому классу ti τ tj, а для любого tk , не принадлежащего К, найдется в K хотя бы один термин tj , для которого tk τ tj не будет выполнено.
Отсюда следует, что:
- класс толерантности - максимальный (по включению) предкласс;
- если ti и tj, принадлежат одному классу, то ti τ tj ;
- если ti τ tj, то существует общий класс, содержащий ti и tj ;
- все классы толерантности в пространстве Tτ = <T, τ> однозначно определены.
Другими словами, для нашего случая класс толерантности - это максимальное множество взаимно толерантных терминов. Локальное сходство задается как покрытие множества терминов классами толерантности. Множество всех классов толерантности для данного отношения будем обозначать K, тогда пространство толерантности будет выражено:
. Отметим, что в графе G (T, τ), класс толерантности образует максимальный полный подграф: все вершины, входящие в один класс, соединены ребрами.
Таким образом, задача выделения на графе G (T, τ) классов толерантности, рассматриваемая нами как задача разбиения терминологической сети, моделирующей тематическую область, на отдельные составляющие сводится к разбиению графа G (T, τ) на максимально полные подграфы.
Существует и другой путь разбиения терминологической сети G (T, τ), состоящий в установлении отношения транзитивного замыкания на множестве Tτ. Отношение сходства, заданное на множестве терминов, в общем случае не транзитивно, т.е.
Принято считать термины сходными по смыслу, если сходны их окружения, т.е. связь терминов ti и tk осуществляется через термин tj . Эта связь терминов может быть получена с помощью композиции отношения τ.
Обозначим композицию отношения τ с самим собой:
τ (2) = τ°τ. (2)
Условие существования отношения τ (2) имеет вид:
Формула (3) основана на существовании косвенной связи между терминами ti и tk через термин tj.
Транзитивное замыкание отношения τ будем обозначать через . Соотношение ti tj, выполнено, если существует цепочка элементов из Tτ: z0=ti, z1…,zn=tj такая, что между соседними элементами этой цепочки выполнено отношение τ:
z0 τ z1, z1 τ z2,…zn-1 τ zn (4)
В частном случае эта цепочка может состоять только из двух элементов (n=1): z0=ti и z1=tj. Если выполнено ti τ tj , т.е. z0 τ z1 , то выполнено и соотношение ti tj . Это можно записать в виде . Если цепочка состоит из трех элементов (n = 2), то ti τ tj и tj τ tk . Следовательно,
ti τ°τ tk и ti tj только в том случае, если выполнено хотя бы одно соотношение вида:
ti τ°τ°τ… °τ tj или ti τ(n) tj (5)
Используя операцию объединения множеств, отношение транзитивного замыкания можно представить в виде:
т.е. транзитивное замыкание отношения τ - это объединение всех степеней данного отношения.
Представление отношения τ в виде графа G (Т, τ) позволяет отождествить задачу поиска транзитивного замыкания отношения τ с задачей о достижимости вершин графа, т.е. поиска произведения ребер, соединяющего вершины графа ti и tk. Иначе говоря, эта задача эквивалентна разбиению графа G (Т, τ) на связные компоненты, т.е. такие подграфы, в которых каждая пара вершин связана некоторым путем [9]. При этом из терминологической сети выделяются подграфы, включающие максимально возможные подмножества пар терминов, последовательно присоединяемых к исходной паре терминов с использованием связи через посредника. Каждый такой подграф моделирует отдельное тематическое направление данной области исследований.
В формализованном виде задача выделения тематических направлений в заданной области исследований выглядит следующим образом. Имеется множество документов D={d1, d2,…di,…dM} - фрагмент БД, являющееся информационной моделью тематической области. Осуществляется отображение
f: D→T, что приводит к заданию на множестве T отношения сходства τ в виде графа G (Т, τ) [6;7]..
В качестве тематического направления принимаются следующие виды подграфов:
- подграф графа G (Т, τ), являющийся классом толерантности Gk (Т, τ’) и удовлетворяющий условиям:
b) - максимальный полный подграф, в котором выходная степень вершины ti – kf(ti) равна входной степени вершины ti – bf(ti) и равна числу вершин подграфа – 1:
kf(ti)=bf(ti)=n-1 (9)
- подграф графа G (Т, τ), полученный как транзитивное замыкание отношения сходства τ и удовлетворяющий условиям:
kf(ti)=bf(ti)=2.
Таким образом, задача разбиения графа G (Т, τ) на подграфы эквивалентна задаче разбиения множества терминов Т на классы в соответствии с некоторым критерием сходства. Это позволяет рассматривать задачу выделения тематических направлений как задачу автоматической классификации и использовать для ее решения методы кластерного анализа [8;10;11].
В заключение следует отметить, что следующий этап - упорядочение терминов внутри выделенного направления с учетом естественного порядка расположения понятий при построении различных классификационных схем - иерархии.
Литература
- Васина Е.Н., Козлова И.В. Методы структурно-тематического анализа документальной информации // Научные труды Вольного экономического общества России. - 2014. - Т. 186, № 186. - С. 358-364.
- Васина Е.Н., Козлова И.В. Построение тематических структур предметных областей // Современные проблемы науки и образования. -2013. - № 6. - С. 208.
- Васина Е.Н., Козлова И.В. Проблема структуризации современных информационных ресурсов // Вестник Российского экономического университета им. Г.В. Плеханова. - 2014. - № 4 (70). - С. 78-89.
- Шрейдер Ю. А. Алгебра классификации // НТИ. Сер. 2. - 1974. - № 9. -С. 3-6.
- Гусакова С.М., Финн В.К. О формализации локального и глобального сходств // НТИ. Сер. 2. - 1986. - № 6. - С.16-18.
- Козлова И.В. О подходах к созданию карт науки // Международный научно-исследовательский журнал. - 2015. - № 10-2 (41). - С. 76-77.
- Козлова И.В. Структурно-тематический анализ документальных информа-ционных ресурсов // Международный научно-исследовательский журнал. - 2016. - № 1-2 (43). - С. 38-40.
- Миркин Б.Г. Методы кластер - анализа для поддержки принятия решений. - М.: Изд. дом Национального исследовательского университета «Высшая школа экономики», 2011. – 88 с.
- Оре О. Теория графов. - Изд. 2-е, стереотипное.- М.: Наука, 1980. - 336 с.
- Сагинов Ю.Л., Феоктистова Н.А. Использование нейросетевой технологии для количественной оценки многопараметрических объектов и процессов в экономике и бизнесе // Вестник Российского экономического университета им. Г.В. Плеханова. Вступление. Путь в науку. - 2015. - № 3-4 (12). - С. 42-57.
- Телюк М.С. Доходы населения в соотношении с производством и потреблением региона // Вестник Российского экономического университета им. Г.В. Плеханова. Вступление. Путь в науку. - 2014. - № 3-4. - С. 19-23.
References
- Vasina E.N., Kozlova I.V. Metody strukturno-tematicheskogo analiza dokumental'noj informacii // Nauchnye trudy Vol'nogo jekonomicheskogo obshhestva Rossii. - 2014. - T. 186, № 186. - S. 358-364.
- Vasina E.N., Kozlova I.V. Postroenie tematicheskih struktur predmetnyh oblastej // Sovremennye problemy nauki i obrazovanija. -2013. - № 6. - S. 208.
- Vasina E.N., Kozlova I.V. Problema strukturizacii sovremennyh informacionnyh resursov // Vestnik Rossijskogo jekonomicheskogo universiteta im. G.V. Plehanova. - 2014. - № 4 (70). - S. 78-89.
- Shrejder Ju. A. Algebra klassifikacii // NTI. Ser. 2. - 1974. - № 9. -
- 3-6.
- Gusakova S.M., Finn V.K. O formalizacii lokal'nogo i global'nogo shodstv // NTI. Ser. 2. - 1986. - № 6. - S.16-18.
- Kozlova I.V. O podhodah k sozdaniju kart nauki // Mezhdunarodnyj nauchno-issledovatel'skij zhurnal. - 2015. - № 10-2 (41). - S. 76-77.
- Kozlova I.V. Strukturno-tematicheskij analiz dokumental'nyh informa-cionnyh resursov // Mezhdunarodnyj nauchno-issledovatel'skij zhurnal. - 2016. - № 1-2 (43). - S. 38-40.
- Mirkin B.G. Metody klaster - analiza dlja podderzhki prinjatija reshenij. - M.: Izd. dom Nacional'nogo issledovatel'skogo universiteta «Vysshaja shkola jekonomiki», 2011. – 88 s.
- Ore O. Teorija grafov. - Izd. 2-e, stereotipnoe.- M.: Nauka, 1980. - 336 s.
- Saginov Ju.L., Feoktistova N.A. Ispol'zovanie nejrosetevoj tehnologii dlja kolichestvennoj ocenki mnogoparametricheskih objektov i processov v jekonomike i biznese // Vestnik Rossijskogo jekonomicheskogo universiteta im. G.V. Plehanova. Vstuplenie. Put' v nauku. - 2015. - № 3-4 (12). - S. 42-57.
- Teljuk M.S. Dohody naselenija v sootnoshenii s proizvodstvom i potrebleniem regiona // Vestnik Rossijskogo jekonomicheskogo universiteta im. G.V. Plehanova. Vstuplenie. Put' v nauku. - 2014. - № 3-4. - S. 19-23.