THE APPROACHES TO THE MAPS OF SCIENCE CREATION
Козлова И.В.
Доцент, кандидат технических наук, Российский экономический университет им. Г.В. Плеханова
О ПОДХОДАХ К СОЗДАНИЮ КАРТ НАУКИ
Аннотация
Рассматриваются современные подходы к созданию карт науки на основе использования электронных информационных ресурсов. Обсуждаются достоинства и недостатки этих подходов. Делается вывод о том, что методы построения карт науки не зависят от информации, используемой для формирования входного массива. Способ формирования входного массива определяется целями, стоящими перед создателями карт науки. Предлагается подход к динамической структуризации сетевого информационного пространства на основе тематических структур.
Ключевые слова: электронные информационные ресурсы, карта науки, семантический анализ, распознавание образов.
Kozlova I.V.
Associate Professor, PhD in Engineering, Plekhanov Russian University of Economics
THE APPROACHES TO THE MAPS OF SCIENCE CREATION
Abstract
The modern approaches to maps of science creation through the use of electronic information resources are considered. The advantages and disadvantages of these approaches are discussed. The conclusion is that the science mapping methods are independent of the information used to generate the input array. A method of forming the input array is determined by the objectives facing the maps of science creators. The approach to information space structuring on thematic structures basis is offered.
Keywords: electronic information resources, maps of science, semantic analysis, pattern recognition.
Современные тематические информационные ресурсы составляют сотни тысяч различных документов. Хранящиеся в виде различных баз данных они широко используются как в различных организациях, так и в сети Интернет. Постоянное увеличение числа документов в информационных ресурсах требует динамических классификационных систем для работы широкого круга пользователей с различными информационными потребностями.
Одним из направлений создания такого рода классификационных систем в 60-х гг. ХХ века явилось построение детальных карт развития отдельных направлений науки. Первыми создателями карт науки были С. Прайc, Ю. Гарфилд и Г. Смолл на основании данных из SCI (Science Citation Index, ISI, USA).
Для классификации научных направлений использовался метод социтирования (co-citation method), в основе которого лежит принцип выделения взаимосвязи между двумя публикациями по их совместному цитированию в последующих работах. Этот метод явился аналитической техникой для изучения когнитивных структур науки.
Целью кластеризации, проводимой по объединенной базе данных естественных и социальных наук SCI/SSCI, было получение глобальных карт и атласов науки пяти уровней. От «макроуровня», отображающего карты областей исследования в естественных и социальных науках с последующей детализацией кластеров до второго уровня, где выделенные кластеры представляли собой активные исследовательские фронты. Первый уровень содержал кластеры «ядерных» публикаций в этих исследовательских направлениях.
Исследовательские фронты, являясь структурной единицей тематического строения науки, объединяются в научные специальности, затем в более крупные научные направления, которые в совокупности и представляют иерархическую когнитивную структуру современной науки.
Визуализация кластеров и взаимосвязей между ними осуществляется с использованием графов. В результате формируется междисциплинарная карта науки. Такие карты позволяют получить детальное представление о структуре науки и выявить новые актуальные направления исследований. Исследование в динамике карт науки дает возможность оценивать концептуальные изменения, которые происходят в науке как на микроуровнях развития, так и на макроуровне, где фиксируются изменения, происходящие в традиционных отраслях знания.
Дальнейшее развитие метод социтирования получил при анализе базы данных Web of Knowledge (Thomson Reuters), частью которой является Web of Science, и базы данных Scopus (Elsevier). В [4] представлены карты науки России, Германии и Китая в виде «колеса науки», составленные на основании публикаций этих стран в Scopus в 2007–2011 годах. Кружочки в «колесе науки» представляют собой статьи авторов организации в тех областях, где организация занимает лидирующее положение в мировой науке. Диаметр соответствует количеству публикаций, а положение - дисциплинарной области. При этом, чем ближе к центру колеса располагаются кружочки, тем более междисциплинарный характер имеет соответствующий кластер публикаций.
Необходимо отметить, что основным ограничением для оценки научной деятельности российских организаций с использованием возможностей Scopus или Web of Knowledge является то, что значительная часть научных результатов российских ученых публикуется в российских журналах, они не попадают в мировое научное сообщество и не цитируются зарубежными учеными. Проект по разработке информационно-аналитической системы «Карта российской науки» для сбора и предоставления информации об актуальных направлениях научной деятельности российских ученых все еще не готов к запуску в штатном режиме. Источником информации для построения карты науки являются российские и зарубежные патенты, научные публикации, индексируемые в базе данных Web of Science, а также входящие в РИНЦ - систему, еще очень далекую от совершенства. Scopus и Thomson Reuters полностью не охватывают специализированные научные области, которые развиты в России, поэтому планируется расширить перечень источников данных.
Вопросы создания систем динамической классификации информационных ресурсов Интернет рассматриваются в работе [2]. При этом авторы отмечают, что в настоящее время в мировой информационной сети Интернет происходят процессы самоорганизации и структурирования различных видов документальной информации, своя классификационная система в сети еще не сформирована. Поисковые сервера, основанные на дескрипторных языках, показали свою несостоятельность при значительном увеличении числа разнообразных документов в сети Интернет.
Интересным представляется альтернативный подход, в котором информационные ресурсы Интернет используются в качестве базы для построения карт науки на основе данных о навигации пользователей сетевых ресурсов. Данный подход лишен недостатков, присущих подходам, использующим социтирование: для формирования связей между статьями должно пройти время после их публикации. В результате навигации по научным журналам информация о результатах тематического поиска публикаций сохраняется и, соотносясь с тематикой опубликованных научных работ автора, становится базой для построения карты науки [5].
В статье [1] предложен подход к динамической структуризации сетевого информационного пространства на основе тематических структур (ТС), построенных на терминологических сетях информационного пространства документов. Терминологическая сеть представляется в виде графа G (T,t), вершины которого представляют собой множество T терминов индексирования информационного пространства, а ребра – отношения сходства t, существующие между терминами индексирования. Отношение сходства t между парой терминов определяется их совместной встречаемостью в одном и том же документе, исходя из анализа смысла термина: термины сходны по смыслу, если сходны их окружения.
В этом случае из терминологической сети выделяются подграфы, включающие максимально возможные подмножества пар терминов, последовательно по цепочке, присоединяемых к исходной паре терминов с использованием связи через посредника. Каждый такой подграф моделирует отдельное тематическое направление данной области исследований. Это позволяет рассматривать задачу выделения тематических направлений как задачу объединения терминов в классы в соответствии с некоторым критерием сходства и решать ее методами кластерного анализа.
Следующим этапом решения задачи построения ТС области исследований является структуризация терминов внутри выделенного направления. В работе сформулирована задача выявления и оценки семантических отношений между терминами индексирования информационного пространства документов. Предварительный анализ видов семантических отношений между терминами в поисковых образах документов (ПОД) дает основание предполагать:
- существование устойчивых отношений между терминами ПОД;
- проявление статистических закономерностей встречаемости различных видов отношений при увеличении объемов исследуемых документов информационного пространства.
Это позволяет наметить путь в решении поставленной задачи, состоящий из двух этапов:
- определение основных видов (классов) семантических отношений и получение статистических характеристик их появления;
- отнесение каждой пары терминов к заданному классу отношений с использованием статистических критериев и методов распознавания образов.
В заключение следует отметить, что методы построения карт науки не зависят от того, какая информация (индексы цитирования, библиографические базы данных, ресурсы Интернет) используются для формирования входного массива. Способ формирования входного массива зависит от целей, которые стоят перед создателями карты науки. Без понимания семантических и статистических законов развития мирового информационного пространства, связанного с глобализацией информационных процессов в мире, разработка новых принципов построения классификационных систем представляется бесперспективной. Важность рассмотренных вопросов и необходимость их изучения в вузе подчеркивается в работе [3].
Литература
- Васина Е.Н., Козлова И.В. Построение тематических структур предметных областей // Современные проблемы науки и образования. – 2013. – № 6; URL: http://www.science-education.ru/113-11782 (дата обращения: 21.01.2014).
- Васина Е.Н., Козлова И.В. Проблема структуризации современных информационных ресурсов // Вестник Российского экономического университета им. Г.В. Плеханова, 2014 .- № 04.
- Коников А.И. Новые направления в преподавании дисциплины «Информатика» в экономических вузах // Вестник Российского экономического университета им. Г.В. Плеханова, 2013.- № 4 (58). С. 42-46.
- Москалева О. Научная доля России [Электронный ресурс]. – Режим доступа: http://www.gazeta.ru/science (дата обращения 14.01.2014).
- Bollen J. Clickstream Data Yields High-Resolution Maps of Science / PLOS ONE [Электронный ресурс]. – Режим доступа: http://journals.plos.org/plosone/article (дата обращения03.2009).
References
- Vasina E.N., Kozlova I.V. Postroenie tematicheskih struktur predmetnyh oblastej // Sovremennye problemy nauki i obrazovanija. – 2013. – № 6; URL: http://www.science-education.ru/113-11782 (data obrashhenija: 21.01.2014).
- Vasina E.N., Kozlova I.V. Problema strukturizacii sovremennyh informacionnyh resursov // Vestnik Rossijskogo jekonomicheskogo universiteta im. G.V. Plehanova, 2014 .- № 04.
- Konikov A.I. Novye napravlenija v prepodavanii discipliny «Informatika» v jekonomicheskih vuzah // Vestnik Rossijskogo jekonomicheskogo universiteta im. G.V. Plehanova, 2013.- № 4 (58). S. 42-46.
- Moskaleva O. Nauchnaja dolja Rossii [Jelektronnyj resurs]. – Rezhim dostupa: http://www.gazeta.ru/science (data obrashhenija 14.01.2014).
- Bollen J. Clickstream Data Yields High-Resolution Maps of Science / PLOS ONE [Jelektronnyj resurs]. – Rezhim dostupa: http://journals.plos.org/plosone/article(data obrashhenija11.03.2009).