Big Data Method for Content Analysis (on the example of the regional mass media of the socio-political newspaper "Vechernaya Ufa")

Demicheva A. S.; Poliakova E. V.

doi:10.23670/IRJ.2023.135.19

Big Data Method for Content Analysis (on the example of the regional mass media of the socio-political newspaper "Vechernaya Ufa")

Research article

DOI:

https://doi.org/10.23670/IRJ.2023.135.19

Issue: № 9 (135), 2023

Suggested:

13.06.2023

Accepted:

22.08.2023

Published:

18.09.2023

728

19

XML

PDF

Abstract

The aim of this article is to compare traditional content analysis and its analogue based on big data analysis in order to identify the specifics of the latter, its capabilities and limitations. For illustrative purposes, the work presents the result of machine analysis of the news column of the regional newspaper "Vechernaya Ufa" on the impact of the Special Military Operation in Ukraine on the news agenda of the publication. In the main part of the article the conducted research is analysed from the point of view of its methodological characteristics, its advantages (speed, work with the general population) and disadvantages (rough work with language, inability to take into account the context) are disclosed. The conclusion is made about the heuristic value of big data analysis, but also about its insufficiency for a full-fledged research.

Keywords:

big data analysis, content analysis, scientific methodology, "Vechernyaya Ufa" newspaper, Special Military Operation.

1. Введение

Современные научные исследования редко обходятся без применения новых цифровых инструментов и методов – развитие технологий и техники диктует ученым новые подходы к проведению исследований. Одним из таких инструментов являются анализ больших данных и основывающиеся на нем конкретные научные методы. Например, метод контент-анализа известен уже давно, но появление специальных программ и средств расширило его возможности и сделало более доступным. Так, например, значительную популярность набирает анализ социальных сетей (

, , и др.) и электронных СМИ и прочих источников информации (, , и др.).

Контент-анализ в первую очередь является количественным методом – его характеризуют как формализованный, систематизированный и строгий

, что облегчает его трансфер в машинную среду, также оперирующую формализованными единицами, однако для применения этого метода важно выявить, как именно перевод от исследователя к машине влияет на него, какие дает возможности и какие появляются ограничения.

В данной статье для наглядности проводится контент-анализ новостной колонки регионального СМИ машинным способом с целью выявить, насколько в нем отразилась тема Специальной военной операции на Украине, и последующий разбор особенностей и отличий по сравнению с традиционным методом проведения подобного исследования.

2. Методы и процедура исследования

Используя возможности программы RStudio, с помощью пакета rvest с сайта газеты «Вечерняя Уфа»

, были собраны сообщения из раздела «Новости» за десять месяцев (октябрь 2021 – июль 2022) – пять месяцев до СВО и пять месяцев после, чтобы можно было сравнить, как изменилась лексика публикаций.

Рисунок 1 - Проверка политики сайта подтвердила, что данные с него собирать разрешено

Отдельно стоит отметить, что в сфере работы с цифровой информацией уже сложились (и продолжают складываться) собственные этические нормы. Так, владельцы открытых источников (в данном случае редакция газеты) по своему усмотрению и на основе правовых норм устанавливают, можно ли и какую именно информацию допустимо собирать с их ресурса машинным способом. Например, сайт «Вечерней Уфы» (см. рис. 1) запрещает к сбору только разделы, связанные с пользователями сайта (их регистрационные данные, записи/комментарии и т.п.), что является достаточно частой политикой открытых источников. В то же время большинству таких источников затруднительно контролировать исполнение подобных запретов, и оно остается на совести исследователя. Таким образом, в этике ученого появляются новые пункты, связанные с добросовестным использованием открытой информации, о чем не следует забывать при проведении исследований цифровыми методами на основе такой информации.

Возвращаясь к теме статьи: всего было спарсено (собрано) 210 новостей. Для последующего анализа была проведена предобработка возможностями пакета tm. Предобработка включала в себя стемминг (обрезку окончаний), замену заглавных букв на прописные, удаление чисел, знаков препинания, лишних пробелов и стоп-слов. К стандартному списку стоп-слов для русского языка (союзы, предлоги и т.п.) были добавлены имена авторов статей. Кроме того, из перечня слов, входивших в заголовки, были удалены слова повторяющегося объявления о поиске редакцией корреспондента. Все эти операции являются рутинными при работе с текстовыми массивами и не представляют собой чего-то исключительного. По сути, они позволяют отсечь языковой «шум», унифицировать и взять в работу только значимые лексемы, на основании которых можно говорить о содержании текстов и объеме содержащихся в них тем.

По итогам предобработки фрейм заголовков насчитывал 509 слов, фрейм непосредственно текстов – 4156 слов. На рисунке 2 представлены первые 15 строк фреймов заголовков (рис. 2а) и текстов статей (рис. 2б). Разумеется, для больших данных это очень несущественный объем – в этой области оперируют на порядки превосходящими числами – сотнями тысяч и миллионами. Чем больший объем данных обрабатывается, тем более детальный и точный результат можно получить. Однако для целей этой работы нет необходимости расширять выборку, поскольку нас интересует методологическая часть, а не непосредственно результаты анализа.

Рисунок 2 - Первые 15 слов каждого фрейма – заголовки (а) и тексты статей (б)

Далее с помощью пакета wordcloud были построены облака слов к каждому из фреймов. Облако слов представляет собой визуализацию частотности употребления слов в тексте: чем чаще встречается какой-либо элемент в исследуемом объеме, тем более крупным шрифтом он написан, и, соответственно, наоборот. Поэтому облака слов достаточно наглядны и интуитивно понятны – даже короткий взгляд на этот вид графика позволяет легко определить, какие темы преобладают, какие имеют меньшее значение, какие примерно равны.

Рисунок 3 - Облако слов, упоминаемых в заголовках за весь выбранный период

Рисунок 4 - Облако слов, используемых в текстах статей

Как видно из рисунков 2а и 3, частота упоминания слов в заголовках не особо разнится. Выделяются «вечерняя» и «Уфа», поскольку они входили в повторяющееся объявление о поиске корреспондента, остальные слова на инфографике примерно одного размера, их частота употребления – 2-3 раза.

Облако слов из текстов статей (рис. 4) дает больше информации. Например, очевидно, что стемминг проводится очень грубо: такие слова, как «республика» и «республиканский», «Уфа» и «уфимский» восприняты системой как разные, хотя для контент-анализа разница несущественна. Кроме того, в списки попали неинформативные обрезки слов – «ел», «можн», «наш».

Любопытно, что имя Главы Республики Радий вошло в облако в форме «рад», в то время как фамилия Хабиров не попала. Если посмотреть в самом фрейме, то «рад» встречается 19 раз, а «хабир» – только 9. Полагаем, это может быть связано с тем, что обработанная форма образована не только от имени Главы, но и от краткого прилагательного «рад», предлога «ради» или даже от упоминания украинского парламента.

Также в облаке вызывает интерес форма «сво». Не вызывает особого сомнения утверждение, что это стемминг различных форм местоимения «свой», однако вполне допустимо предположить, что какая-то часть могла быть образована аббревиатурой СВО – специальная военная операция, проводимая в настоящее время Российской Федерацией на территориях ДНР, ЛНР и Украины. О том, что эта часть, если она действительно есть, не особо значительна, свидетельствует контекст – остальные слова в облаке не отсылают однозначно к военной тематике. Отчасти к таковым могут быть отнесены «защита» (но – опять же «защита детей», «защита прав потребителей» и т.п.), «участник» (устойчивое в настоящее время выражение «участник СВО» не перекрывает «участников» любых других мероприятий, тем более что в облаке также фигурирует слово «конкурс») и «служба» (но и здесь нет однозначной отсылки к военной службе – это может быть государственная или муниципальная служба, служба спасения, служба занятости и т.п.).

Если посмотреть только новости за период после начала СВО, то картина остается практически идентичной (см. рис. 5).

Рисунок 5 - Облако слов, используемых в текстах статей после начала СВО

Из новых слов появились «пометк», «обраща», «побед», «государствен», «стал», «редакц», «газет», «конкурс». Скорее всего, в тренд вышли темы, связанные с 9 мая (День Победы) и что-то, связанное с редакционными новостями. Можно сделать вывод о том, что СВО отразилась на региональной новостной повестке очень слабо (если вообще отразилась).

3. Основные результаты

Представляется очевидным, что машинный анализ обладает гораздо более высокой степенью детализации исследования, однако следует отметить, что она достигается в ущерб целостному видению ситуации. Частотный подсчет отдельных единиц не позволяет восстановить контекст, который воспринимает исследователь при обращении к традиционному контент-анализу. То есть результатом машинного анализа можно считать мозаику тем, для дальнейшей разработки которых нужно более углубленное исследование. Для некоторых исследований этого может быть достаточно – например, если нужно проанализировать, какой объем занимает тема в совокупности текстов, ее соотношение с другими темами и т.п. Но если целью исследования является что-то более сложное, например, оценка отношения автора к теме, языковой портрет, определение влияющих факторов и т.д., без дополнительных процедур, причем в меньшей степени цифровизированных, не обойтись. Есть и промежуточные задачи, решаемые машинным способом, но углубляющиеся в анализ – сравнение текстов по интересующим темам (их близость или отдаленность друг от друга), поиск связей между темами или текстами и т.д. Однако для их решения, опять же, необходимо более серьезное погружение в исследование, не ограничивающееся написанием кода для машины, а требующее понимания проблемной области и постановки задачи.

Необходимо отметить также, что машинный анализ базируется на принципиально ином подходе к анализу текста, чем традиционный контент-анализ. Оставляя в стороне формирование выборки – при использовании последнего сначала определяется тема, формируются ключевые теоретические понятия, выявляются субкатегории и единицы счета и только затем происходит подсчет единиц, который позволяет анализировать тексты по заданной теме. В случае машинного анализа алгоритм практически противоположен: сначала происходит подсчет, а после выделяются темы и категории. С учетом этого можно ли утверждать, что машинный анализ все еще остается контент-анализом, или это какой-то новый метод, требующий дифференциации от традиционного контент-анализа?

Применение метода big data для контент-анализа новостных публикаций регионального издания выявило как плюсы, так и минусы такого подхода. К его достоинствам, безусловно, можно отнести скорость сбора и обработки материала: написанный код проводит указанные операции за несколько минут, легко адаптируется под уточненные задачи (общий фрейм и фрейм за определенный период), визуализирует результат.

К выявленным недостаткам можно отнести грубую работу с языком, высокую погрешность образования форм и иные сложности, вызванные в том числе особенностями русского языка. Стоит отметить, что существуют более совершенные инструменты, например, вместо стемминга может быть использована лемматизация – т.е. слова не обрезаются, а приводятся в первоначальную форму (именительный падеж единственного числа для существительных, инфинитив для глаголов и т.д.). Да и проведенные операции могут быть осуществлены с помощью других пакетов и других команд, что может дать отличающийся результат. Если говорить образно, то это как использовать для измерения два теоретически одинаковых прибора, но из-за погрешности настройки они могут дать разный результат. Кроме того, существуют специальные программы, предназначенные непосредственно для контент-анализа (например, MaxQDA,

), чей функционал шире, а настройки гибче и в большей степени способствуют решению поставленных задач.

4. Обсуждение

Если говорить о сравнении традиционного контент-анализа и исследования методом анализа больших данных, то можно выделить следующие отличия:

1. Нет необходимости формировать выборочную совокупность – методика позволяет провести контент-анализ всей генеральной совокупности. Во-первых, это позволяет сократить время на подготовку к исследованию. Во-вторых, помогает избежать ошибок, которые могут быть совершены при формировании выборочной совокупности. В-третьих, дает более точный результат, поскольку анализ на основе выборочной совокупности по умолчанию является неполной индукцией, в то время как генеральная совокупность (по умолчанию) исчерпывает множество исследуемых объектов, а значит, ее анализ представляется полной индукцией;

2. Нет необходимости выделять единицы анализа. При проведении традиционного контент-анализа особо кропотливая и трудоемкая часть работы связана с подбором смысловых единиц, наличие которых и анализируется в исследуемом объекте. Анализ больших данных, по сути, превращает каждое слово, встречающееся в каждом тексте совокупности, в такую единицу и считает частоту его употребления. Схожие алгоритмы есть и для более крупных единиц анализа (например, устойчивые словосочетания, темы и т.п.);

3. При машинном анализе затруднительно выявить и учесть синонимичные слова, метафорические обороты и использование местоимений при подсчете единиц анализа. Также представляет определенную сложность оценка контекста для них. В этих ситуациях необходимо оценивать слова не как отдельные единицы, а как часть целого (словосочетания, предложения, абзаца), а машина именно что разрывает связи между единицами и ведет учет каждой отдельно. Некоторые программные решения

, специализирующиеся именно на контент-анализе, позволяют обратиться к контексту в каждом конкретном случае – выдают подборку фрагментов текстов, где встречается выбранная единица анализа, на установленную исследователем «глубину» – количество слов вокруг, предложение, абзац, в котором оно употребляется, что частично снимает указанную трудность, однако не избавляет от нее полностью, поскольку требует уже «немашинного» подхода к анализу и, в каком-то смысле, возвращает к традиционной форме исследования.

Отдельно следует отметить тот факт, что традиционный контент-анализ требует от исследователя четкой постановки цели и задач исследования – и, соответственно, длительную процедуру его подготовки. Он требует постановки проблемы. Машинный же анализ в этом отношении более лоялен к исследователю. Он позволяет взять любой массив информации и посмотреть, что в нем есть интересного и проблемного. Разумеется, исследователь должен понимать, куда смотреть и что искать, и, тем не менее, машинный анализ дает куда больший простор при постановке целей и задач

.

5. Заключение

Резюмируя сказанное, машинный анализ представляется удобным инструментом на начальном этапе для первичной оценки текстов. Он позволяет анализировать всю совокупность текстов, а не выборку, выделить основные темы (единицы анализа), оценить общий «объем» интересующих тем в генеральной совокупности. По сути, строит наглядную макрокарту исследуемых текстов, отталкиваясь от которой можно переходить к более глубокому и конкретному исследованию интересующей темы, в том числе к качественному контент-анализу.

Если говорить об анализе больших данных, как о научном методе, то его научным результатом является эмпирическое обобщение (на основе полной или неполной индукции – в зависимости от характеристики генеральной совокупности), что с уверенностью позволяет отнести данный метод к количественным методам эмпирического уровня научного познания

.

Additional materials

Not specified

Financing

Авторы не получали финансовой поддержки для проведения исследования, написания и публикации статьи

Acknowledgements

Not specified

Conflicts of interests

Not specified

References

Akhmetyanova N. State and Legal Regulation of the Flow of MediaInformation about Coronavirus Infection COVID-19 / N. Akhmetyanova, I. Saitbattalova, E. Poliakova // Proceedings of the IX International Scientific and Practical Conference "Current Problems of Social and Labour Relations (ISPC-CPSLR 2021)". — Atlantis Press, 2022. — P. 10-13. — DOI: 10.2991/assehr.k.220208.002.
Ahmet'janova N.A. Sovremennye pechatnye izdanija Respubliki Bashkortostan: uchebnoe posobie [Modern Printed Publications of the Republic of Bashkortostan: Study Guide] / N.A. Ahmet'janova. — Ufa: Republic of Bashkortostan Publishing House, 2018. — 113 p. [in Russian]
Berezovskaja A.A. «Vot-vot vojdet v Scopus»: kontent-analiz nauchnyh jelektronnyh zhurnalov ["About to enter Scopus": content analysis of scientific electronic journals] / A.A. Berezovskaja // Aktual'nye problemy lingvistiki i literaturovedenija: Sbornik materialov VI (XX) Mezhdunarodnoj konferencii molodyh uchenyh, Tomsk, 18-19 aprelja 2019 goda [Current Problems of Linguistics and Literary Studies: Collection of Materials of the VI (XX) International Conference of Young Scientists, Tomsk, April 18-19, 2019] / Ed. by E.O. Tret'jakov. — Tomsk: STT, 2020. — P. 334-335. [in Russian]
Bodrov A.A. Filosofija bol'shih dannyh v paradigme mezhdisciplinarnyh issledovanij [Philosophy of Big Data in the Paradigm of Interdisciplinary Research] / A.A. Bodrov // Vestnik Samarskogo gosudarstvennogo tehnicheskogo universiteta. Serija: Filosofija [Bulletin of Samara State Technical University. Series: Philosophy]. — 2020. — № 1(3). — P. 14-21. [in Russian]
Borisova U.S. Imidzh mjera Jakutska: kontent-analiz internet SMI [Image of Yakutsk Mayor: Content Analysis of Internet Media] / U.S. Borisova, N.R. Popov // Sovremennye nauchnye issledovanija: aktual''nye voprosy, dostizhenija i innovacii: sbornik statej XIV Mezhdunarodnoj nauchno-prakticheskoj konferencii, Penza, 5 oktjabrja 2020 goda [Modern Scientific Research: Topical Issues, Achievements and Innovations: Collection of Articles of XIV International Scientific and Practical Conference, Penza, October 5, 2020]. — Penza: Science and Enlightenment, 2020. — P. 211-213. [in Russian]
Demicheva A.S. Analiz bol'shih dannyh kak jempiricheskij metod nauchnogo poznanija [A Big Data Analysis as an Empirical Method of Scientific Knowledge] / A.S. Demicheva // Pjataja zimnjaja shkola po gumanitarnoj informatike: sbornik dokladov, Kaliningrad, 16-18 dekabrja 2021 goda [Fifth Winter School on Humanitarian Informatics: Collection of Papers, Kaliningrad, December 16-18, 2021]. — Kaliningrad: Baltic Federal University named after Immanuel Kant, 2021. — P. 3-7. [in Russian]
Maranchak A.G. Social'nye seti kak novyj politicheskij instrument: proekt kontent-analiza seti Instagram [Social Media as a New Political Tool: Instagram Content Analysis Project] / A.G. Maranchak // Molodezh' XXI veka: obraz budushhego: Materialy Vserossijskoj nauchnoj konferencii s mezhdunarodnym uchastiem, Sankt-Peterburg, 14-16 nojabrja 2019 goda [Youth of the XXI Century: Image of the Future: Proceedings of the All-Russian Scientific Conference with International Participation, St. Petersburg, November 14-16, 2019] / Chief ed. N.G. Skvorcov, Ju.V. Asochakov. — Saint Petersburg: Skifia-Print, 2019. — P. 203-204. [in Russian]
Nekrylova V.P. Kontent-analiz profilej Instagram s uchebnymi materialami po RKI i nemeckomu jazyku [A Content Analysis of Instagram Profiles with RFL and German Teaching Materials] / V.P. Nekrylova // Lingvistika i vyzovy sovremennoj paradigmy obshhestvennyh otnoshenij: mezhdisciplinarnoe, mezhkul'turnoe, mezh#jazykovoe vzaimodejstvie: materialy mezhdunarodnogo lingvisticheskogo foruma, Voronezh, 24-28 nojabrja 2021 goda. Chast' 2 [Linguistics and Challenges of Modern Paradigm of Social Relations: Interdisciplinary, Intercultural, Interlingual Interaction: Materials of the International Linguistic Forum, Voronezh, November 24-28, 2021. Part 2]. — Voronezh: Voronezh State University, 2022. — P. 96-101. [in Russian]
Nikol'skaja A.V. Primenenie metoda kontent-analiza v izuchenii otnoshenija pol'zovatelej social'nyh setej k sovremennoj rossijskoj medicine [Application of Content Analysis Method in the Study of Social Media Users' Attitudes towards Modern Russian Medicine] / A.V. Nikol'skaja, A.A. Kostrigin // Juzhno-rossijskij zhurnal social'nyh nauk [South Russian Journal of Social Sciences]. — 2019. — Vol. 20. — № 1. — P. 72-90. — DOI: 10.31429/26190567-20-1-72-90. [in Russian]
Obshhestvenno-politicheskaja gazeta «Vechernjaja Ufa». Novosti ["Vechernyaya Ufa" social-political newspaper. News]. — URL: http://vechufa.ru/news/ (accessed: 06.08.2022). [in Russian]
Pashinjan I.A. Kontent-analiz kak metod issledovanija: dostoinstva i ogranichenija [A Content Analysis as a Research Method: Strengths and Limitations] / I.A. Pashinjan // Nauchnaja periodika: problemy i reshenija [Scientific Periodicals: Problems and Solutions]. — 2012. — № 3. — P. 13-18. — URL: https://cyberleninka.ru/article/n/kontent-analiz-kak-metod-issledovaniya-dostoinstva-i-ogranicheniya (accessed: 08.05.2023). [in Russian]
Poljakova E.V. Massmedijnyj diskurs: specifika i osobennost' [Mass-media Discourse: Specificity and Peculiarity] / E.V. Poljakova, N.A. Sadykova // Filologicheskie nauki: sostojanie, perspektivy, novye paradigmy issledovanij: Materialy IV Mezhdunarodnoj nauchnoj konferencii [Philological Sciences: State, Prospects, New Paradigms of Research: Proceedings of the IV International Scientific Conference] / chief ed. A.R. Muhtarullina. — Ufa: Publishing Center of BashSU, 2021. — P. 118-121. — DOI: 10.33184/fnspnpi-2021-11-18.17. [in Russian]
MaxQDA 2022 User Manual // MAXQDA. — URL: https://www.maxqda.com/help-mx22/welcome (accessed: 06.05.2023). [in Russian]
Studencov O.R. Kontent-analiz onlajn-versij informacionnyh programm na chuvashskom jazyke gosudarstvennoj teleradiokompanii «Chuvashija» (obzor) [A Content Analysis of Online Versions of News Programmes in Chuvash Language of the State TV and Radio Company "Chuvashia" (review)] / O.R. Studencov, G.V. Horas'kina, L.A. Vasil'eva // Mediasreda [Media Environment]. — 2018. — № 13. — P. 212-216. [in Russian]

Review

All articles are peer-reviewed. But the reviewer or the author of the article chose not to publish a review of this article in the public domain. The review can be provided to the competent authorities upon request.

Author information

Affiliation:Ufa University of Science and Technology, Ufa, Russian Federation

Role:Author

ORCID:0000-0001-6606-6342

Affiliation:Ufa University of Science and Technology, Ufa, Russian Federation

Role:Author, Approbation, Research data analysis

ORCID:0009-0002-1437-7581

ELIBRARY AUTHOR ID:772065

Article metrics

Downloads:19

ViewsDownloads

Views

Total: