РЕШЕНИЕ ПРОБЛЕМЫ ПРОПУЩЕННЫХ ДАННЫХ И ОБРАБОТКИ ИНФОРМАЦИИ ПРИ ПРОВЕДЕНИИ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ В СЛОЖНЫХ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ СИСТЕМАХ
РЕШЕНИЕ ПРОБЛЕМЫ ПРОПУЩЕННЫХ ДАННЫХ И ОБРАБОТКИ ИНФОРМАЦИИ ПРИ ПРОВЕДЕНИИ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ В СЛОЖНЫХ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ СИСТЕМАХ
Научная статья
ORCID: 0000-0003-1562-2956,
Научно-исследовательский институт Федеральной службы исполнения наказаний России, Москва, Россия
* Корреспондирующий автор (ponomarev.dmitry1990[at]mail.ru)
АннотацияВ статье рассматриваются проблемы пропущенных данных при проведении экспериментальных исследований в социально-экономических системах. Как известно, существует множество методов и методик по решению проблем пропущенных данных, однако вопрос для некоторых социально-экономических систем, из-за их специфики работы и особенности технологических процессов, все-равно остается открытым. Одной из таких систем явилась уголовно-исполнительная система. Особенные трудности в сборе и обработке информации здесь наблюдаются среди подозреваемых обвиняемых и осужденных. Проблемы проведения исследований среди них осложнены их антисоциальным поведением и воздействием криминальной субкультуры. Таким образом, в статье исследован и разработан ряд методических рекомендаций (которые базируются на системном анализе, постулатах классической теории вероятностей, математической статистике) по решению проблем пропущенных данных при проведении экспериментальных исследований в социально-экономических системах на примере уголовно-исполнительной системы.
Ключевые слова: обработка информации, пропущенные данные, социально-экономическая система, системный анализ.
SOLVING THE PROBLEM OF MISSING DATA AND INFORMATION PROCESSING WHEN CONDUCTING EXPERIMENTAL RESEARCH IN COMPLEX SOCIOECONOMIC SYSTEMS
Research article
Ponomarev D.S.*
ORCID: 0000-0003-1562-2956,
Research Institute of the Federal Penitentiary Service of Russia, Moscow, Russia
* Corresponding author (ponomarev.dmitry1990[at]mail.ru)
AbstractThe current article deals with the problems of missing data when conducting experimental research in socioeconomic systems. It is common knowledge that there are many methods and techniques for solving the problems of missing data; however, for some socioeconomic systems, this issue still remains open due to the nature of their function and some aspects of technological processes. One of such systems is the penal system. Particular difficulties in collecting and processing information in this area are observed among suspects, accused, and convicted persons. The problems of conducting research in relation to them are complicated by their anti-social behavior and the influence of criminal subculture. Therefore, the article examines and develops a number of methodological recommendations (which are based on system analysis, postulates of classical probability theory, mathematical statistics) to solve the problems of missing data when conducting experimental studies in socioeconomic systems with the penal system serving as the basis of the research.
Keywords: information processing, missing data, socioeconomic system, system analysis.
ВведениеНа сегодняшний день, для большинства предприятий и производств разработка математических моделей прогноза, управления и поддержки принятия решений являются одними из самых актуальных модернизаций в области повышения качества, оптимизации и автоматизации технологических процессов [1]. Однако, на самых первых этапах разработки модели перед исследователями очень часто встречаются проблемы грамотного сбора информации и ее обработки [2].
На данный момент существует достаточное количество способов, методов и методик – которые позволяют решить вышеуказанные проблемы [2], однако здесь следует учесть, что для каждого предприятия, относительно которого проводится исследование, следует учитывать специфику работы и как следствие – особенности обработки данных при проведении научных исследований.
Учреждения уголовно-исполнительной системы (УИС) в вышеуказанных вопросах не являются исключением. Одним из актуальных аспектов здесь, в рамках указанной ранее проблематики, является разработка моделей, позволяющих получить прогноз риска распространения противоправных действий и антисоциального поведения среди подозреваемых, обвиняемых и осужденных (ПОО) [3]. Первое, с чем могут возникнуть трудности в разработке таких моделей – это сбор и обработка информации [4]. Конечно же следует помнить при этом, что проведение исследования не заканчивается только сбором и обработкой информации – следующими шагами может стать разработка модели на основе регрессионного анализа [5], кластеризации данных [6], применения искусственных нейронных сетей [7]. Поэтому в проведенной работе рассматриваются проблемы и пути решения сбора и последующей обработки информации среди ПОО. Разработанные методологические аспекты были ориентированы в первую очередь на обработку результатов анкетирования и социологического опроса подозреваемых, обвиняемых и осужденных.
Очень часто в применении анкетирования, как основного метода получения информации среди ПОО, встречается проблема пропущенных данных [2], [8]. Это может происходить по нескольким причинам. Первое – ПОО могут выйти за рамки установленных ответов анкеты и дать свои ответы; второе – анкетируемые могут проигнорировать поставленные вопросы; третье – может быть несколько ответов, когда правила анкеты подразумевают один ответ, подобная ситуация равносильна отсутствию ответа.
Методы и принципы исследования
Следует отметить, что проблема пропущенных данных, при проведении экспериментальных исследований среди ПОО, была решена при помощи нескольких методов. Выбор способа сбора и обработки информации при проведении экспериментальных исследований зависел от конкретного случая и поставленного вопроса, от ответов, которые подразумевалось получить от анкетируемых. Рассмотрим более подробно несколько методов и правил, которые базируются на классической теории вероятностей, статистическом и системном анализах.
Первое – пропущенные значения заполняются на основе методов теории вероятностей. Другими словами – в каждом вопросе, на основе имеющихся данных, была рассчитана вероятность каждого ответа. Пропущенные данные были заполнены ответами, вероятность которых была выше остальных. За основу метода были взяты постулаты классической теории вероятностей, где для любых А существует соответствующее P(А). P(А) – вероятность события А, при условиях (1-5) [8], [9].
где B – событие несовместимое с A; M – равновероятные исходы; K – произвольные из M исходов, которые образуют события А; xпроп – пропущенное значение, которое следует найти.
Второе – пропущенные значения были заполнены средними значениями [2], [9]. Выявление средних значений проводилось по формуле: (6)где x – значения параметров, основанные на ответах ПОО, n - общий объем выборки.
Третье – при сборе данных некоторые параметры могут дублировать друг друга [2, 8, 9]. В частности, вопросы, которые заполнялись ПОО, частично дублировались и у экспертов. Таким образом, пропущенные ответы ПОО заполнялись дублирующими ответами у эксперта (для некоторых параметров возможен и обратный вариант).
где y – ответы экспертов.
Четвертое. Если учитывать, что каждому вопросу соответствовало определенное количество баллов и анкетируемый отвечал на несколько вопросов (при этом требовался только один ответ т.е. анкетируемый намеренно выдавал несколько ответов) – то в данном случае выбирался ответ, соответствующий наибольшему числу баллов (либо наоборот наименьшему количеству баллов в зависимости от самого параметра).
(8)Применение предложенных методов исследования на практике
Рассмотрим более подробно возможность применения разработанных методик на конкретном примере. В таблице 1 представлен пример матрицы, которая была сформирована по результатам анкетирования десяти ПОО.
Таблица 1 – Сформированная матрица значений по результатам анкетирования среди ПОО
№ | X1 | X2 | X3 | X4 | Y1 |
1 | 1 | 30 | 1 | 1 | 1 |
2 | 1 | 25 | 2 | 3 | 2 |
3 | 1 | 41 | 1 | 4 | 1 |
4 | x4,1=? | 37 | 2 | 1, 2, 3 | 2 |
5 | 1 | 48 | x5,3=? | 4 | 3 |
6 | 1 | 39 | 1 | 2 | 1 |
7 | 1 | 51 | 2 | 3, 4 | 2 |
8 | 0 | x8,2=? | x8,3=? | 1, 2 | 4 |
9 | 1 | 23 | 2 | 1 | 2 |
10 | 1 | 28 | x10,3=? | 2 | 3 |
Исследуем возможность восполнения пропущенных данных при проведении анкетирования (т.е. x4,1, x8,2, x5,3, x8,3, x10,3) и выбор одного ответа среди нескольких полученных (x4,4, x7,4, x8,4). Рассмотрим более подробно каждый параметр (X1-4, Y1).
Наличие или отсутствие места жительства (X1) – заполняется ответами «да» или «нет», которые переводятся соответственно в значения «1» или «0». Для восполнения пропущенных значений можно воспользоваться вышеуказанным методом на основе классической теории вероятностей (1-5). В проводимом эксперименте было 8 ответов «да», и 1 ответ «нет», следовательно – пропущенные данные заполнялись ответами «да» т. е. для пропущенных значений из таблицы 1 – x1,4=1.
Пропущенные значения возраста ПОО (X2) можно заменить средними значениями из исследуемой выборки, следуя второму вышеуказанному правилу (6). Среднее значение получилось 36 лет т.е. x8,2=36.
Применение рассмотренных ранее методик по восполнению пропущенных данных было применено и на исследовании степени распространенности среди осужденных неофициальных «законов», «норм» и «традиций» тюремной субкультуры (ТС) [10], [11]. Для оценки степени приверженности ПОО к ТС была введена балловая шкала. Для высокой степени приверженности ТС было присвоено значение «4», для отсутствия приверженности «1». Следует отметить, что применение классической теории вероятностей (1-6) здесь невозможно т.к. в представленной выборке (как видно из таблицы 1 есть только ответы «1» и «2», кроме того, отсутствует 30% значений. В данном случае применялось «дублирование» вопросов (согласно вышеизложенному третьему правилу (7)). Таким образом, вопрос у ПОО - «оценить свою приверженность нормам и правилам тюремной субкультуры» (X3), был продублирован у экспертов, однако формулировка немного была изменена: «определите степень приверженности осужденного ценностям тюремной субкультуры» (Y1). В результате, были получены значения: y5,1=x5,3=3; y8,1=x8,3=4; y10,1=x10,3=3.
Исследование трудовой занятости среди ПОО (X4) проводилось при помощи балловой шкалы. Для ПОО, которые были трудоустроены согласно ТК РФ, был поставлен 1 балл, «неофициальное» трудоустройство – 2 балла, в поиске работы – 3 балла, а для тех, кто никогда не работал – 4 балла. Однако, данный вопрос может подразумевать сразу несколько ответов – когда, например, человек был трудоустроен, затем не работал, после чего была небольшая подработка – в этом случае из нескольких вариантов рассматривался ответ, соответствующий наименьшему количеству баллов (8) т.е. x4,4=1, x7,4=3, x8,4=1.
ЗаключениеВ статье рассмотрены и приведены методологические решения проблемы пропущенных данных при проведении численных экспериментов в социально-экономических системах с криминологической составляющей, а именно: во-первых – это применение методов классической теории вероятностей, во-вторых – восполнение данных из нескольких дублирующих вопросов, в-третьих – применение метода средних значений в пропущенных данных, в-четвертых заполнение недостающих значений выборки исходя из полученных результатов, которые набрали максимальный или минимальный балл (если результатов проводимого эксперимента было несколько, а нужно при этом выбрать только один – что равносильно проблеме пропущенных данных).
Таким образом, была сформирована методика, позволяющая восполнить данные при проведении экспериментальных исследований в сложных социальных системах. Применение приведенной в статье методики рассмотрено на примерах ряда параметров, которые позволяют оценить уровень распространения криминальной субкультуры, производственные человеческие ресурсы, антисоциальное поведение и опасность для общества.
Конфликт интересов Не указан. | Conflict of Interest None declared. |
Список литературы / References
- Boulding K. General Systems Theory – the Skeleton of Science / K. Boulding // General Systems. – №1. – 1956. – P. 11-17.
- Boslaugh S. Statistics in a nutshell / S. Boslaugh. O’Reilly. – 2008. – P. 115-202.
- Ponomarev D.S. Relevance of application of methods of system analysis and mathematical modeling to the problems of preventing the development of criminal subculture and extremist movements in the Russian Federation / D.S. Ponomarev, S.B. Ponomarev, N.V. Rumyantsev et al. // EurAsian Journal of BioSciences. – 2020. – №14(2). – P. 5727-5730.
- Ponomarev S. B. Inmate subculture expansion in Russia from the point of system analysis / S. B. Ponomarev, D. S. Ponomarev, V. E. Polishchuk et al. //European Proceedings of Social and Behavioural Sciences EpSBS. – 2020. – P. 1588-1594.
- Seber A. F. Linear Regression Analysis / A. F. Seber. Wiley. – 2003. – P. 57-156.
- Ponomarev S. B. Cluster Analysis and Development of the intellectual cancer monitoring system based on data of the Federal Penitentiary Service of Russia / S. B. Ponomarev, E. V. Dyuzheva, A. A. Burt et al. // Journal of Physics: Conference Series. – 2020. – №1399 P. – 033027.
- Tariq Rashid. Make Your Own Neural Network / Tariq Rashid. – 2016. – P. 76-112.
- Grinell R. M.Statistics for Social Workers / R. M. Grinell, R. W. Weinbach. New York : Longman. –1987. – P. 90-115.
- Gmurman V. E. Fundamentals of Probability Theory and Mathematical Statistics / V. E. Gmurman. American Elsevier Publishing Co. – 1968. – P. 98-210.
- Donskikh D. G. The concept and ratio of the terms subculture and counterculture. Criminal subculture. Business in law / D. G. Donskikh // Journal of Economics and Law. – № 8. – 2009. – P. 76-81.
- Berlusconi G. Link prediction in criminal networks: a tool for criminal intelligence analysis / G. Berlusconi, F. Calderoni, N. Parolini et al. Plos one. – №11(4). – 2016. – P. 154-244.