ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ МОДЕРАЦИИ КОНТЕНТА ИНФОРМАЦИОННОГО ПОРТАЛА
ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ МОДЕРАЦИИ КОНТЕНТА ИНФОРМАЦИОННОГО ПОРТАЛА
Аннотация
Информационные порталы с пользовательским контентом нуждаются в надёжных механизмах проверки публикуемых материалов. Метод имитационного моделирования открывает возможности для подбора рационального числа сотрудников-модераторов и настройки серверного оборудования таким образом, чтобы сократить задержки при обработке контента и повысить удовлетворённость аудитории платформы. Цель работы состоит в нахождении наименьшего количества модераторов и рациональных характеристик сервера, при которых система модерации функционирует с приемлемым временем отклика.
Исследование выполнено в программном комплексе GPSS Studio, который ориентирован на построение дискретно-событийных имитационных моделей. Адекватность полученных моделей подтверждена посредством проведения валидации, а именно — сопоставления результатов моделирования с аналитическими расчётами по соответствующим формулам теории массового обслуживания.
Научная новизна работы заключается в создании комплекта из двух оригинальных взаимосвязанных дискретно-событийных имитационных моделей, обеспечивающих и определение рационального штата модераторов для обработки контента информационного портала, и характеристик серверной инфраструктуры системы автоматизированной модерации. Существенным достоинством и отличием представленных моделей от аналогичных работ выступает их комплексная природа: они одновременно отражают и технические параметры аппаратного обеспечения, и организационные аспекты работы персонала. В известных аналогичных работах присутствует что-то одно из указанного. Например, в работе
определяются только технические параметры информационной системы, а в работах , определяется только численность пользователей сайта информационного портала. Валидация разработанных моделей, проведённая с целью проверки их адекватности путём сопоставления результатов моделирования с аналитическими расчётами, подтвердила достоверность получаемых результатов и пригодность моделей для практического использования.Результаты исследования с учетом поставленной цели дают возможность повысить эффективность работы автоматизированной системы модерации контента информационного портала с позиции рационального расходования ресурсов и с точки зрения пользовательского опыта.
1. Введение
Информационные порталы, предоставляющие возможность публикации пользовательского контента, занимают центральное место в современном информационном пространстве
, .Актуальность рассматриваемой предметной области отмечается в Федеральном документе «Стратегия развития информационного общества в Российской Федерации на 2017–2030 годы»: «Электронные средства массовой информации, информационные системы, социальные сети, доступ к которым осуществляется с использованием сети Интернет, стали частью повседневной жизни россиян» . Активное развитие информационных порталов подтверждается, в частности, в новостной сфере: «Объем новостного потока уже растет не линейно, а экспоненциально. Если сопоставить количество публикаций, которые выпускали медиа 15 лет назад, с текущими показателями, открывается почти драматическая картина — информационный мир стал другим. По данным ежегодного анализа медиаландшафта от Юрия Погорелого, заместителя генерального директора Группы «Интерфакс», 1 ноября 2010 года определенный пул изданий разместил 23574 материала, тогда как в аналогичный день 2025 года те же СМИ опубликовали уже 285 243 сообщения»
.Для поддержания качества размещаемых материалов и соблюдения политик платформы необходима действенная система проверки контента. Разработка автоматизированных решений для модерации подобных ресурсов представляет существенный практический интерес для интернет-площадок, ориентированных на совершенствование рабочих процессов и повышение уровня предоставляемого сервиса.
В качестве основных подходов для оптимизации структуры и процесса функционирования информационных порталов можно выделить проведение аналитического и имитационного моделирования. Аналитическое моделирование имеет определенные ограничения по сложности решаемых задач. В случае информационного портала как объекта моделирования его модель в форме многофазной сети массового обслуживания имеет достаточно сложный характер и позволяет провести исключительно имитационное моделирование, что и было выбрано для данной работы.
Привлечение инструментария имитационного моделирования даёт возможность подобрать рациональную численность модераторов, занятых проверкой различных категорий контента, а также определить параметры серверного оборудования автоматизированной системы для ускорения процедуры модерации и сокращения периода ожидания со стороны пользователей.
Имитационное моделирование как метод научного исследования основывается на воспроизведении поведения реальной системы с помощью её формализованной модели
, , , . Этот подход получил широкое распространение при изучении систем массового обслуживания и процессов обработки данных , .Программная среда GPSS Studio представляет собой специализированный инструмент, предназначенный для моделирования дискретных систем и процессов обслуживания заявок
, . GPSS располагает развитым аппаратом описания стохастических процессов, поддерживает различные режимы обработки заявок и автоматически генерирует подробную статистику по итогам экспериментов.Данная работа посвящена использованию метода имитационного моделирования в среде GPSS Studio для нахождения рациональных параметров автоматизированной системы модерации контента информационного портала. К таким параметрам относятся численность модераторов и время серверной обработки запросов. Следует принять во внимание, что чрезмерно высокие значения этих параметров могут привести к избыточным эксплуатационным затратам, что экономически нецелесообразно, в то время как слишком низкие значения могут нарушить нормальное функционирование системы. Поэтому рациональными будут минимальные значения этих параметров, при которых система продолжает работать удовлетворительно.
Цель исследования — нахождение наименьшего числа модераторов и рациональных характеристик серверной инфраструктуры, при которых автоматизированная система модерации информационного портала функционирует с приемлемым временем отклика.
Задачи исследования:
1. Сбор и обоснование исходных данных о потоке заявок и временах обработки контента на основе открытых источников и экспертных оценок.
2. Построение в среде GPSS Studio двух взаимосвязанных дискретно-событийных имитационных моделей — модели обработки контента модераторами и модели серверной обработки запросов.
3. Проведение имитационных экспериментов и определение рациональной численности модераторов и рационального времени серверной обработки запроса.
4. Проверка адекватности (валидация) моделей путём сопоставления результатов моделирования с аналитическими расчётами по формулам теории массового обслуживания.
2. Методы и принципы исследования
Количественные характеристики временных затрат на проверку контента модераторами установлены на базе анализа научных публикаций, посвящённых автоматизированной модерации пользовательского контента, а также официальных материалов отечественных цифровых платформ
, . По официальным данным RUTUBE, модерация может осуществляться в ручном и автоматическом режимах; в штатных случаях она обычно занимает до 20 минут, а в отдельных ситуациях время проверки может увеличиваться до 24 часов .На основании приведённых данных для информационного портала среднего масштаба приняты следующие временные нормативы модерации в зависимости от типа задачи: модерация комментариев — 10 минут; проверка текстовых публикаций — 15 минут; проверка изображений и мультимедиа — 25 минут; обработка жалоб пользователей — 40 минут; фактчекинг источников — 60 минут.
Приведённые нормативы учитывают затраты времени на ознакомление с материалом, сверку с правилами платформы, анализ ссылок и приложений, а также принятие итогового решения. Диапазон от 10 до 60 минут отражает возрастающую сложность задач модерации: от экспресс-проверки комментариев до углублённого фактчекинга источников.
Центральная функция автоматизированной системы модерации реализуется посредством серверной инфраструктуры, которая обрабатывает поступающие материалы с применением алгоритмов искусственного интеллекта и нейросетевых технологий, обеспечивая автоматизированный анализ пользовательского контента
, . Быстродействие серверной обработки запросов непосредственно определяет скорость публикации контента, что является принципиально значимым фактором для формирования положительного пользовательского опыта.Вместе с тем деятельность автоматизированной системы модерации не ограничивается технической составляющей и включает аспекты, обусловленные человеческим фактором. В практике цифровых платформ автоматическая проверка сочетается с ручной модерацией, поскольку часть материалов и пользовательских обращений требует дополнительной проверки специалистом
, . Отдельные категории обращений включают сложные случаи нарушений, обработку жалоб пользователей и контроль рекламных публикаций на соответствие нормативным требованиям. Таким образом, кадровый состав системы модерации информационного портала должен включать модераторов.В процессе подготовки исходных данных использовалась соответствующая статистика из интернета, в частности информация по порталу RUTUBE
, кроме того соответствующие количественные исходные данные были получены путём проведения экспертного анализа с помощью сотрудников конкретных информационных порталов. Обоснование использования простейшего случайного потока на входе информационного портала и экспоненциального распределения для обслуживания заявок приведено в тексте статьи.Такой подход обеспечил достоверность и практическую применимость разработанной модели.
Для подтверждения того, что созданные имитационные модели корректно воспроизводят поведение реальной системы и могут использоваться для принятия обоснованных решений, проводится проверка их адекватности (валидация) путём сопоставления результатов моделирования с теоретическими расчётами, выполненными по аналитическим формулам теории массового обслуживания
.3. Основные результаты
Исходя из поставленных целей, в среде GPSS Studio сформирован набор из двух оригинальных взаимосвязанных дискретно-событийных имитационных моделей
, . Научная новизна работы заключается в создании комплекта из двух оригинальных взаимосвязанных дискретно-событийных имитационных моделей, обеспечивающих и определение рационального штата модераторов для обработки контента информационного портала, и характеристик серверной инфраструктуры системы автоматизированной модерации. Существенным достоинством и отличием представленных моделей от аналогичных работ выступает их комплексная природа: они одновременно отражают и технические параметры аппаратного обеспечения, и организационные аспекты работы персонала. В известных аналогичных работах присутствует что-то одно из указанного. Например, в работе определяются только технические параметры информационной системы, а в работах , определяется только численность пользователей сайта информационного портала. Теоретические основания выбора стохастических распределений и расчётных показателей опираются на положения теории систем массового обслуживания . Первая модель воспроизводит процесс обработки контента модераторами, вторая — серверную обработку запросов в системе автоматизированной модерации. Сам процесс модерации детально не рассматривается в данной статье, поскольку это тема дальнейшего исследования. Для имитационной модели задаются только временные параметры на модерацию. Предложенный набор из двух оригинальных взаимосвязанных дискретно-событийных имитационных моделей, по сути, представляет собой единую общую имитационную модель, разбитую на две подмодели, реализующие два последовательных этапа функционирования информационного портала. Модель обработки запросов сервером реализует первый этап функционирования информационного портала, модель обработки контента модераторами реализует второй этап функционирования информационного портала. Поскольку временные параметры моделей существенно различаются: секунды для первой модели и минуты для второй модели, было принято решение по отдельному исследованию каждой модели.Рассмотрим устройство каждой модели подробнее. Q-схема имитационной модели обработки контента модераторами для автоматизированной системы модерации информационного портала приведена на рисунке 1.

Рисунок 1 - Q-схема имитационной модели обработки контента модераторами
В качестве входного потока заявок используется простейший поток заявок с интервалом поступления, распределенным по экспоненциальному закону распределения
. Количественные параметры модели определены на основе принятых исходных данных по интервалам поступления заявок и времени их обработки. Для времени обслуживания заявок также принято экспоненциальное распределение.Вероятность одобрения контента принята равной 0,7, вероятность отклонения — 0,3 на основании экспертной оценки и анализа реальной практики информационных платформ.
Количественные параметры модели определены следующим образом. Средние интервалы поступления заявок на модерацию по категориям составили: модерация комментариев — 12,5 мин; проверка текстовых публикаций — 20 мин; проверка изображений и мультимедиа — 25 мин; обработка жалоб пользователей — 50 мин; фактчекинг источников — 100 мин.
Суммарный недельный объём поступающих заявок на модерацию составляет порядка 2000 единиц.
В качестве критерия качества обслуживания выбран показатель доли заявок с длительностью обработки свыше 35 минут. Данный порог принят как предельно допустимое время пребывания заявки в системе, при превышении которого качество обслуживания считается неудовлетворительным.
Результаты моделирования представлены в таблице 1.
Результаты моделирования модераторов
эксперимент 1
Количество модераторов, чел. | Результат | |||
Загрузка, % | Средняя очередь | Макс. очередь | Заявок более 35 мин, % | |
8 | 50,0 | 0,1 | 6 | 14,7 |
7 | 59,7 | 0,14 | 7 | 14,4 |
6 | 65,0 | 0,33 | 9 | 16,5 |
5 | 78,2 | 1,4 | 18 | 26,6 |
4 | 95,6 | 8,2 | 30 | 71,8 |
Анализ полученных результатов свидетельствует о том, что конфигурация с 6 модераторами обеспечивает рациональное соотношение между степенью использования ресурсов и качеством обработки заявок. Выбор наиболее рационального варианта для модели с модераторами сделан на основе временных параметров и с учетом экономических параметров затрат на зарплату модераторов.
Далее приведены статистические характеристики времени пребывания заявки в системе при работе 6 модераторов, полученные по данным GPSS Studio.

Рисунок 2 - Гистограмма частот времени обработки заявки при работе 6 модераторов

Рисунок 3 - Математическое ожидание и среднеквадратическое отклонение при работе 6 модераторов

Рисунок 4 - Эмпирическая функция распределения при работе 6 модераторов

Рисунок 5 - Q-схема имитационной модели обработки запросов сервером
Поступившая заявка с вероятностью p'₂ = 0,35 (запрос не предполагает нейросетевого анализа контента: проверка дубликатов, фильтрация спама) направляется непосредственно на серверную обработку.
С вероятностью p'₁ = 0,65 (запрос предполагает анализ контента: проверка текста, распознавание изображений, оценка тональности) заявка поступает в канал обслуживания K₁, где производится предварительный анализ (извлечение текста, разбор метаданных, идентификация языка). Далее с вероятностью p''₁ = 0,15 заявка покидает систему (контент не распознан либо формат не поддерживается). С вероятностью p''₂ = 0,85 заявка направляется в канал K₂, отвечающий за нейросетевую классификацию контента. С вероятностью p'''₁ = 0,25 выполняется повторная проверка альтернативной моделью ИИ в K₂ (ситуация низкой достоверности первичной классификации). С вероятностью p'''₂ = 0,75 происходит выход из цикла и переход к каналу K₃ (формирование итогового решения и фиксация результата модерации).
Затем осуществляется серверная обработка запроса в канале обслуживания K_серв.
Количественные параметры модели (интервал поступления заявок, длительность обработки) определены на основе анализа открытых источников и экспертных оценок в области модерации контента, а также с использованием сведений о сочетании автоматизированной и ручной модерации на цифровых платформах
, , , . Значения вероятностей p для различных каналов модели установлены на основе экспертного анализа, проведённого с привлечением специалистов, имеющих практический опыт работы в области модерации контента информационных порталов.В качестве входного потока заявок используется простейший поток заявок с интервалом поступления, распределенным по экспоненциальному закону распределения
, так как заявки поступают в случайный момент времени, и именно такой подход, как правило, применяется на практике при имитационном моделировании систем.Эксперимент проводится при следующих средних интервалах поступления запросов в систему (в секундах): запрос на проверку текста на запрещённый контент — 20; запрос на анализ изображений нейронной сетью — 32; запрос на проверку на дубликаты — 40; запрос на проверку на спам — 80; запрос на анализ тональности и выявление токсичности — 120.
Суммарно поступает порядка 77 000 запросов в неделю.
Результаты моделирования указаны в таблице 2.
Таблица 2 - Результаты моделирования обработки запросов сервером
Время на обработку запроса сервером, с | Среднее общее время обработки запроса, с |
1 | 4,8 |
2 | 6,3 |
3 | 8,3 |
4 | 11,1 |
По результатам моделирования построены гистограмма частот времени пребывания одной заявки в системе (рис. 6), математическое ожидание и среднеквадратическое отклонение времени обработки заявки (рис. 7), а также эмпирическая функция распределения времени обработки заявки (рис. 8) при времени серверной обработки запроса в 1 секунду.

Рисунок 6 - Гистограмма частот времени пребывания заявки в системе при времени обработки запроса в 1 секунду

Рисунок 7 - Математическое ожидание и среднеквадратическое отклонение при времени обработки запроса в 1 секунду

Рисунок 8 - Эмпирическая функция распределения при времени обработки запроса в 1 секунду
4. Обсуждение
Для подтверждения адекватности разработанных имитационных моделей, то есть их способности достоверно воспроизводить характеристики моделируемой системы, проведём валидацию. Проверка адекватности является необходимым этапом имитационного моделирования, поскольку позволяет убедиться в том, что модель пригодна для принятия практических решений
, . Для этого рассмотрим модель обработки контента модераторами при поступлении 2000 заявок в неделю и работе 6 модераторов. Рассчитаем ряд теоретических показателей по аналитическим формулам теории массового обслуживания , а затем сопоставим их с результатами, полученными в среде GPSS Studio .Интенсивность входящего потока заявок определяется по формуле:
где Nзаявок — количество заявок за период,
T — продолжительность периода в минутах.
Среднее время обслуживания одной заявки рассчитывается как взвешенное среднее по типам контента:
где pi — доля заявок i-го типа,
ti — время обслуживания заявки i-го типа.
Интенсивность обслуживания одним модератором:
Коэффициент загрузки системы определяется по формуле:
где N — количество модераторов.
Среднее число занятых модераторов равно нагрузке в Эрлангах:
Среднее число свободных модераторов:
Вероятность того, что все модераторы заняты и заявка поступает в очередь:
Средняя длина очереди:
Среднее время пребывания заявок в очереди:
Среднее число заявок в системе:
Среднее время пребывания заявок в системе:
Теперь сравним некоторые из полученных теоретических значений показателей с практическими значениями, полученными в процессе моделирования в таблице 3.
Таблица 3 - Сопоставление расчётных и модельных значений
Показатель | Расчётное значение | Модельное значение | Расхождение, % |
Коэффициент загрузки системы | 0,654 | 0,650 | 0,6 |
Среднее число свободных модераторов | 2,08 | 2,10 | 1,0 |
Среднее время пребывания заявки в системе, мин | 22,27 | 21,39 | 4,0 |
Таким образом, в результате валидации имитационной модели обработки контента модераторами было определено, что расхождение результатов теоретического и практического значений по рассматриваемым показателям не превышает 4%. Это подтверждает адекватность и корректность работы модели. Аналогично валидация была проведена и для второй модели.
5. Заключение
В рамках выполненного исследования осуществлена оптимизация структуры и рабочих параметров автоматизированной системы модерации контента информационного портала средствами имитационного компьютерного моделирования.
Научная новизна работы заключается в создании комплекта из двух оригинальных взаимосвязанных дискретно-событийных имитационных моделей, обеспечивающих и определение рационального штата модераторов для обработки контента информационного портала, и характеристик серверной инфраструктуры системы автоматизированной модерации. Существенным достоинством и отличием представленных моделей от аналогичных работ выступает их комплексная природа: они одновременно и отражают технические параметры аппаратного обеспечения, и организационные аспекты работы персонала. В известных аналогичных работах присутствует что-то одно из указанного. Например, в работе
определяются только технические параметры информационной системы, а в работах , определяется только численность пользователей сайта информационного портала.Валидация разработанных моделей, проведённая с целью проверки их адекватности путём сопоставления результатов моделирования с аналитическими расчётами, подтвердила достоверность получаемых результатов и пригодность моделей для практического использования.
Ограничения предлагаемых имитационных моделей связаны только с предметной областью их использования для информационных порталов.
Полученные результаты позволяют повысить эффективность функционирования автоматизированной системы модерации контента информационного портала как с позиции рационального использования ресурсов, так и с точки зрения удобства и комфорта пользователей.
