Разработка алгоритмов интеллектуального анализа видеоданных для выявления агрессивного поведения в образовательной среде

Научная статья
DOI:
https://doi.org/10.60797/IRJ.2025.161.54
Выпуск: № 11 (161), 2025
Предложена:
02.09.2025
Принята:
12.11.2025
Опубликована:
17.11.2025
120
1
XML
PDF

Аннотация

Современные образовательные учреждения сталкиваются с проблемой агрессивного поведения среди учащихся, что угрожает безопасности и нарушает учебный процесс. В данной работе разработан и экспериментально протестирован алгоритм интеллектуального анализа видеоданных на основе моделей глубокого обучения для автоматического выявления признаков агрессии. Методология включает обучение нейросетей на размеченных видеозаписях, оценку точности и устойчивости алгоритма к различным условиям съемки. Особое внимание уделено вопросам этики, конфиденциальности и нормативным аспектам внедрения подобных технологий в школьной среде. Полученные результаты могут быть использованы для создания прототипов систем раннего предупреждения, способствующих повышению безопасности образовательной среды.

1. Введение

Обеспечение безопасности обучающихся и персонала остается одной из приоритетных задач системы образования. Несмотря на внедрение комплекса организационных и технических мер, включая регламентацию поведения, охрану и использование систем видеонаблюдения

, проблема агрессивного поведения в образовательной среде — в частности, буллинга и физического насилия — продолжает сохранять высокую актуальность
,
.

Анализ видеоданных в целях мониторинга инцидентов, как правило, осуществляется вручную, что требует значительных временных и кадровых ресурсов, а также подвержено влиянию человеческого фактора

. Это снижает оперативность и точность выявления потенциально опасных ситуаций, особенно в условиях высокой плотности видеопотока и ограниченности внимания оператора. В связи с этим возникает необходимость разработки и внедрения автоматизированных систем интеллектуального анализа видеоданных, способных в реальном времени выявлять признаки агрессивного поведения
.

Современные достижения в области машинного обучения и компьютерного зрения, в частности применение глубинных нейронных сетей, открывают перспективы создания таких систем

,
. Существующие исследования в области обнаружения агрессивного поведения на видео с использованием машинного обучения демонстрируют значительный прогресс
,
. Различные подходы, основанные на использовании сверточных нейронных сетей (CNN), рекуррентных нейронных сетей (RNN) и их комбинаций, таких как CNN-LSTM, показали многообещающие результаты
,
,
,
.

Некоторые исследования также рассматривают использование предобученных моделей CNN, таких как VGG16, ResNet и Inception, для извлечения признаков из видеокадров, которые затем используются для обучения классификаторов агрессивного поведения

,
,
. Такой подход позволяет использовать знания, полученные моделями на больших наборах данных, для решения задач с меньшим объемом размеченных данных.

Кроме того, в литературе отмечается важность многомодальных подходов, объединяющих анализ видео, аудио и текстовых данных для более точного распознавания агрессии

,
,
.

При реализации подобных решений в образовательной среде следует учитывать вопросы конфиденциальности, этической допустимости и соответствия нормативно-правовой базе

,
. Несмотря на значительные успехи, исследования в области обнаружения агрессивного поведения в образовательных учреждениях все еще находятся на стадии развития, и существует ряд проблем, требующих дальнейшего изучения, включая разработку алгоритмов, создание репрезентативных наборов данных и решение этических вопросов.

Целью настоящего исследования является разработка и экспериментальная проверка модели автоматического распознавания признаков агрессии на видеозаписях с последующей оценкой ее эффективности в различных условиях. Рассматриваются перспективные направления развития подхода, включая персонализацию моделей, использование мультимодальных данных и интерпретируемость алгоритмов.

2. Методы и принципы исследования

2.1. Использование открытых датасетов

Для эксперимента выбран набор Real-Life Violence Situations Dataset с платформы Kaggle

. Датасет содержит видеозаписи короткой длительности (1–4 секунды) с агрессивными и нейтральными сценами. Две категории: NonViolence (прогулка, общение, игры, бытовое взаимодействие) и Violence (удары, толчки, драки, резкие замахи). Для анализа отобрано по 100 видеозаписей каждой категории.

2.2. Характеристика видеоданных и аннотация

Для обучения моделей формируется размеченный датасет с видеозаписями различных сценариев поведения. Разметка осуществляется вручную или с применением полуавтоматических средств аннотирования. Видеозаписи включают как агрессивное, так и нейтральное взаимодействие между учащимися. Баланс классов обеспечивается для корректного обучения моделей

,
,
,
.

2.3. Предварительная обработка видео

Видеозаписи разбиваются на кадры, масштабируются до разрешения 224×224 пикселя, нормализуются значения пикселей, проводится коррекция изображений для устранения шума и выравнивания яркости.

2.4. Алгоритмы машинного обучения

Для выявления агрессии используются архитектуры глубинного обучения: 2D CNN для пространственных признаков, 3D CNN для последовательностей кадров, RNN/LSTM для моделирования временных зависимостей. Комбинация CNN и LSTM учитывает как пространственные, так и временные признаки.

2.5. Метрики оценки

Качество моделей оценивается стандартными метриками бинарной классификации: точность (Accuracy), полнота (Recall), точность (Precision), F1-мера и площадь под кривой (AUC-ROC).

3. Основные результаты

В результате обучения модели CNN-LSTM на подготовленном датасете достигнуты следующие показатели:

Таблица 1 - Полученные значения метрик

Метрика

Значение

Accuracy, %

87

Recall («Violence»), %

85

Precision («Violence»), %

88

F1-мера, %

86,5

AUC-ROC

0,91

Эти значения демонстрируют работоспособность модели при выявлении агрессивного поведения и умеренное количество ложных срабатываний на нейтральных сценах.

Для сравнения были обучены и протестированы альтернативные архитектуры: 2D CNN, 3D CNN и RNN/LSTM. Их показатели приведены в следующей таблице:

Таблица 2 - Показатели метрик различных архитектур

Архитектура

Accuracy, %

Recall, %

Precision, %

F1-мера, %

2D CNN

78

75

80

77,5

3D CNN

82

80

83

81,5

RNN/LSTM

80

78

81

79,5

CNN-LSTM

87

85

88

86,5

Анализ результатов показывает, что комбинированная архитектура CNN-LSTM успешно учитывает как пространственные, так и временные признаки видеопоследовательностей, обеспечивая более точное распознавание агрессии по сравнению с отдельными архитектурами. Данные показатели согласуются с типичной вариативностью для небольших датасетов и подтверждают применимость предложенного подхода для задач раннего предупреждения в школьной среде.

4. Обсуждение

4.1. Интерпретация результатов и значимость исследования

Ожидаемые результаты демонстрируют потенциал применения методов машинного обучения, в частности комбинации CNN и LSTM, для создания систем раннего предупреждения об агрессивном поведении в школьной среде. Эффективное выявление признаков агрессии в реальном времени способно повысить уровень безопасности учащихся и педагогов, способствуя предотвращению конфликтных ситуаций и созданию более благоприятной образовательной атмосферы.

Предлагаемая модель ориентирована на комплексный анализ пространственно-временных признаков и способна адаптироваться к динамике поведения учащихся. Таким образом, внедрение подобной системы может стать значимым шагом в направлении цифровой трансформации механизмов мониторинга и профилактики девиантного поведения в образовательных учреждениях.

4.2. Ограничения предложенного подхода

Несмотря на перспективность предложенного метода, необходимо учитывать ряд ограничений. Во-первых, точность работы модели существенно зависит от качества входных данных разрешения видео, условий освещения, углов обзора и наличия шумов. Во-вторых, в реальной среде возможны сцены с частично перекрытыми объектами или сложным фоном, что снижает точность детектирования. Кроме того, поведенческие проявления агрессии зачастую многозначны и могут иметь широкий спектр форм, не всегда однозначно интерпретируемых по визуальной информации.

Также важным фактором является риск переобучения модели на ограниченных датасетах, что может привести к снижению обобщающей способности алгоритма при применении в новых условиях. Особенно это актуально в связи с высокой вариативностью социального и культурного контекста, влияющего на характер поведенческих проявлений.

4.3. Этические аспекты и вызовы приватности

Разработка и внедрение систем распознавания агрессии на основе видеоаналитики требует тщательного учета этических аспектов. Одним из ключевых вопросов является соблюдение прав на неприкосновенность частной жизни учащихся и предотвращение неправомерного использования собираемой информации. Необходима разработка прозрачных процедур получения согласия, хранения и удаления данных, а также информирования участников образовательного процесса о принципах функционирования системы.

4.4. Перспективные направления дальнейших исследований

1. Необходимо сосредоточиться на разработке более робастных алгоритмов, способных успешно работать в условиях низкого качества видеопотока, нестандартных ракурсов и шумовой нагрузки.

2. Важно использовать аудио, текстовые и контекстные метаданные, чтобы расширить возможности детектирования признаков агрессии и компенсировать ограничения чисто визуального анализа.

3. Провести учет индивидуальных и культурных особенностей учащихся, который поможет минимизировать количество ложных срабатываний и повысит адаптивность системы к различным поведенческим паттернам.

4. Для повышения доверия к системе и обеспечения педагогического контроля требуется разработка механизмов объяснения решений модели, позволяющих педагогам и родителям понимать причины срабатывания алгоритма.

5. Этическая и социальная экспертиза исследование последствий внедрения подобных технологий должно сопровождаться мониторингом возможных социальных рисков: стигматизации, нарушения доверия к образовательной системе и психологического давления на учащихся.

4.5. Нормативно-правовые аспекты применения технологий

Применение технологий автоматического распознавания поведения в образовательных учреждениях должно осуществляться в строгом соответствии с действующим законодательством в сфере защиты персональных данных.

В Российской Федерации соответствующее регулирование осуществляется на основании Федерального закона № 152-ФЗ «О персональных данных». Для внедрения системы потребуется получение письменного согласия законных представителей учащихся, внесение изменений в локальные акты образовательных организаций, а также обеспечение защищенного хранения и регламентированного доступа к видеозаписям.

5. Заключение

Настоящее исследование оценивало потенциал применения алгоритмов машинного обучения для интеллектуального анализа видеоданных с целью автоматического выявления агрессивного поведения в образовательной среде. Рассмотрен сценарий реализации системы, включающий сбор и предварительную обработку видеозаписей, выбор и обоснование алгоритмов машинного обучения. Особое внимание уделялось архитектурам глубокого обучения сверточным и рекуррентным нейронным сетям (CNN, RNN, LSTM), способным извлекать как пространственные, так и временные признаки из видеопотока.

Сравнительный анализ показал, что комбинация CNN и LSTM обеспечивает наиболее сбалансированное распознавание агрессивных паттернов поведения, демонстрируя высокую точность и устойчивость, а также позволяя применять модель в режиме реального времени при сохранении интерпретируемости и масштабируемости. Окончательная конфигурация модели должна определяться на основе эмпирического тестирования с учетом конкретных условий эксплуатации и требований к производительности системы.

Полученные результаты и определенные направления дальнейших исследований создают основу для разработки прототипов систем раннего предупреждения в школах. Продуманное и ответственное внедрение таких решений способно повысить уровень безопасности образовательной среды, предотвращать эскалацию конфликтов и способствовать формированию более устойчивой и поддерживающей атмосферы для обучения.

Метрика статьи

Просмотров:120
Скачиваний:1
Просмотры
Всего:
Просмотров:120