Development of algorithms for intelligent analysis of video data to detect aggressive behaviour in educational environment

Research article
DOI:
https://doi.org/10.60797/IRJ.2025.161.54
Issue: № 11 (161), 2025
Suggested:
02.09.2025
Accepted:
12.11.2025
Published:
17.11.2025
121
1
XML
PDF

Abstract

Modern educational institutions face the problem of aggressive behaviour among students, which threatens safety and disrupts the learning process. This work develops and experimentally tests an algorithm for intelligent analysis of video data based on deep learning models for automatic detection of signs of aggression. The methodology includes training neural networks on marked videos, evaluating the accuracy and stability of the algorithm under various shooting conditions. Particular attention is paid to ethical, confidentiality, and regulatory issues related to the implementation of such technologies in a school environment. The obtained results can be used to create prototypes of early warning systems that contribute to improving the safety of the educational environment.

1. Введение

Обеспечение безопасности обучающихся и персонала остается одной из приоритетных задач системы образования. Несмотря на внедрение комплекса организационных и технических мер, включая регламентацию поведения, охрану и использование систем видеонаблюдения

, проблема агрессивного поведения в образовательной среде — в частности, буллинга и физического насилия — продолжает сохранять высокую актуальность
,
.

Анализ видеоданных в целях мониторинга инцидентов, как правило, осуществляется вручную, что требует значительных временных и кадровых ресурсов, а также подвержено влиянию человеческого фактора

. Это снижает оперативность и точность выявления потенциально опасных ситуаций, особенно в условиях высокой плотности видеопотока и ограниченности внимания оператора. В связи с этим возникает необходимость разработки и внедрения автоматизированных систем интеллектуального анализа видеоданных, способных в реальном времени выявлять признаки агрессивного поведения
.

Современные достижения в области машинного обучения и компьютерного зрения, в частности применение глубинных нейронных сетей, открывают перспективы создания таких систем

,
. Существующие исследования в области обнаружения агрессивного поведения на видео с использованием машинного обучения демонстрируют значительный прогресс
,
. Различные подходы, основанные на использовании сверточных нейронных сетей (CNN), рекуррентных нейронных сетей (RNN) и их комбинаций, таких как CNN-LSTM, показали многообещающие результаты
,
,
,
.

Некоторые исследования также рассматривают использование предобученных моделей CNN, таких как VGG16, ResNet и Inception, для извлечения признаков из видеокадров, которые затем используются для обучения классификаторов агрессивного поведения

,
,
. Такой подход позволяет использовать знания, полученные моделями на больших наборах данных, для решения задач с меньшим объемом размеченных данных.

Кроме того, в литературе отмечается важность многомодальных подходов, объединяющих анализ видео, аудио и текстовых данных для более точного распознавания агрессии

,
,
.

При реализации подобных решений в образовательной среде следует учитывать вопросы конфиденциальности, этической допустимости и соответствия нормативно-правовой базе

,
. Несмотря на значительные успехи, исследования в области обнаружения агрессивного поведения в образовательных учреждениях все еще находятся на стадии развития, и существует ряд проблем, требующих дальнейшего изучения, включая разработку алгоритмов, создание репрезентативных наборов данных и решение этических вопросов.

Целью настоящего исследования является разработка и экспериментальная проверка модели автоматического распознавания признаков агрессии на видеозаписях с последующей оценкой ее эффективности в различных условиях. Рассматриваются перспективные направления развития подхода, включая персонализацию моделей, использование мультимодальных данных и интерпретируемость алгоритмов.

2. Методы и принципы исследования

2.1. Использование открытых датасетов

Для эксперимента выбран набор Real-Life Violence Situations Dataset с платформы Kaggle

. Датасет содержит видеозаписи короткой длительности (1–4 секунды) с агрессивными и нейтральными сценами. Две категории: NonViolence (прогулка, общение, игры, бытовое взаимодействие) и Violence (удары, толчки, драки, резкие замахи). Для анализа отобрано по 100 видеозаписей каждой категории.

2.2. Характеристика видеоданных и аннотация

Для обучения моделей формируется размеченный датасет с видеозаписями различных сценариев поведения. Разметка осуществляется вручную или с применением полуавтоматических средств аннотирования. Видеозаписи включают как агрессивное, так и нейтральное взаимодействие между учащимися. Баланс классов обеспечивается для корректного обучения моделей

,
,
,
.

2.3. Предварительная обработка видео

Видеозаписи разбиваются на кадры, масштабируются до разрешения 224×224 пикселя, нормализуются значения пикселей, проводится коррекция изображений для устранения шума и выравнивания яркости.

2.4. Алгоритмы машинного обучения

Для выявления агрессии используются архитектуры глубинного обучения: 2D CNN для пространственных признаков, 3D CNN для последовательностей кадров, RNN/LSTM для моделирования временных зависимостей. Комбинация CNN и LSTM учитывает как пространственные, так и временные признаки.

2.5. Метрики оценки

Качество моделей оценивается стандартными метриками бинарной классификации: точность (Accuracy), полнота (Recall), точность (Precision), F1-мера и площадь под кривой (AUC-ROC).

3. Основные результаты

В результате обучения модели CNN-LSTM на подготовленном датасете достигнуты следующие показатели:

Таблица 1 - Полученные значения метрик

Метрика

Значение

Accuracy, %

87

Recall («Violence»), %

85

Precision («Violence»), %

88

F1-мера, %

86,5

AUC-ROC

0,91

Эти значения демонстрируют работоспособность модели при выявлении агрессивного поведения и умеренное количество ложных срабатываний на нейтральных сценах.

Для сравнения были обучены и протестированы альтернативные архитектуры: 2D CNN, 3D CNN и RNN/LSTM. Их показатели приведены в следующей таблице:

Таблица 2 - Показатели метрик различных архитектур

Архитектура

Accuracy, %

Recall, %

Precision, %

F1-мера, %

2D CNN

78

75

80

77,5

3D CNN

82

80

83

81,5

RNN/LSTM

80

78

81

79,5

CNN-LSTM

87

85

88

86,5

Анализ результатов показывает, что комбинированная архитектура CNN-LSTM успешно учитывает как пространственные, так и временные признаки видеопоследовательностей, обеспечивая более точное распознавание агрессии по сравнению с отдельными архитектурами. Данные показатели согласуются с типичной вариативностью для небольших датасетов и подтверждают применимость предложенного подхода для задач раннего предупреждения в школьной среде.

4. Обсуждение

4.1. Интерпретация результатов и значимость исследования

Ожидаемые результаты демонстрируют потенциал применения методов машинного обучения, в частности комбинации CNN и LSTM, для создания систем раннего предупреждения об агрессивном поведении в школьной среде. Эффективное выявление признаков агрессии в реальном времени способно повысить уровень безопасности учащихся и педагогов, способствуя предотвращению конфликтных ситуаций и созданию более благоприятной образовательной атмосферы.

Предлагаемая модель ориентирована на комплексный анализ пространственно-временных признаков и способна адаптироваться к динамике поведения учащихся. Таким образом, внедрение подобной системы может стать значимым шагом в направлении цифровой трансформации механизмов мониторинга и профилактики девиантного поведения в образовательных учреждениях.

4.2. Ограничения предложенного подхода

Несмотря на перспективность предложенного метода, необходимо учитывать ряд ограничений. Во-первых, точность работы модели существенно зависит от качества входных данных разрешения видео, условий освещения, углов обзора и наличия шумов. Во-вторых, в реальной среде возможны сцены с частично перекрытыми объектами или сложным фоном, что снижает точность детектирования. Кроме того, поведенческие проявления агрессии зачастую многозначны и могут иметь широкий спектр форм, не всегда однозначно интерпретируемых по визуальной информации.

Также важным фактором является риск переобучения модели на ограниченных датасетах, что может привести к снижению обобщающей способности алгоритма при применении в новых условиях. Особенно это актуально в связи с высокой вариативностью социального и культурного контекста, влияющего на характер поведенческих проявлений.

4.3. Этические аспекты и вызовы приватности

Разработка и внедрение систем распознавания агрессии на основе видеоаналитики требует тщательного учета этических аспектов. Одним из ключевых вопросов является соблюдение прав на неприкосновенность частной жизни учащихся и предотвращение неправомерного использования собираемой информации. Необходима разработка прозрачных процедур получения согласия, хранения и удаления данных, а также информирования участников образовательного процесса о принципах функционирования системы.

4.4. Перспективные направления дальнейших исследований

1. Необходимо сосредоточиться на разработке более робастных алгоритмов, способных успешно работать в условиях низкого качества видеопотока, нестандартных ракурсов и шумовой нагрузки.

2. Важно использовать аудио, текстовые и контекстные метаданные, чтобы расширить возможности детектирования признаков агрессии и компенсировать ограничения чисто визуального анализа.

3. Провести учет индивидуальных и культурных особенностей учащихся, который поможет минимизировать количество ложных срабатываний и повысит адаптивность системы к различным поведенческим паттернам.

4. Для повышения доверия к системе и обеспечения педагогического контроля требуется разработка механизмов объяснения решений модели, позволяющих педагогам и родителям понимать причины срабатывания алгоритма.

5. Этическая и социальная экспертиза исследование последствий внедрения подобных технологий должно сопровождаться мониторингом возможных социальных рисков: стигматизации, нарушения доверия к образовательной системе и психологического давления на учащихся.

4.5. Нормативно-правовые аспекты применения технологий

Применение технологий автоматического распознавания поведения в образовательных учреждениях должно осуществляться в строгом соответствии с действующим законодательством в сфере защиты персональных данных.

В Российской Федерации соответствующее регулирование осуществляется на основании Федерального закона № 152-ФЗ «О персональных данных». Для внедрения системы потребуется получение письменного согласия законных представителей учащихся, внесение изменений в локальные акты образовательных организаций, а также обеспечение защищенного хранения и регламентированного доступа к видеозаписям.

5. Заключение

Настоящее исследование оценивало потенциал применения алгоритмов машинного обучения для интеллектуального анализа видеоданных с целью автоматического выявления агрессивного поведения в образовательной среде. Рассмотрен сценарий реализации системы, включающий сбор и предварительную обработку видеозаписей, выбор и обоснование алгоритмов машинного обучения. Особое внимание уделялось архитектурам глубокого обучения сверточным и рекуррентным нейронным сетям (CNN, RNN, LSTM), способным извлекать как пространственные, так и временные признаки из видеопотока.

Сравнительный анализ показал, что комбинация CNN и LSTM обеспечивает наиболее сбалансированное распознавание агрессивных паттернов поведения, демонстрируя высокую точность и устойчивость, а также позволяя применять модель в режиме реального времени при сохранении интерпретируемости и масштабируемости. Окончательная конфигурация модели должна определяться на основе эмпирического тестирования с учетом конкретных условий эксплуатации и требований к производительности системы.

Полученные результаты и определенные направления дальнейших исследований создают основу для разработки прототипов систем раннего предупреждения в школах. Продуманное и ответственное внедрение таких решений способно повысить уровень безопасности образовательной среды, предотвращать эскалацию конфликтов и способствовать формированию более устойчивой и поддерживающей атмосферы для обучения.

Article metrics

Views:121
Downloads:1
Views
Total:
Views:121