ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ МЕТОДОВ КЛАССИФИКАЦИИ ЭМОЦИОНАЛЬНЫХ СОСТОЯНИЙ ПО ИЗОБРАЖЕНИЯМ ЛИЦ НА ОСНОВЕ РУЧНЫХ ПРИЗНАКОВ И СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ

Захарова О.И.; Аликрицкий М.С.

doi:10.60797/IRJ.2026.168.100

ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ МЕТОДОВ КЛАССИФИКАЦИИ ЭМОЦИОНАЛЬНЫХ СОСТОЯНИЙ ПО ИЗОБРАЖЕНИЯМ ЛИЦ НА ОСНОВЕ РУЧНЫХ ПРИЗНАКОВ И СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ

Научная статья

Аликрицкий Михаил СергеевичПоволжский государственный университет телекоммуникаций и информатики, Самара, Российская Федерация
Захарова Оксана ИгоревнаПоволжский государственный университет телекоммуникаций и информатики, Самара, Российская Федерация

Аликрицкий М. С.
Захарова О. И.

https://doi.org/10.60797/IRJ.2026.168.100

DOI:

https://doi.org/10.60797/IRJ.2026.168.100

EDN:

LDXJSN

Предложена:

06.04.2026

Принята:

02.06.2026

Опубликована:

17.06.2026

Выпуск: № 6 (168), 2026

Правообладатель: авторы. Лицензия: Attribution 4.0 International (CC BY 4.0)

7

0

XML

PDF

Аннотация

В работе проведён анализ эффективности методов классификации эмоциональных состояний по изображениям лиц с использованием ручных признаков и сверточных нейронных сетей. Сопоставляются традиционные подходы, основанные на извлечении дескрипторов (LBP, HOG), а также современные методы глубокого обучения. Цель работы — выполнить сравнительное исследование качества классификации при применении различных методов и определение наиболее эффективного подхода для решения задачи распознавания эмоций. В качестве экспериментальной базы использован набор изображений лиц с разметкой эмоциональных состояний. Оценка результатов проводилась с использованием метрик качества классификации. Установлено, что модели на основе сверточных нейронных сетей обеспечивают более высокую точность по сравнению с методами, основанными на ручных признаках, однако требуют больших вычислительных ресурсов. Обоснована целесообразность применения гибридных или глубоких моделей для повышения эффективности систем распознавания эмоций.

Ключевые слова:

распознавание эмоций, анализ изображений лиц, классификация изображений, сверточные нейронные сети, ручные признаки, LBP, HOG, компьютерное зрение.

1. Введение

Задача автоматического распознавания эмоций по изображениям лиц остается актуальной для систем человеко-машинного взаимодействия, дистанционного обучения и медицинской диагностики

, , . Потребность в таких системах возрастает с развитием интерфейсов, адаптивных образовательных платформ и инструментов психологической поддержки, где анализ мимики позволяет получать обратную связь о состоянии пользователя в реальном времени. Основные трудности связаны с вариативностью мимических проявлений, условиями освещения и шумами, а также дисбалансом классов в реальных данных , .

В настоящее время применяются два основных подхода: ручное извлечение признаков (LBP, HOG) с последующей классификацией и глубокое обучение, автоматически формирующее иерархические признаки. Классические методы отличаются низкими вычислительными затратами, но ограничены в обобщении

, . Ряд современных работ указывает на преимущество CNN , , .

Цель работы — сравнительное экспериментальное исследование эффективности LBP+SVM, HOG+SVM и CNN на наборе FER2013 с учетом дисбаланса классов. Научная новизна заключается в сравнительном анализе устойчивости классических и нейросетевых методов к дисбалансу классов в условиях ограниченного разрешения изображений.

2. Материалы и методы

Экспериментальной базой послужил открытый набор данных FER2013 в стандартном разбиении: 28709 изображений для обучения, 3589 — для валидации, 3589 — для тестирования, все изображения в градациях серого размером 48x48 пикселей. Изображения отнесены к семи классам эмоциональных состояний: angry, disgust, fear, happy, neutral, sad, surprise. Распределение классов неравномерно, наиболее представлен класс «happy» (895 примеров в тестовой выборке), наименее — «disgust» (56 примеров). Подобная неравномерность распределения типична для реальных выборок и может приводить к смещению модели в сторону многочисленных классов

, . Перед обучением все изображения были нормализованы в диапазон от 0 до 1. Дополнительная предобработка, такая, как выравнивание лиц по глазам или удаление фона не применялась, чтобы сохранить соответствие реальным условиям работы системы, где такие операции не всегда возможны.

В исследовании реализованы три подхода к классификации. Первый подход использует извлечение локальных бинарных шаблонов (LBP), для каждого изображения строилась гистограмма LBP-признаков, которая затем подавалась на вход классификатора опорных векторов (SVM) с линейным ядром. Линейное ядро было выбрано из соображений интерпретируемости и меньшей склонности к переобучению на признаках небольшой размерности. Второй метод использует признаки ориентированных градиентов (HOG): вычислялся вектор HOG-дескриптора, после чего выполнялась классификация линейным SVM. Оба подхода относятся к классическим методам компьютерного зрения и отличаются вычислительной эффективностью, но имеют ограничения при анализе сложных мимических выражений. Аугментация для классических методов не применялась, так как они работают на фиксированных дескрипторах.

Третий подход представлен сверточной нейронной сетью (CNN), обучаемая непосредственно на исходных изображениях. Архитектура используемой сверточной нейронной сети представлена на рисунке 1. Сеть принимает на вход изображения размером 48x48x1 и состоит из трех последовательных сверточных блоков. Первый блок включает два сверточных слоя с 32 фильтрами размером 3x3 (padding="same", шаг свертки 1), каждый из которых сопровождается функцией активации ReLU, после первого сверточного слоя идет пакетная нормализации, завершающий этап блока — применение слоя подвыборки MaxPooling (2x2) и Dropout с вероятностью 0,25. Второй блок имеет аналогичную структуру, но с увеличением числа фильтров до 64 и Dropout 0,25. Третий блок содержит 128 фильтров и Dropout 0,3. После сверточных блоков используется слой глобального усредняющего объединения (GlobalAveragePooling2D), далее полносвязный слой из 256 нейронов с функцией активации ReLU и Dropout 0,5. Выходной слой реализован с использованием функции softmax и содержит 7 нейронов, соответствующих числу классов. Выбор архитектурных параметров обусловлен особенностями решаемой задачи.

Рисунок 1 - Архитектура сверточной нейронной сети

Обучение проводилось с оптимизатором Adam (начальная скорость обучения 0,0005) и функцией потерь categorical crossentropy в течение 60 эпох. Для контроля переобучения применялась валидационная выборка, на которой отслеживалась динамика потерь. Для расширения обучающей выборки применялась аугментации, такие как случайные повороты, сдвиги, масштабирование и горизонтальные отражения. Для компенсации дисбаланса классов использовались весовые коэффициенты, обратно пропорциональные частоте встречаемости каждого класса. Качество моделей оценивалось по метрикам accuracy, precision, recall и F1-score на независимой тестовой выборке.

3. Результаты и обсуждение

LBP+SVM показал точность 0,25. Наибольшее число ошибок наблюдается между эмоциями fear, sad и neutral из-за сходства текстур. Применение HOG+SVM позволило увеличить точность до 0,44 за счет учета геометрии лица, но сохранил чувствительность к дисбалансу и ошибки между визуально схожими классами. Модель CNN была обучена дважды на одной архитектуре, без использования весовых коэффициентов точность составила 0,5453, применение весовых классов увеличило точность до 0,6077. Лучшие показатели — для happy (precision=0,83) и surprise (0,72), самые низкие — для disgust (recall=0,52) из-за малого числа примеров. Fear, sad и neutral частично смешиваются из-за перекрытия признаков. Это указывает на то, что часть ошибок обусловлена не только ограничениями модели, но и объективной близостью визуальных проявлений данных эмоциональных состояний. Применение весов классов повысило recall для редких классов. Результаты сравнительного анализа методов распознавания эмоций представлены в таблице 1.

Сравнение точности классификации различных методов

значения метрик приведены в долях от 1

DOI:10.60797/IRJ.2026.168.100.2

Метод	Признаки	Accuracy, доли	Precision (macro), доли	Recall (macro), доли	F1-score (macro), доли
SVM	LBP	0,25	0,1418	0,1452	0,0647
SVM	HOG	0,44	0,3923	0,3888	0,3830
CNN	Автоматически извлекаемые	0,6077	0,5566	0,6152	0,5677

Результаты для метода LBP+SVM характеризуются крайне низкими значениями F1-score (0,0647), что связано с выраженным смещением модели в сторону наиболее представленного класса (happy). Это указывает на высокую чувствительность метода к дисбалансу классов и ограниченную способность LBP-признаков описывать сложную мимику. В противовес, HOG+SVM демонстрирует более сбалансированные значения метрик (F1-score = 0,3830), что объясняется учетом пространственной структуры изображения. Прирост accuracy от HOG к CNN составляет более 16%, что свидетельствует о более высокой эффективности автоматического извлечения признаков. Полученные значения соответствуют диапазону 55–65%, указанным в обзоре Li и Deng

. Классические методы LBP и HOG, несмотря на свою интерпретируемость, уступают нейросетевым из-за неспособности моделировать сложные нелинейные зависимости в мимике.

Проблема дисбаланса классов сохраняет существенное влияние: recall для класса disgust почти на 30% ниже, чем для happy. Применение весовых коэффициентов смягчило, но не устранило полностью этот эффект. Дополнительный анализ показал, что даже после балансировки модель часто путает disgust с fear и angry, что может быть связано с анатомическим сходством отдельных мимических паттернов. Ограничение достигнутой точности CNN может быть связано с низким пространственным разрешением изображений (48×48 пикселей), что приводит к потере мелких мимических деталей, критичных для различения сходных эмоциональных состояний. Дополнительным ограничением является использование датасета FER2013, содержащего изображения низкого качества и шумные метки, что может ограничивать верхнюю границу достигаемой точности моделей. С практической точки зрения, даже 60% точности может быть достаточно для некоторых приложений, но для индивидуальной диагностики требуется дальнейшее повышение надёжности. Перспективными направлениями являются генеративные методы дообучения (синтез редких классов) и использование метрического обучения для улучшения разделения визуально сходных эмоций (fear, sad, neutral). Также многообещающим выглядит применение трансформеров для анализа мимики и интеграция с видео-последовательностями, где доступна временная динамика выражений.

4. Заключение

В рамках работы выполнено экспериментальное исследование трёх подходов к классификации эмоций по лицам. Классические методы (LBP, HOG) обеспечивают базовый уровень точности (0,25-0,44), но их эффективность ограничена при сложной мимике и дисбалансе данных. Сверточная нейронная сеть с аугментацией и весами классов достигла accuracy 0,6077, что указывает на целесообразность применения глубокого обучения для данной задачи. Результаты сопоставимы с современными работами

, , , . Перспективными направлениями являются разработка более сложных стратегий балансировки выборки и архитектурных модификаций CNN.

Дополнительные материалы

Не указаны

Финансирование

Авторы не получали финансовой поддержки для проведения исследования, написания и публикации статьи

Благодарности

Не указаны

Конфликт интересов

Не указаны

Список литературы

Ko B.C. A brief review of facial emotion recognition based on visual information / B.C. Ko // Sensors. — 2018. — Vol. 18, No. 2. — DOI: 10.3390/s18020401

Shan C. Facial expression recognition based on local binary patterns: A comprehensive study / C. Shan, S. Gong, P.W. McOwan // Image and Vision Computing. — 2009. — Vol. 27, No. 6. — P. 803–816. — DOI: 10.1016/j.imavis.2008.08.005.

Murthy M.K.L. Efficient Feature Extraction for Recognition of Human Emotions through Facial Expressions Using Image Processing Algorithms / M.K.L. Murthy, M. Divyanjali, S.M. Basha [et al.] // E3S Web of Conferences. — 2023. — Vol. 391. — Article ID 01182. — DOI: 10.1051/e3sconf/202339101182.

Khaireddin Y. Facial Emotion Recognition: State of the Art Performance on FER2013 / Y. Khaireddin, Z. Chen // arXiv preprint arXiv:2105.03588. — 2021. — URL: https://arxiv.org/abs/2105.03588 (accessed: 06.04.2026).

Wang X. Optimizing Class Imbalance in Facial Expression Recognition Using Dynamic Intra-Class Clustering / X. Wang, B. Li, J. Yu [et al.] // Biomimetics. — 2025. — Vol. 10, No. 5. — P. 296–311. — DOI: 10.3390/biomimetics10050296.

Li S. Deep Facial Expression Recognition: A Survey / S. Li, W. Deng // IEEE Transactions on Affective Computing. — 2022. — Vol. 13, No. 3. — P. 1195–1215. — DOI: 10.1109/TAFFC.2020.2981446.

Goodfellow I.J. Challenges in Representation Learning: A Report on Three Machine Learning Contests / I.J. Goodfellow, D. Erhan, P.L. Carrier [et al.] // Neural Information Processing. — Berlin, Heidelberg: Springer, 2013. — P. 117–124. — DOI: 10.1007/978-3-642-42051-1_16.

Dalal N. Histograms of oriented gradients for human detection / N. Dalal, B. Triggs // 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). — San Diego, CA, USA, 2005. — P. 886–893. — DOI: 10.1109/CVPR.2005.177.

Telceken M. Can artificial intelligence understand our emotions? Deep learning applications with face recognition / M. Telceken, D. Akgun, S. Kacar [et al.] // Current Psychology. — 2025. — Vol. 44. — P. 7946–7956. — DOI: 10.1007/s12144-025-07375-0.

Chinnasamy P. Improving facial emotion recognition through dataset merging and balanced training strategies / P. Chinnasamy, W. Jeberson, K. Singh // Computers and Electrical Engineering. — 2025. — Vol. 123. — Article 110208. — DOI: 10.1016/j.compeleceng.2025.110208.

Safarov F. Enhanced AlexNet with Gabor and Local Binary Pattern Features for Improved Facial Emotion Recognition / F. Safarov [et al.] // Sensors. — 2025. — Vol. 25, No. 12. — P. 3832–3847. — DOI: 10.3390/s25123832.

Список литературы

Ko B.C.
A brief review of facial emotion recognition based on visual information
/ B.C. Ko //
Sensors
. — 2018. — Vol. 18, No. 2. — DOI: 10.3390/s18020401
Shan C. Facial expression recognition based on local binary patterns: A comprehensive study / C. Shan, S. Gong, P.W. McOwan // Image and Vision Computing. — 2009. — Vol. 27, No. 6. — P. 803–816. — DOI: 10.1016/j.imavis.2008.08.005.
Murthy M.K.L. Efficient Feature Extraction for Recognition of Human Emotions through Facial Expressions Using Image Processing Algorithms / M.K.L. Murthy, M. Divyanjali, S.M. Basha [et al.] // E3S Web of Conferences. — 2023. — Vol. 391. — Article ID 01182. — DOI: 10.1051/e3sconf/202339101182.
Khaireddin Y. Facial Emotion Recognition: State of the Art Performance on FER2013 / Y. Khaireddin, Z. Chen // arXiv preprint arXiv:2105.03588. — 2021. — URL: https://arxiv.org/abs/2105.03588 (accessed: 06.04.2026).
Wang X. Optimizing Class Imbalance in Facial Expression Recognition Using Dynamic Intra-Class Clustering / X. Wang, B. Li, J. Yu [et al.] // Biomimetics. — 2025. — Vol. 10, No. 5. — P. 296–311. — DOI: 10.3390/biomimetics10050296.
Li S. Deep Facial Expression Recognition: A Survey / S. Li, W. Deng // IEEE Transactions on Affective Computing. — 2022. — Vol. 13, No. 3. — P. 1195–1215. — DOI: 10.1109/TAFFC.2020.2981446.
Goodfellow I.J. Challenges in Representation Learning: A Report on Three Machine Learning Contests / I.J. Goodfellow, D. Erhan, P.L. Carrier [et al.] // Neural Information Processing. — Berlin, Heidelberg: Springer, 2013. — P. 117–124. — DOI: 10.1007/978-3-642-42051-1_16.
Dalal N. Histograms of oriented gradients for human detection / N. Dalal, B. Triggs // 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). — San Diego, CA, USA, 2005. — P. 886–893. — DOI: 10.1109/CVPR.2005.177.
Telceken M. Can artificial intelligence understand our emotions? Deep learning applications with face recognition / M. Telceken, D. Akgun, S. Kacar [et al.] // Current Psychology. — 2025. — Vol. 44. — P. 7946–7956. — DOI: 10.1007/s12144-025-07375-0.
Chinnasamy P. Improving facial emotion recognition through dataset merging and balanced training strategies / P. Chinnasamy, W. Jeberson, K. Singh // Computers and Electrical Engineering. — 2025. — Vol. 123. — Article 110208. — DOI: 10.1016/j.compeleceng.2025.110208.
Safarov F. Enhanced AlexNet with Gabor and Local Binary Pattern Features for Improved Facial Emotion Recognition / F. Safarov [et al.] // Sensors. — 2025. — Vol. 25, No. 12. — P. 3832–3847. — DOI: 10.3390/s25123832.

Рецензия

Все статьи проходят рецензирование. Но рецензент или автор статьи предпочли не публиковать рецензию к этой статье в открытом доступе. Рецензия может быть предоставлена компетентным органам по запросу.

Информация об авторах

АффилиацияПоволжский государственный университет телекоммуникаций и информатики, Самара, Российская Федерация
Роль:Автор, Исследование
АффилиацияПоволжский государственный университет телекоммуникаций и информатики, Самара, Российская Федерация
Роль:Руководство

Метрика статьи

Скачиваний:0

ПросмотрыСкачивания

Просмотры

Всего: