HTML-content

2303-9868

2227-6017

Международный научно-исследовательский журнал

2303-9868

ООО Цифра

10.60797/IRJ.2026.168.100

Brief communication

ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ МЕТОДОВ КЛАССИФИКАЦИИ ЭМОЦИОНАЛЬНЫХ СОСТОЯНИЙ ПО ИЗОБРАЖЕНИЯМ ЛИЦ НА ОСНОВЕ РУЧНЫХ ПРИЗНАКОВ И СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ

Аликрицкий

Михаил Сергеевич

mixail195222@gmail.com 1 Захарова

Оксана Игоревна

o.zaharova@psuti.ru 1

https://ror.org/050q60w23

Поволжский государственный университет телекоммуникаций и информатики

17 06 2026

2026

5 168 1 5 06 04 2026 02 06 2026

2022

This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See http://creativecommons.org/licenses/by/4.0/ .

В работе проведён анализ эффективности методов классификации эмоциональных состояний по изображениям лиц с использованием ручных признаков и сверточных нейронных сетей. Сопоставляются традиционные подходы, основанные на извлечении дескрипторов (LBP, HOG), а также современные методы глубокого обучения. Цель работы — выполнить сравнительное исследование качества классификации при применении различных методов и определение наиболее эффективного подхода для решения задачи распознавания эмоций. В качестве экспериментальной базы использован набор изображений лиц с разметкой эмоциональных состояний. Оценка результатов проводилась с использованием метрик качества классификации. Установлено, что модели на основе сверточных нейронных сетей обеспечивают более высокую точность по сравнению с методами, основанными на ручных признаках, однако требуют больших вычислительных ресурсов. Обоснована целесообразность применения гибридных или глубоких моделей для повышения эффективности систем распознавания эмоций.

распознавание эмоций анализ изображений лиц классификация изображений сверточные нейронные сети ручные признаки LBP HOG компьютерное зрение

HTML-content

1. Введение

Задача автоматического распознавания эмоций по изображениям лиц остается актуальной

для систем человеко-машинного взаимодействия, дистанционного обучения и медицинской диагностики [1], [2], [3]. Потребность в таких системах возрастает с развитием интерфейсов, адаптивных образовательных платформ и инструментов психологической поддержки, где анализ мимики позволяет получать обратную связь о состоянии пользователя в реальном времени. , условиями освещения и шумами, а также дисбалансом классов в реальных данных [4], [5].

В настоящее время применяются два основных подхода

: ручное извлечение признаков (LBP, HOG) с последующей классификацией и глубокое обучение, автоматически формирующее иерархические признаки. , но ограничены в обобщении [7], [8]. [9], [10], [11].

Цель работы — сравнительное экспериментальное исследование эффективности LBP+SVM, HOG+SVM и CNN на наборе FER2013 с учетом дисбаланса классов.

2. Материалы и методы

Экспериментальной базой послужил открытый набор данных FER2013 в стандартном разбиении: 28709 изображений для обучения, 3589 — для валидации, 3589 — для тестирования, все изображения в градациях серого размером 48x48 пикселей. : angry, disgust, fear, happy, neutral, sad, surprise. Распределение классов неравномерно, наиболее представлен класс «happy» (895 примеров в тестовой выборке), наименее — «disgust» (56 примеров). и может приводить к смещению модели в сторону многочисленных классов [6], [11]. Перед обучением все изображения были нормализованы в диапазон от 0 до 1. Дополнительная предобработка, такая, как выравнивание лиц по глазам или удаление фона не применялась, чтобы сохранить соответствие реальным условиям работы системы, где такие операции не всегда возможны.

В исследовании реализованы три подхода к классификации

. (LBP), для каждого изображения строилась гистограмма LBP-признаков, которая затем подавалась на вход классификатора опорных векторов (SVM) с линейным ядром. Линейное ядро было выбрано . Второй метод использует признаки ориентированных градиентов (HOG): вычислялся вектор HOG-дескриптора, после чего выполнялась классификация линейным SVM. и отличаются вычислительной эффективностью, но имеют ограничения при анализе сложных мимических выражений. Аугментация для классических методов не применялась, так как они работают на фиксированных дескрипторах.

Третий подход представлен сверточной нейронной сетью

(CNN), обучаемая непосредственно на исходных изображениях. — Выбор архитектурных параметров обусловлен особенностями решаемой задачи.

Figure 1

Архитектура сверточной нейронной сети

Обучение проводилось с оптимизатором Adam (начальная скорость обучения 0,0005) и функцией потерь categorical crossentropy в течение 60 эпох. Для контроля переобучения применялась валидационная выборка, на которой отслеживалась динамика потерь. Для расширения обучающей выборки применялась аугментации, такие как случайные повороты, сдвиги, масштабирование и горизонтальные отражения. Для компенсации дисбаланса классов использовались весовые коэффициенты, обратно пропорциональные частоте встречаемости каждого класса. Качество моделей оценивалось по метрикам accuracy, precision, recall и F1-score на независимой тестовой выборке.

3. Результаты и обсуждение

LBP+SVM показал точность 0,25. fear, sad и neutral из-за сходства текстур. до 0,44 за счет учета геометрии лица, но сохранил чувствительность к дисбалансу и ошибки между визуально схожими классами. . Лучшие показатели — для happy (precision=0,83) и surprise (0,72), самые низкие — для disgust (recall=0,52) из-за малого числа примеров. Fear, sad и neutral частично смешиваются из-за перекрытия признаков. Применение весов классов повысило recall для редких классов.

Table 1

Сравнение точности классификации различных методов

Метод	Признаки	Accuracy, доли	Precision (macro), доли	Recall (macro), доли	F1-score (macro), доли
SVM	LBP	0,25	0,1418	0,1452	0,0647
SVM	HOG	0,44	0,3923	0,3888	0,3830
CNN	Автоматически извлекаемые	0,6077	0,5566	0,6152	0,5677

Результаты для метода LBP+SVM характеризуются крайне низкими значениями F1-score (0,0647), что связано с выраженным смещением модели в сторону наиболее представленного класса (happy). Это указывает на высокую чувствительность метода к дисбалансу классов и ограниченную способность LBP-признаков описывать сложную мимику. В противовес, HOG+SVM демонстрирует более сбалансированные значения метрик (F1-score = 0,3830), что объясняется учетом пространственной структуры изображения.

Прирост accuracy от HOG к CNN составляет более 16%, . 55–65%, указанным в обзоре Li и Deng [6]. Классические методы LBP и HOG, несмотря на свою интерпретируемость, уступают нейросетевым из-за неспособности моделировать сложные нелинейные зависимости в мимике.

Проблема дисбаланса классов сохраняет существенное влияние

: recall для класса disgust почти на 30% ниже, чем для happy. Применение весовых коэффициентов смягчило, но не устранило полностью этот эффект. Дополнительный анализ показал, что даже после балансировки модель часто путает disgust с fear и angry, что может быть связано с анатомическим сходством отдельных мимических паттернов. С практической точки зрения, даже 60% точности может быть достаточно для некоторых приложений, но для индивидуальной диагностики требуется дальнейшее повышение надёжности. Перспективными направлениями являются генеративные методы дообучения (синтез редких классов) и использование метрического обучения для улучшения разделения визуально сходных эмоций (fear, sad, neutral). Также многообещающим выглядит применение трансформеров для анализа мимики и интеграция с видео-последовательностями, где доступна временная динамика выражений.

4. Заключение

В рамках работы выполнено экспериментальное исследование

трёх подходов к классификации эмоций по лицам. Классические методы (LBP, HOG) обеспечивают базовый уровень точности (0,25-0,44), но их эффективность ограничена при сложной мимике и дисбалансе данных. Сверточная нейронная сеть с аугментацией и весами классов достигла accuracy 0,6077, для данной задачи. Результаты сопоставимы с современными работами [6], [9], [10], [11]. более сложных стратегий балансировки выборки и архитектурных модификаций CNN.

Additional File

The additional file for this article can be found as follows:

Online Supplementary Material

Further description of analytic pipeline and patient demographic information. DOI: https://doi.org/10.60797/IRJ.2026.168.100

Acknowledgements

Competing Interests

1 Ko B.C. A brief review of facial emotion recognition based on visual information / B.C. Ko // Sensors. — 2018. — Vol. 18, No. 2. DOI: 10.3390/s18020401. [in English] 2 Shan C. Facial expression recognition based on local binary patterns: A comprehensive study / C. Shan, S. Gong, P.W. McOwan // Image and Vision Computing. — 2009. — Vol. 27, No. 6. — P. 803–816. — DOI: 10.1016/j.imavis.2008.08.005. 3 Murthy M.K.L. Efficient Feature Extraction for Recognition of Human Emotions through Facial Expressions Using Image Processing Algorithms / M.K.L. Murthy, M. Divyanjali, S.M. Basha [et al.] // E3S Web of Conferences. — 2023. — Vol. 391. — Article ID 01182. — DOI: 10.1051/e3sconf/202339101182. 4 Khaireddin Y. Facial Emotion Recognition: State of the Art Performance on FER2013 / Y. Khaireddin, Z. Chen // arXiv preprint arXiv:2105.03588. — 2021. — URL: https://arxiv.org/abs/2105.03588 (accessed: 06.04.2026). 5 Wang X. Optimizing Class Imbalance in Facial Expression Recognition Using Dynamic Intra-Class Clustering / X. Wang, B. Li, J. Yu [et al.] // Biomimetics. — 2025. — Vol. 10, No. 5. — P. 296–311. — DOI: 10.3390/biomimetics10050296. 6 Li S. Deep Facial Expression Recognition: A Survey / S. Li, W. Deng // IEEE Transactions on Affective Computing. — 2022. — Vol. 13, No. 3. — P. 1195–1215. — DOI: 10.1109/TAFFC.2020.2981446. 7 Goodfellow I.J. Challenges in Representation Learning: A Report on Three Machine Learning Contests / I.J. Goodfellow, D. Erhan, P.L. Carrier [et al.] // Neural Information Processing. — Berlin, Heidelberg: Springer, 2013. — P. 117–124. — DOI: 10.1007/978-3-642-42051-1_16. 8 Dalal N. Histograms of oriented gradients for human detection / N. Dalal, B. Triggs // 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). — San Diego, CA, USA, 2005. — P. 886–893. — DOI: 10.1109/CVPR.2005.177. 9 Telceken M. Can artificial intelligence understand our emotions? Deep learning applications with face recognition / M. Telceken, D. Akgun, S. Kacar [et al.] // Current Psychology. — 2025. — Vol. 44. — P. 7946–7956. — DOI: 10.1007/s12144-025-07375-0. 10 Chinnasamy P. Improving facial emotion recognition through dataset merging and balanced training strategies / P. Chinnasamy, W. Jeberson, K. Singh // Computers and Electrical Engineering. — 2025. — Vol. 123. — Article 110208. — DOI: 10.1016/j.compeleceng.2025.110208. 11 Safarov F. Enhanced AlexNet with Gabor and Local Binary Pattern Features for Improved Facial Emotion Recognition / F. Safarov [et al.] // Sensors. — 2025. — Vol. 25, No. 12. — P. 3832–3847. — DOI: 10.3390/s25123832.