HTML-content

2303-9868

2227-6017

Международный научно-исследовательский журнал

2303-9868

ООО Цифра

10.60797/IRJ.2025.158.104

Brief communication

Эмпирические исследования моделей нейронных сетей по распознаванию голосовых эмоций

Голубев

Дмитрий Сергеевич

golubev.dmitriy.02@inbox.ru 3

https://orcid.org/0000-0002-8991-3206

Бильгаева

Людмила Пурбоевна

bilgaeval@mail.ru 1

https://orcid.org/0000-0002-5863-8002

https://elibrary.ru/author_profile.asp?id=1791

https://publons.com/researcher/MGA-3110-2025

Найханова

Лариса Владимировна

obeka_nlv@mail.ru 2

1 Восточно-Сибирский государственный университет технологий и управления 2 Восточно-Сибирский государственный университет технологий и управления 3 Восточно-Сибирский государственный университет технологий и управления

18 08 2025

2025

9 158 1 9 19 02 2025 15 08 2025

2022

This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See http://creativecommons.org/licenses/by/4.0/ .

Данная статья посвящена проведению эмпирических исследований в области распознавания эмоций на основе нейронных сетей. Целью исследования является сравнительный анализ показателей эффективности различных моделей нейронных сетей для решения задачи распознавания эмоций в речи человека. Рассматриваются полносвязные нейронные сети (Deep Neural Network), свёрточные нейронные сети (Convolutional Neural Network) и рекуррентные нейронные сети (Recurrent Neural Network). Для каждой нейронной сети определен одинаковый набор исходных данных, на которых они обучаются и демонстрирует свои возможности по распознаванию разных видов эмоций. Выполнен анализ результатов работы моделей и их точности с помощью методов: оценки корреляции признаков, метода главных компонент (PCA), стохастического вложения соседей с t-распределением (t-SNE) и матриц ошибок. Определены дальнейшие перспективы развития исследований.

нейронные сети эмоции речевые данные классификация эмоций

HTML-content

1. Введение

Современные технологии в области искусственного интеллекта и обработки речи достигли значительных успехов, что привело к разработке голосовых ассистентов. Распознавание эмоций по голосу — это динамично развивающаяся область, находящая широкое применение в различных прикладных задачах. Например, в статье «Распознавание эмоций по голосу: технологии и приложения» уточняется, что интеграция эмоционального анализа позволяет ассистентам адаптировать свои ответы в зависимости от настроения пользователя

[1][2][3][4]

Исследования в области распознавания голосовых эмоций активно развиваются. Так, например, в России была создана библиотека Aniemore

[5][6]

На международном уровне крупные технологические компании, такие как Apple и Amazon, инвестируют в развитие эмоционального искусственного интеллекта

[7][8][9]

Но, несмотря на достигнутые успехи в данной сфере, существует немало проблем, которые требуют решения. Одна из основных проблем заключается в обширном разнообразии проявлений эмоций людьми, что усложняет создание универсальных моделей. Кроме того, есть множество факторов, например, языковых, которые также влияют на качество моделей.

Данная статья посвящена эмпирическим исследованиям различных моделей нейронных сетей, решающих задачу распознавания голосовых эмоций, и оценки их эффективности с использованием существующих наборов данных. В дальнейшем полученные результаты будут использованы для создания более эффективной модели, способной решить часть существующих проблем в данной области, что позволит расширить её применение в различных сферах человеческой деятельности.

2. Методы исследования

В рамках данного исследования были выбраны такие архитектуры нейронных сетей, как полносвязная нейронная сеть (DNN), нормализованная полносвязная нейронная сеть (NDNN), сверточная нейронная сеть (CNN) и рекуррентная нейронная сеть (RNN). Эти модели нейронных сетей представляют собой базовые и концептуально отличающиеся подходы к обработке данных: от простой линейной передачи информации до захвата пространственных и временных зависимостей. Такой выбор позволяет не только провести сопоставление эффективности разных принципов архитектур, но и заложить основу для дальнейшего анализа более сложных моделей. Кроме того, эти типы сетей хорошо изучены и широко применяются в задачах обработки сигналов и классификации, что делает их обоснованной отправной точкой для эмпирического сравнения

[10][11][12]

В работе В.В. Киселёва показано, что эмоции в речи распознаются на основе анализа акустических и лингвистических характеристик, которые отражают состояние говорящего

[13]

Для глубокого понимания характеристик эмоциональной речи и улучшения моделей классификации применяются следующие методы анализа и оценки:

1. Оценка корреляции признаков используется для выявления взаимосвязей между различными характеристиками аудиосигнала. Построение корреляционной матрицы позволяет понять, как сильно связаны между собой признаки

[14]

2. Матрица ошибок — это инструмент визуального анализа, позволяющий оценить, как модель классифицирует объекты каждого класса. В отличие от агрегированных метрик, таких как Precision, Recall и f1-score, матрица ошибок показывает конкретные направления ошибок, т.е. какие классы модель путает между собой

[15]

3. Метод главных компонент (PCA) применяется для уменьшения размерности признаков, при этом сохраняя важные элементы информации, и позволяет выявить признаки, которые наиболее сильно влияют на различие между эмоциями

[16]

4. t-SNE — это инструмент визуализации многомерных данных, который применяется для представления признаков в двумерной или трёхмерной проекции

[17]

Для проведения данного исследования использовался датасет RAVDESS

[18]

Ключевые особенности датасета: 1440 аудиофайлов, 24 актёра, 8 категорий эмоций (нейтральность (Neutral), спокойствие (Calm), счастье (Happy), грусть (Sad), гнев (Angry), страх (Fearful), отвращение (Disgust), удивление (Surprised)), два уровня интенсивности.

Для анализа эмоционального окраса речи часто рассматриваются и извлекаются следующие акустические характеристики:

- MFCC, представляющие спектральные особенности речи;

- Chroma, отражающие интонацию;

- Mel Spectrogram, представляющие собой энергораспределение по частотам;

- Spectral Contrast, представляющие различия в энергии между максимальными и минимальными точками спектра;

- Tonnetz, представляющие гармоническое содержание звука.

В процессе подготовки данных к обучению различные архитектуры нейронных сетей сопровождались разным уровнем предобработки. Так, для моделей NDNN, CNN и RNN применялась нормализация признаков методом Z-преобразования с использованием функции StandardScaler. Нормализация позволяет быстрее обучаться моделям и делает вклад каждого признака в обучение равномерным. Балансировка классов была реализована в модели RNN с помощью алгоритма SMOTE — метода синтетического увеличения количества примеров в тех классах, которых изначально меньше, что позволило компенсировать дисбаланс эмоций в датасете. В этой же модели использовалась аугментация аудиоданных: изменение скорости воспроизведения аудиоданных и высоты тона, что значительно увеличило объем обучающей выборки. Такой подход позволил улучшить обобщающую способность модели RNN путем получения эмоций в разных вариантах произношения. В базовой модели DNN предобработка ограничивалась только извлечением признаков без нормализации, балансировки и аугментации, что отражает её роль в исследовании как стартовой контрольной архитектуры.

Для каждой модели оптимальные значения гиперпараметров были определены экспериментальным путем. В таблице 1 представлены виды и гиперпараметры нейронных сетей.

Table 1

Виды и гиперпараметры моделей нейронных сетей

Название	DNN	NDNN	CNN	RNN
Вид нейронных сетей	Deep Neural Network	Normalized Deep Neural Network	Convolutional Neural Network	Recurrent Neural Network
Функция активации	ReLU, Softmax	ReLU, Softmax	ReLU, Softmax	ReLU, Softmax
Оптимизатор	Adam	RMSprop	Adam	Adam
Нормализация	Нет	StandardScaler	StandardScaler	StandardScaler
Балансировка классов	Нет	Нет	Нет	SMOTE
Аугментация	Нет	Нет	Нет	Сдвиг времени, тональности
Batch size	4	16	64	32
Эпох	200	200	180	50
Нейронов	400, 200, 100	512, 256	32, 64, 128, 256, 512	64, 128
Коэффициент скорости обучения	0,01	0,001	0,00095	0,001

Из таблицы видно, что для каждой из четырех созданных моделей нейронных сетей представлено количество нейронов на каждом скрытом слое, число скрытых слоев можно видеть по количеству нейронов в одном слое (так в первой модели — три скрытых слоя, во второй — 2, в третьей — 5, а в четвертой — 2).

3. Основные результаты

Проведен ряд вычислительных экспериментов по решению задачи классификации эмоций в речи человека с использованием четырех моделей нейронных сетей: DNN, NDNN, CNN, RNN.

На рисунке 1 представлены результаты классификации по каждой модели нейронной сети, точность которой определяется с использованием оценки корреляции признаков и представляется отчетом классификации.

Figure 1

Отчёты классификации для моделей DNN, NDNN, CNN, RNN

- Precision (точность) — доля правильных предсказаний среди всех, которые модель отнесла к определённой категории;

- Recall (полнота) — доля правильно угаданных эмоций среди всех случаев, где эта эмоция действительно присутствовала;

- f1-score — среднее значение между Precision и Recall, которое помогает оценить баланс между ними.

Из отчета классификации можно видеть, что:

- высокие значения метрики f1-score для эмоций нейтральности (0,65) и печали (0,62) для сети DNN; высокий Recall (0,81), но низкий Precision (0,38) для эмоции спокойствие для сети DNN;

- высокие значения метрики f1-score для эмоций спокойствие (0,71), гнев (0,64), страх (0,65), отвращение (0,60), удивление (0,62) для сети NDNN; высокие значения метрики Precision 0,68, 0,70, 0,72 наблюдаются для эмоций спокойствие, удивление, гнев соответственно, Высокие значения метрики Recall 0,62, 0,73, 0,75 определены для эмоций отвращение, страх, спокойствие соответственно;

- высокие значения метрики f1-score для эмоций страх, спокойствие и гнев, равные 0,61, 0,65, 0,69 соответственно для сети CNN, а метрика Precision имеет высокие значения метрики f1-score для эмоций высокое значение, равное 0,78, для эмоции удивление в модели CNN, но низкое значение Recall (0,45);

- модель RNN показала неудовлетворительные результаты классификации эмоций по всем метрикам.

На основе полученных в процессе экспериментов результатов построен график точности классификации эмоций для каждой модели нейронной сети, представленный на рисунке 2.

Figure 2

График точности классификации эмоций

На рисунке 3 представлены матрицы ошибок по каждой модели нейронной сети. Значения на главной диагонали показывают верно распознанные эмоции. Если значение равно нулю, то эмоция не распознана. Наибольшая сумма значений главной диагонали характеризует модель нейронной сети, как наилучшую, а наименьшее значение — наихудшую. Наибольшее количество ошибок, которая могла допустить модель нейронной сети при классификации, определяется суммой значений, кроме значений главной диагонали.

Figure 3

Матрица ошибок для моделей DNN, NDNN, CNN, RNN

На рисунке 4 представлен PCA-анализ по каждой модели нейронной сети.

Figure 4

PCA анализ для моделей DNN, NDNN, CNN, RNN

Полученные результаты с использованием метода PCA показывают, что главные признаки, извлекаемые из аудиофайлов недостаточно информативны для четкой классификации.

На рисунке 5 представлены t-SNE анализ по каждой модели нейронной сети.

Figure 5

t-SNE-анализ для моделей DNN, NDNN, CNN, RNN

На графиках t-SNE-анализа видно, что точность классификации признаков растет от модели DNN к модели CNN через NDNN, но резко падает в модели RNN. Таким образом, все модели кроме RNN демонстрируют точность классификации эмоций в речи человека от 47% до 71%, что можно считать приемлемым результатом.

4. Обсуждение

Данное исследование проводилось для предварительного анализа различных нейронных сетей для решения задачи распознавания эмоциональной окраски речи человека. Было рассмотрено четыре модели: DNN, NDNN, CNN, RNN. В работе был использован англоязычный датасет RAVDESS, содержащий 8 эмоций, семь из которых отражают ярко выраженную эмоцию, например, счастье, гнев, удивление и т.д., а один является нейтральным. Более того, использовалось два уровня интенсивности: аудиозаписи нормальной и повышенной громкости.

Оценка моделей определялась с помощью четырех методов. Так, отчет классификации является результатом реализации метода оценки корреляции (метод 1) и определяет точность классификации такими параметрами, как precision, recall, f1-score, а также параметром support, определяющий количество примеров для проверки точности.

Наилучший результат продемонстрировала модель NDNN для таких эмоций, как спокойствие, гнев, страх, отвращение, удивление со значениями 0,71, 0,64, 0,65, 0,60, 0,62 соответственно, Они представляют параметр f1-score, который является средним значением параметров precision и recall, Наихудший результат показала модель RNN, Результат по всем четырем моделям демонстрирует график на рисунке 2,

Модель CNN хорошо распознала эмоции гнева по сравнению с моделью NDNN (значение параметра f1-score 0,69 против 0,64) Это объясняется способностью свёрточных слоёв эффективно извлекать пространственные паттерны из спектральных признаков, Однако её результат был менее устойчивым по сравнению с NDNN в отношении эмоций спокойствия и страха.

Модель RNN показала крайне низкие значения параметра f1-score. Возможной причиной может быть сложность архитектуры и избыточное число эпох обучения. Такой вывод сделан на основе экспериментов, в которых точность модели возрастала при уменьшении количества скрытых слоев (т.е. упрощения топологии рекуррентной сети) и эпох обучения.

При анализе матрицы ошибок выявлено, что наибольшее число верно распознанных эмоций у модели NDNN (281) и CNN (269). А наибольшее число ошибок при распознавании эмоций было у моделей RNN (414) и DNN (235).

Матрицы ошибок подтверждают, что все модели испытывают трудности при распознавании схожих по акустическим признакам эмоций, таких как:

- нейтральность ↔ спокойствие;

- счастье ↔ удивление;

- страх ↔ отвращение;

- печаль ↔ нейтральность.

Это связано с тем, что эмоции перекликаются между собой по акустическим паттернам, что приводит к путанице у моделей. Также следует отметить, что отсутствие временного контекста снижает точность распознавания. И возможно, различный шумы, присутствующие в аудиозаписях, например, различия в интонации, мешают четкому распознаванию эмоций схожего спектра.

Визуализация данных с помощью методов PCA и t-SNE показала, что классы эмоций частично пересекаются в признаковом пространстве. Особенно это выражено у моделей DNN и RNN, где отчётливо прослеживаются проблемы с разделимостью классов. Модели NDNN и CNN продемонстрировали наиболее чёткую дифференциацию признаков, в особенности CNN.

По результатам анализа можно сделать вывод, что модели NDNN и CNN пригодны для задач распознавания эмоций. Модель RNN, в свою очередь, в данной конфигурации не может выполнить поставленную задачу. Модель DNN справляется с этой задачей, но не так эффективно, как модели NDNN и CNN.

5. Заключение

Данное исследование является основой для создания более эффективной модели для решения задачи распознавания голосовых эмоций. В дальнейших исследованиях необходимо:

- расширить текущий подход путём применения гибридных нейросетевых архитектур, объединяющих преимущества таких моделей, как NDNN и CNN;

- применить многомодальные системы, в которых аудиоданные дополняются визуальной информацией (например, выражением лица или движением губ)

[19]

- применить механизмы внимания и трансформерные архитектуры, которые позволят модели автоматически фокусироваться на наиболее значимых участках входных данных и будут эффективны в условиях сложной семантики и высокой изменчивости речи.

Таким образом, дальнейшее исследование в указанных направлениях может существенно улучшить качество классификации голосовых эмоций и расширить возможности использования подобных систем в реальных прикладных задачах.

Additional File

The additional file for this article can be found as follows:

Online Supplementary Material

Further description of analytic pipeline and patient demographic information. DOI: https://doi.org/10.60797/IRJ.2025.158.104

Acknowledgements

Competing Interests

1 Аннагельдиев Э. Распознавание эмоций по голосу: технологии и приложения / Э. Аннагельдиев, К. Аннамырадов, А. Атаев // Вестник науки. — Тольятти, 2024. — С. 787–790. 2 Иванов С.А. Когнитивные технологии в маркетинге: как психология и нейронаука меняют потребительские привычки / С.А. Иванов, А.В. Петрова // Наука и мировоззрение. — 2025. — 38. — с. 8–11. 3 König A. Detecting subtle signs of depression with automated speech analysis in a non-clinical sample / A. König, J. Tröger, E. Mallick [et al.] // BMC Psychiatry. — 2022. — 22(1). DOI: 10.1186/s12888-022-04475-0 4 Плешакова Е.С. Распознавание эмоций человека по голосу в борьбе с телефонным мошенничеством. / Е.С. Плешакова, С.Т. Гатауллин, А.В. Осипов [и др.] // Национальная безопасность / nota bene. — 2022. — 5. DOI: 10.7256/2454-0668.2022.5.38782 5 ANIEMORE. Открытая библиотека распознавания эмоций в речи человека // ResearchGate. — 2023 — URL: https://www.researchgate.net/publication/375025114_ANIEMORE_Otkrytaa_biblioteka_raspoznavania_emocij_v_reci_celoveka (дата обращения: 12.01.2025) 6 Нейросеть-эмпат // Яндекс.Облако. — 2025 — URL: https://yandex.cloud/ru/blog/posts/2024/03/emotion-recognition-using-neural-network?utm_referrer=https%3A%2F%2Fyandex.ru%2F (дата обращения: 12.01.2025) 7 Google, Tesla, Apple, Meta и Amazon активно инвестируют в разработку ИИ // ITinfo. — 2024 — URL: https://www.itinfo.media/tehnologii/google-tesla-apple-meta-i-amazon-aktivno-investiruyut-v-razrabotku-ii/ (дата обращения: 12.01.2025) 8 Apple покупает стартап, работающий над анализом чувств и эмоций пользователя // Хабр. — 2016 — URL: https://habr.com/ru/articles/297778/ (дата обращения: 11.01.2025) 9 Как с помощью ИИ распознавать человеческие эмоции и кому это нужно // РБК. — 2024 — URL: https://trends.rbc.ru/trends/industry/66e1788e9a794751bba5b30c (дата обращения: 17.01.2025) 10 Trinh Van L. Emotional Speech Recognition Using Deep Neural Networks / L. Trinh Van, T. Xuan Le, T. Dao Thi Le [et al.] // Sensors. — 2022. — 22(4). DOI: 10.3390/s22041414 11 Lim W. Speech emotion recognition using convolutional and Recurrent Neural Networks / W. Lim, D. Jang, T. Lee // 2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA). — 2016. — 10. DOI: 10.1109/APSIPA.2016.7820699 12 Chernykh V. Emotion recognition from speech with recurrent neural networks / V. Chernykh, G. Sterling, P. Prihodko // arXiv. — 2017 — URL: https://arxiv.org/pdf/1701.08071v1 (дата обращения: 04.07.2025) [in English] 13 Киселёв В.В. Автоматическое определение эмоций по речи / В.В. Киселёв // Образовательные технологии. — 2012. — 3. — с. 85–89. 14 Фазлутдинова А.И. Корреляционный анализ акустических сигналов. Взаимная корреляционная функция / А.И. Фазлутдинова // Молодой ученый. — 2022. — 51(446). — С. 60–64. 15 Confusion matrix [Audio analysis. Voice identification] // scikit learn. — 2025 — URL: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html (дата обращения: 20.02.2025) [in English] 16 Метод главных компонент (PCA) // Хабр. — 2016 — URL: https://habr.com/ru/articles/304214/ (дата обращения: 16.01.2025) 17 Алгоритм машинного обучения t-SNE // nuancesprog.ru. — 2022 — URL: https://nuancesprog.ru/p/14951/ (дата обращения: 17.01.2025) 18 RAVDESS Emotional speech audio // Kaggle. — 2019 — URL: https://www.kaggle.com/datasets/uwrfkaggler/ravdess-emotional-speech-audio (дата обращения: 24.01.2025) [in English] 19 Утеев Г. Разработка децентрализованной системы идентификации личности по биометрическим данным с помощью технологии блокчейн и компьютерного зрения / Г. Утеев, Р.Ф. Гибадуллин // Международный научно-исследовательский журнал. — 2024. — 4(142). DOI: 10.23670/IRJ.2024.142.6