<?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE article PUBLIC "-//NLM/DTD JATS (Z39.96) Journal Publishing DTD v1.2 20120330//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
    <!--<?xml-stylesheet type="text/xsl" href="article.xsl">-->
<article xmlns:ns0="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.2" xml:lang="en">
	<front>
		<journal-meta>
			<journal-id journal-id-type="issn">2303-9868</journal-id>
			<journal-id journal-id-type="eissn">2227-6017</journal-id>
			<journal-title-group>
				<journal-title>Международный научно-исследовательский журнал</journal-title>
			</journal-title-group>
			<issn pub-type="epub">2303-9868</issn>
			<publisher>
				<publisher-name>ООО Цифра</publisher-name>
			</publisher>
		</journal-meta>
		<article-meta>
			<article-id pub-id-type="doi">10.60797/IRJ.2025.158.104</article-id>
			<article-categories>
				<subj-group>
					<subject>Brief communication</subject>
				</subj-group>
			</article-categories>
			<title-group>
				<article-title>Эмпирические исследования моделей нейронных сетей по распознаванию голосовых эмоций</article-title>
			</title-group>
			<contrib-group>
				<contrib contrib-type="author" corresp="yes">
					<name>
						<surname>Голубев</surname>
						<given-names>Дмитрий Сергеевич</given-names>
					</name>
					<email>golubev.dmitriy.02@inbox.ru</email>
					<xref ref-type="aff" rid="aff-3">3</xref>
				</contrib>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="orcid">https://orcid.org/0000-0002-8991-3206</contrib-id>
					<name>
						<surname>Бильгаева</surname>
						<given-names>Людмила Пурбоевна</given-names>
					</name>
					<email>bilgaeval@mail.ru</email>
					<xref ref-type="aff" rid="aff-1">1</xref>
				</contrib>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="orcid">https://orcid.org/0000-0002-5863-8002</contrib-id>
					<contrib-id contrib-id-type="rinc">https://elibrary.ru/author_profile.asp?id=1791</contrib-id>
					<contrib-id contrib-id-type="rid">https://publons.com/researcher/MGA-3110-2025</contrib-id>
					<name>
						<surname>Найханова</surname>
						<given-names>Лариса Владимировна</given-names>
					</name>
					<email>obeka_nlv@mail.ru</email>
					<xref ref-type="aff" rid="aff-2">2</xref>
				</contrib>
			</contrib-group>
			<aff id="aff-1">
				<label>1</label>
				<institution>Восточно-Сибирский государственный университет технологий и управления</institution>
			</aff>
			<aff id="aff-2">
				<label>2</label>
				<institution>Восточно-Сибирский государственный университет технологий и управления</institution>
			</aff>
			<aff id="aff-3">
				<label>3</label>
				<institution>Восточно-Сибирский государственный университет технологий и управления</institution>
			</aff>
			<pub-date publication-format="electronic" date-type="pub" iso-8601-date="2025-08-18">
				<day>18</day>
				<month>08</month>
				<year>2025</year>
			</pub-date>
			<pub-date pub-type="collection">
				<year>2025</year>
			</pub-date>
			<volume>9</volume>
			<issue>158</issue>
			<fpage>1</fpage>
			<lpage>9</lpage>
			<history>
				<date date-type="received" iso-8601-date="2025-02-19">
					<day>19</day>
					<month>02</month>
					<year>2025</year>
				</date>
				<date date-type="accepted" iso-8601-date="2025-08-15">
					<day>15</day>
					<month>08</month>
					<year>2025</year>
				</date>
			</history>
			<permissions>
				<copyright-statement>Copyright: &amp;#x00A9; 2022 The Author(s)</copyright-statement>
				<copyright-year>2022</copyright-year>
				<license license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
					<license-p>
						This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See 
						<uri xlink:href="http://creativecommons.org/licenses/by/4.0/">http://creativecommons.org/licenses/by/4.0/</uri>
					</license-p>
					.
				</license>
			</permissions>
			<self-uri xlink:href="https://research-journal.org/archive/8-158-2025-august/10.60797/IRJ.2025.158.104"/>
			<abstract>
				<p>Данная статья посвящена проведению эмпирических исследований в области распознавания эмоций на основе нейронных сетей. Целью исследования является сравнительный анализ показателей эффективности различных моделей нейронных сетей для решения задачи распознавания эмоций в речи человека. Рассматриваются полносвязные нейронные сети (Deep Neural Network), свёрточные нейронные сети (Convolutional Neural Network) и рекуррентные нейронные сети (Recurrent Neural Network). Для каждой нейронной сети определен одинаковый набор исходных данных, на которых они обучаются и демонстрирует свои возможности по распознаванию разных видов эмоций. Выполнен анализ результатов работы моделей и их точности с помощью методов: оценки корреляции признаков, метода главных компонент (PCA), стохастического вложения соседей с t-распределением (t-SNE) и матриц ошибок. Определены дальнейшие перспективы развития исследований.</p>
			</abstract>
			<kwd-group>
				<kwd>нейронные сети</kwd>
				<kwd> эмоции</kwd>
				<kwd> речевые данные</kwd>
				<kwd> классификация эмоций</kwd>
			</kwd-group>
		</article-meta>
	</front>
	<body>
		<sec>
			<title>HTML-content</title>
			<p>1. Введение</p>
			<p>Современные технологии в области искусственного интеллекта и обработки речи достигли значительных успехов, что привело к разработке голосовых ассистентов. Распознавание эмоций по голосу — это динамично развивающаяся область, находящая широкое применение в различных прикладных задачах. Например, в статье «Распознавание эмоций по голосу: технологии и приложения» уточняется, что интеграция эмоционального анализа позволяет ассистентам адаптировать свои ответы в зависимости от настроения пользователя </p>
			<p>[1][2][3][4]</p>
			<p>Исследования в области распознавания голосовых эмоций активно развиваются. Так, например, в России была создана библиотека Aniemore </p>
			<p>[5][6]</p>
			<p>На международном уровне крупные технологические компании, такие как Apple и Amazon, инвестируют в развитие эмоционального искусственного интеллекта </p>
			<p>[7][8][9]</p>
			<p>Но, несмотря на достигнутые успехи в данной сфере, существует немало проблем, которые требуют решения. Одна из основных проблем заключается в обширном разнообразии проявлений эмоций людьми, что усложняет создание универсальных моделей. Кроме того, есть множество факторов, например, языковых, которые также влияют на качество моделей.</p>
			<p>Данная статья посвящена эмпирическим исследованиям различных моделей нейронных сетей, решающих задачу распознавания голосовых эмоций, и оценки их эффективности с использованием существующих наборов данных. В дальнейшем полученные результаты будут использованы для создания более эффективной модели, способной решить часть существующих проблем в данной области, что позволит расширить её применение в различных сферах человеческой деятельности.</p>
			<p>2. Методы исследования</p>
			<p>В рамках данного исследования были выбраны такие архитектуры нейронных сетей, как полносвязная нейронная сеть (DNN), нормализованная полносвязная нейронная сеть (NDNN), сверточная нейронная сеть (CNN) и рекуррентная нейронная сеть (RNN). Эти модели нейронных сетей представляют собой базовые и концептуально отличающиеся подходы к обработке данных: от простой линейной передачи информации до захвата пространственных и временных зависимостей. Такой выбор позволяет не только провести сопоставление эффективности разных принципов архитектур, но и заложить основу для дальнейшего анализа более сложных моделей. Кроме того, эти типы сетей хорошо изучены и широко применяются в задачах обработки сигналов и классификации, что делает их обоснованной отправной точкой для эмпирического сравнения </p>
			<p>[10][11][12]</p>
			<p>В работе В.В. Киселёва показано, что эмоции в речи распознаются на основе анализа акустических и лингвистических характеристик, которые отражают состояние говорящего </p>
			<p>[13]</p>
			<p>Для глубокого понимания характеристик эмоциональной речи и улучшения моделей классификации применяются следующие методы анализа и оценки:</p>
			<p>1. Оценка корреляции признаков используется для выявления взаимосвязей между различными характеристиками аудиосигнала. Построение корреляционной матрицы позволяет понять, как сильно связаны между собой признаки </p>
			<p>[14]</p>
			<p>2. Матрица ошибок — это инструмент визуального анализа, позволяющий оценить, как модель классифицирует объекты каждого класса. В отличие от агрегированных метрик, таких как Precision, Recall и f1-score, матрица ошибок показывает конкретные направления ошибок, т.е. какие классы модель путает между собой </p>
			<p>[15]</p>
			<p>3. Метод главных компонент (PCA) применяется для уменьшения размерности признаков, при этом сохраняя важные элементы информации, и позволяет выявить признаки, которые наиболее сильно влияют на различие между эмоциями </p>
			<p>[16]</p>
			<p>4. t-SNE — это инструмент визуализации многомерных данных, который применяется для представления признаков в двумерной или трёхмерной проекции </p>
			<p>[17]</p>
			<p>Для проведения данного исследования использовался датасет RAVDESS </p>
			<p>[18]</p>
			<p>Ключевые особенности датасета: 1440 аудиофайлов, 24 актёра, 8 категорий эмоций (нейтральность (Neutral), спокойствие (Calm), счастье (Happy), грусть (Sad), гнев (Angry), страх (Fearful), отвращение (Disgust), удивление (Surprised)), два уровня интенсивности.</p>
			<p>Для анализа эмоционального окраса речи часто рассматриваются и извлекаются следующие акустические характеристики:</p>
			<p>- MFCC, представляющие спектральные особенности речи;</p>
			<p>- Chroma, отражающие интонацию;</p>
			<p>- Mel Spectrogram, представляющие собой энергораспределение по частотам;</p>
			<p>- Spectral Contrast, представляющие различия в энергии между максимальными и минимальными точками спектра;</p>
			<p>- Tonnetz, представляющие гармоническое содержание звука.</p>
			<p>В процессе подготовки данных к обучению различные архитектуры нейронных сетей сопровождались разным уровнем предобработки. Так, для моделей NDNN, CNN и RNN применялась нормализация признаков методом Z-преобразования с использованием функции StandardScaler. Нормализация позволяет быстрее обучаться моделям и делает вклад каждого признака в обучение равномерным. Балансировка классов была реализована в модели RNN с помощью алгоритма SMOTE — метода синтетического увеличения количества примеров в тех классах, которых изначально меньше, что позволило компенсировать дисбаланс эмоций в датасете. В этой же модели использовалась аугментация аудиоданных: изменение скорости воспроизведения аудиоданных и высоты тона, что значительно увеличило объем обучающей выборки. Такой подход позволил улучшить обобщающую способность модели RNN путем получения эмоций в разных вариантах произношения. В базовой модели DNN предобработка ограничивалась только извлечением признаков без нормализации, балансировки и аугментации, что отражает её роль в исследовании как стартовой контрольной архитектуры.</p>
			<p>Для каждой модели оптимальные значения гиперпараметров были определены экспериментальным путем. В таблице 1 представлены виды и гиперпараметры нейронных сетей.</p>
			<table-wrap id="T1">
				<label>Table 1</label>
				<caption>
					<p>Виды и гиперпараметры моделей нейронных сетей</p>
				</caption>
				<table>
					<tr>
						<td>Название</td>
						<td>DNN</td>
						<td>NDNN</td>
						<td>CNN</td>
						<td>RNN</td>
					</tr>
					<tr>
						<td>Вид нейронных сетей</td>
						<td>Deep Neural Network</td>
						<td>Normalized Deep Neural Network</td>
						<td>Convolutional Neural Network</td>
						<td>Recurrent Neural Network</td>
					</tr>
					<tr>
						<td>Функция активации</td>
						<td>ReLU, Softmax</td>
						<td>ReLU, Softmax</td>
						<td>ReLU, Softmax</td>
						<td>ReLU, Softmax</td>
					</tr>
					<tr>
						<td>Оптимизатор</td>
						<td>Adam</td>
						<td>RMSprop</td>
						<td>Adam</td>
						<td>Adam</td>
					</tr>
					<tr>
						<td>Нормализация</td>
						<td>Нет</td>
						<td>StandardScaler</td>
						<td>StandardScaler</td>
						<td>StandardScaler</td>
					</tr>
					<tr>
						<td>Балансировка классов		</td>
						<td>Нет</td>
						<td>Нет</td>
						<td>Нет</td>
						<td>SMOTE</td>
					</tr>
					<tr>
						<td>Аугментация</td>
						<td>Нет</td>
						<td>Нет</td>
						<td>Нет</td>
						<td>Сдвиг времени, тональности</td>
					</tr>
					<tr>
						<td>Batch size</td>
						<td>​4</td>
						<td>16​</td>
						<td>64​</td>
						<td>32​</td>
					</tr>
					<tr>
						<td>​Эпох</td>
						<td>200​</td>
						<td>200​</td>
						<td>180​</td>
						<td>50​</td>
					</tr>
					<tr>
						<td>Нейронов​</td>
						<td>400, 200, 100</td>
						<td>512, 256</td>
						<td>32, 64, 128, 256, 512</td>
						<td>64, 128</td>
					</tr>
					<tr>
						<td>Коэффициент скорости обучения</td>
						<td>0,01</td>
						<td>0,001</td>
						<td>0,00095</td>
						<td>0,001</td>
					</tr>
				</table>
			</table-wrap>
			<p>Из таблицы видно, что для каждой из четырех созданных моделей нейронных сетей представлено количество нейронов на каждом скрытом слое, число скрытых слоев можно видеть по количеству нейронов в одном слое (так в первой модели — три скрытых слоя, во второй — 2, в третьей — 5, а в четвертой — 2).</p>
			<p>3. Основные результаты</p>
			<p>Проведен ряд вычислительных экспериментов по решению задачи классификации эмоций в речи человека с использованием четырех моделей нейронных сетей: DNN, NDNN, CNN, RNN.</p>
			<p>На рисунке 1 представлены результаты классификации по каждой модели нейронной сети, точность которой определяется с использованием оценки корреляции признаков и представляется отчетом классификации.</p>
			<fig id="F1">
				<label>Figure 1</label>
				<caption>
					<p>Отчёты классификации для моделей DNN, NDNN, CNN, RNN</p>
				</caption>
				<alt-text>Отчёты классификации для моделей DNN, NDNN, CNN, RNN</alt-text>
				<graphic ns0:href="/media/images/2025-02-19/b7706d71-9cca-428c-8ad8-46da280c6325.png"/>
			</fig>
			<p>- Precision (точность) — доля правильных предсказаний среди всех, которые модель отнесла к определённой категории;</p>
			<p>- Recall (полнота) — доля правильно угаданных эмоций среди всех случаев, где эта эмоция действительно присутствовала;</p>
			<p>- f1-score — среднее значение между Precision и Recall, которое помогает оценить баланс между ними.</p>
			<p>Из отчета классификации можно видеть, что:</p>
			<p>- высокие значения метрики f1-score для эмоций нейтральности (0,65) и печали (0,62) для сети DNN; высокий Recall (0,81), но низкий Precision (0,38) для эмоции спокойствие для сети DNN;</p>
			<p>- высокие значения метрики f1-score для эмоций спокойствие (0,71), гнев (0,64), страх (0,65), отвращение (0,60), удивление (0,62) для сети NDNN; высокие значения метрики Precision 0,68, 0,70, 0,72 наблюдаются для эмоций спокойствие, удивление, гнев соответственно,  Высокие значения метрики Recall 0,62, 0,73, 0,75 определены для эмоций отвращение, страх, спокойствие соответственно;</p>
			<p>-  высокие значения метрики f1-score для эмоций страх, спокойствие и гнев, равные 0,61, 0,65, 0,69 соответственно для сети CNN, а метрика Precision имеет высокие значения метрики f1-score для эмоций высокое значение, равное 0,78, для эмоции удивление в модели CNN, но низкое значение Recall (0,45);</p>
			<p>- модель RNN показала неудовлетворительные результаты классификации эмоций по всем метрикам.</p>
			<p>На основе полученных в процессе экспериментов результатов построен график точности классификации эмоций для каждой модели нейронной сети, представленный на рисунке 2.</p>
			<fig id="F2">
				<label>Figure 2</label>
				<caption>
					<p> График точности классификации эмоций</p>
				</caption>
				<alt-text> График точности классификации эмоций</alt-text>
				<graphic ns0:href="/media/images/2025-02-19/940d76c7-e839-4ff1-b8bf-471e101c7e25.png"/>
			</fig>
			<p>На рисунке 3 представлены матрицы ошибок по каждой модели нейронной сети. Значения на главной диагонали показывают верно распознанные эмоции. Если значение равно нулю, то эмоция не распознана. Наибольшая сумма значений главной диагонали характеризует модель нейронной сети, как наилучшую, а наименьшее значение — наихудшую. Наибольшее количество ошибок, которая могла допустить модель нейронной сети при классификации, определяется суммой значений, кроме значений главной диагонали.</p>
			<fig id="F3">
				<label>Figure 3</label>
				<caption>
					<p>Матрица ошибок для моделей DNN, NDNN, CNN, RNN</p>
				</caption>
				<alt-text>Матрица ошибок для моделей DNN, NDNN, CNN, RNN</alt-text>
				<graphic ns0:href="/media/images/2025-03-02/b83a9f55-7cf8-4da6-b395-e0c6816c7211.png"/>
			</fig>
			<p>На рисунке 4 представлен PCA-анализ по каждой модели нейронной сети.</p>
			<fig id="F4">
				<label>Figure 4</label>
				<caption>
					<p>PCA анализ для моделей DNN, NDNN, CNN, RNN</p>
				</caption>
				<alt-text>PCA анализ для моделей DNN, NDNN, CNN, RNN</alt-text>
				<graphic ns0:href="/media/images/2025-03-02/63f8d2c7-cfbb-4ef2-9ec0-12b937f2c9b7.png"/>
			</fig>
			<p>Полученные результаты с использованием метода PCA показывают, что главные признаки, извлекаемые из аудиофайлов недостаточно информативны для четкой классификации.</p>
			<p>На рисунке 5 представлены t-SNE анализ по каждой модели нейронной сети.</p>
			<fig id="F5">
				<label>Figure 5</label>
				<caption>
					<p> t-SNE-анализ для моделей DNN, NDNN, CNN, RNN</p>
				</caption>
				<alt-text> t-SNE-анализ для моделей DNN, NDNN, CNN, RNN</alt-text>
				<graphic ns0:href="/media/images/2025-03-02/df95d0ec-6bc8-45bf-a5df-da511cc59cd5.png"/>
			</fig>
			<p>На графиках t-SNE-анализа видно, что точность классификации признаков растет от модели DNN к модели CNN через NDNN, но резко падает в модели RNN. Таким образом, все модели кроме RNN демонстрируют точность классификации эмоций в речи человека от 47% до 71%, что можно считать приемлемым результатом.</p>
			<p>4. Обсуждение</p>
			<p>Данное исследование проводилось для предварительного анализа различных нейронных сетей для решения задачи распознавания эмоциональной окраски речи человека. Было рассмотрено четыре модели: DNN, NDNN, CNN, RNN. В работе был использован англоязычный датасет RAVDESS, содержащий 8 эмоций, семь из которых отражают ярко выраженную эмоцию, например, счастье, гнев, удивление и т.д., а один является нейтральным. Более того, использовалось два уровня интенсивности: аудиозаписи нормальной и повышенной громкости.</p>
			<p>Оценка моделей определялась с помощью четырех методов. Так, отчет классификации является результатом реализации метода оценки корреляции (метод 1) и определяет точность классификации такими параметрами, как precision, recall, f1-score, а также параметром support, определяющий количество примеров для проверки точности.</p>
			<p>Наилучший результат продемонстрировала модель NDNN для таких эмоций, как спокойствие, гнев, страх, отвращение, удивление со значениями 0,71, 0,64, 0,65, 0,60, 0,62 соответственно, Они представляют параметр f1-score, который является средним значением параметров precision и recall, Наихудший результат показала модель RNN, Результат по всем четырем моделям демонстрирует график на рисунке 2,</p>
			<p>Модель CNN хорошо распознала эмоции гнева по сравнению с моделью NDNN (значение параметра f1-score 0,69 против 0,64) Это объясняется способностью свёрточных слоёв эффективно извлекать пространственные паттерны из спектральных признаков, Однако её результат был менее устойчивым по сравнению с NDNN в отношении эмоций спокойствия и страха.</p>
			<p>Модель RNN показала крайне низкие значения параметра f1-score. Возможной причиной может быть сложность архитектуры и избыточное число эпох обучения. Такой вывод сделан на основе экспериментов, в которых точность модели возрастала при уменьшении количества скрытых слоев (т.е. упрощения топологии рекуррентной сети) и эпох обучения.</p>
			<p>При анализе матрицы ошибок выявлено, что наибольшее число верно распознанных эмоций у модели NDNN (281) и CNN (269). А наибольшее число ошибок при распознавании эмоций было у моделей RNN (414) и DNN (235).</p>
			<p>Матрицы ошибок подтверждают, что все модели испытывают трудности при распознавании схожих по акустическим признакам эмоций, таких как:  </p>
			<p>- нейтральность ↔ спокойствие;</p>
			<p>- счастье ↔ удивление;</p>
			<p>- страх ↔ отвращение;</p>
			<p>- печаль ↔ нейтральность.</p>
			<p>Это связано с тем, что эмоции перекликаются между собой по акустическим паттернам, что приводит к путанице у моделей. Также следует отметить, что отсутствие временного контекста снижает точность распознавания. И возможно, различный шумы, присутствующие в аудиозаписях, например, различия в интонации, мешают четкому распознаванию эмоций схожего спектра.</p>
			<p>Визуализация данных с помощью методов PCA и t-SNE показала, что классы эмоций частично пересекаются в признаковом пространстве. Особенно это выражено у моделей DNN и RNN, где отчётливо прослеживаются проблемы с разделимостью классов. Модели NDNN и CNN продемонстрировали наиболее чёткую дифференциацию признаков, в особенности CNN.</p>
			<p>По результатам анализа можно сделать вывод, что модели NDNN и CNN пригодны для задач распознавания эмоций. Модель RNN, в свою очередь, в данной конфигурации не может выполнить поставленную задачу. Модель DNN справляется с этой задачей, но не так эффективно, как модели NDNN и CNN.</p>
			<p>5. Заключение</p>
			<p>Данное исследование является основой для создания более эффективной модели для решения задачи распознавания голосовых эмоций. В дальнейших исследованиях необходимо:</p>
			<p>- расширить текущий подход путём применения гибридных нейросетевых архитектур, объединяющих преимущества таких моделей, как NDNN и CNN;</p>
			<p>- применить многомодальные системы, в которых аудиоданные дополняются визуальной информацией (например, выражением лица или движением губ) </p>
			<p>[19]</p>
			<p>- применить механизмы внимания и трансформерные архитектуры, которые позволят модели автоматически фокусироваться на наиболее значимых участках входных данных и будут эффективны в условиях сложной семантики и высокой изменчивости речи.</p>
			<p>Таким образом, дальнейшее исследование в указанных направлениях может существенно улучшить качество классификации голосовых эмоций и расширить возможности использования подобных систем в реальных прикладных задачах.</p>
		</sec>
		<sec sec-type="supplementary-material">
			<title>Additional File</title>
			<p>The additional file for this article can be found as follows:</p>
			<supplementary-material xmlns:xlink="http://www.w3.org/1999/xlink" id="S1" xlink:href="https://doi.org/10.5334/cpsy.78.s1">
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/18412.docx">18412.docx</inline-supplementary-material>]-->
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/18412.pdf">18412.pdf</inline-supplementary-material>]-->
				<label>Online Supplementary Material</label>
				<caption>
					<p>
						Further description of analytic pipeline and patient demographic information. DOI:
						<italic>
							<uri>https://doi.org/10.60797/IRJ.2025.158.104</uri>
						</italic>
					</p>
				</caption>
			</supplementary-material>
		</sec>
	</body>
	<back>
		<ack>
			<title>Acknowledgements</title>
			<p/>
		</ack>
		<sec>
			<title>Competing Interests</title>
			<p/>
		</sec>
		<ref-list>
			<ref id="B1">
				<label>1</label>
				<mixed-citation publication-type="confproc">Аннагельдиев Э. Распознавание эмоций по голосу: технологии и приложения / Э. Аннагельдиев, К. Аннамырадов, А. Атаев // Вестник науки. — Тольятти, 2024. — С. 787–790.</mixed-citation>
			</ref>
			<ref id="B2">
				<label>2</label>
				<mixed-citation publication-type="confproc">Иванов С.А. Когнитивные технологии в маркетинге: как психология и нейронаука меняют потребительские привычки / С.А. Иванов, А.В. Петрова // Наука и мировоззрение. — 2025. — 38. — с. 8–11.</mixed-citation>
			</ref>
			<ref id="B3">
				<label>3</label>
				<mixed-citation publication-type="confproc">König A. Detecting subtle signs of depression with automated speech analysis in a non-clinical sample / A. König, J. Tröger, E. Mallick [et al.] // BMC Psychiatry. — 2022. — 22(1). DOI: 10.1186/s12888-022-04475-0</mixed-citation>
			</ref>
			<ref id="B4">
				<label>4</label>
				<mixed-citation publication-type="confproc">Плешакова Е.С. Распознавание эмоций человека по голосу в борьбе с телефонным мошенничеством. / Е.С. Плешакова, С.Т. Гатауллин, А.В. Осипов [и др.] // Национальная безопасность / nota bene. — 2022. — 5. DOI: 10.7256/2454-0668.2022.5.38782</mixed-citation>
			</ref>
			<ref id="B5">
				<label>5</label>
				<mixed-citation publication-type="confproc">ANIEMORE. Открытая библиотека распознавания эмоций в речи человека // ResearchGate. — 2023 — URL: https://www.researchgate.net/publication/375025114_ANIEMORE_Otkrytaa_biblioteka_raspoznavania_emocij_v_reci_celoveka (дата обращения: 12.01.2025)</mixed-citation>
			</ref>
			<ref id="B6">
				<label>6</label>
				<mixed-citation publication-type="confproc">Нейросеть-эмпат // Яндекс.Облако. — 2025 — URL: https://yandex.cloud/ru/blog/posts/2024/03/emotion-recognition-using-neural-network?utm_referrer=https%3A%2F%2Fyandex.ru%2F (дата обращения: 12.01.2025)</mixed-citation>
			</ref>
			<ref id="B7">
				<label>7</label>
				<mixed-citation publication-type="confproc">Google, Tesla, Apple, Meta и Amazon активно инвестируют в разработку ИИ // ITinfo. — 2024 — URL: https://www.itinfo.media/tehnologii/google-tesla-apple-meta-i-amazon-aktivno-investiruyut-v-razrabotku-ii/ (дата обращения: 12.01.2025)</mixed-citation>
			</ref>
			<ref id="B8">
				<label>8</label>
				<mixed-citation publication-type="confproc">Apple покупает стартап, работающий над анализом чувств и эмоций пользователя // Хабр. — 2016 — URL: https://habr.com/ru/articles/297778/ (дата обращения: 11.01.2025)</mixed-citation>
			</ref>
			<ref id="B9">
				<label>9</label>
				<mixed-citation publication-type="confproc">Как с помощью ИИ распознавать человеческие эмоции и кому это нужно // РБК. — 2024 — URL: https://trends.rbc.ru/trends/industry/66e1788e9a794751bba5b30c (дата обращения: 17.01.2025)</mixed-citation>
			</ref>
			<ref id="B10">
				<label>10</label>
				<mixed-citation publication-type="confproc">Trinh Van L. Emotional Speech Recognition Using Deep Neural Networks / L. Trinh Van, T. Xuan Le, T. Dao Thi Le [et al.] // Sensors. — 2022. — 22(4). DOI: 10.3390/s22041414</mixed-citation>
			</ref>
			<ref id="B11">
				<label>11</label>
				<mixed-citation publication-type="confproc">Lim W. Speech emotion recognition using convolutional and Recurrent Neural Networks / W. Lim, D. Jang, T. Lee // 2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA). — 2016. — 10.  DOI: 10.1109/APSIPA.2016.7820699</mixed-citation>
			</ref>
			<ref id="B12">
				<label>12</label>
				<mixed-citation publication-type="confproc">Chernykh V. Emotion recognition from speech with recurrent neural networks / V. Chernykh, G. Sterling, P. Prihodko // arXiv. — 2017 — URL: https://arxiv.org/pdf/1701.08071v1 (дата обращения: 04.07.2025) [in English]</mixed-citation>
			</ref>
			<ref id="B13">
				<label>13</label>
				<mixed-citation publication-type="confproc">Киселёв В.В. Автоматическое определение эмоций по речи / В.В. Киселёв // Образовательные технологии. — 2012. — 3. — с. 85–89.</mixed-citation>
			</ref>
			<ref id="B14">
				<label>14</label>
				<mixed-citation publication-type="confproc">Фазлутдинова А.И. Корреляционный анализ акустических сигналов. Взаимная корреляционная функция / А.И. Фазлутдинова // Молодой ученый. — 2022. — 51(446). — С. 60–64.</mixed-citation>
			</ref>
			<ref id="B15">
				<label>15</label>
				<mixed-citation publication-type="confproc">Confusion matrix [Audio analysis. Voice identification] // scikit learn. — 2025 — URL: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html (дата обращения: 20.02.2025) [in English]</mixed-citation>
			</ref>
			<ref id="B16">
				<label>16</label>
				<mixed-citation publication-type="confproc">Метод главных компонент (PCA) // Хабр. — 2016 — URL: https://habr.com/ru/articles/304214/ (дата обращения: 16.01.2025)</mixed-citation>
			</ref>
			<ref id="B17">
				<label>17</label>
				<mixed-citation publication-type="confproc">Алгоритм машинного обучения t-SNE // nuancesprog.ru. — 2022 — URL: https://nuancesprog.ru/p/14951/ (дата обращения: 17.01.2025)</mixed-citation>
			</ref>
			<ref id="B18">
				<label>18</label>
				<mixed-citation publication-type="confproc">RAVDESS Emotional speech audio // Kaggle. — 2019 — URL: https://www.kaggle.com/datasets/uwrfkaggler/ravdess-emotional-speech-audio (дата обращения: 24.01.2025) [in English]</mixed-citation>
			</ref>
			<ref id="B19">
				<label>19</label>
				<mixed-citation publication-type="confproc">Утеев Г. Разработка децентрализованной системы идентификации личности по биометрическим данным с помощью технологии блокчейн и компьютерного зрения / Г. Утеев, Р.Ф. Гибадуллин // Международный научно-исследовательский журнал. — 2024. — 4(142). DOI: 10.23670/IRJ.2024.142.6</mixed-citation>
			</ref>
		</ref-list>
	</back>
	<fundings/>
</article>