<?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE article PUBLIC "-//NLM/DTD JATS (Z39.96) Journal Publishing DTD v1.2 20120330//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
    <!--<?xml-stylesheet type="text/xsl" href="article.xsl">-->
<article xmlns:ns0="http://www.w3.org/1999/xlink" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.2" xml:lang="en">
	<front>
		<journal-meta>
			<journal-id journal-id-type="issn">2303-9868</journal-id>
			<journal-id journal-id-type="eissn">2227-6017</journal-id>
			<journal-title-group>
				<journal-title>Международный научно-исследовательский журнал</journal-title>
			</journal-title-group>
			<issn pub-type="epub">2303-9868</issn>
			<publisher>
				<publisher-name>ООО Цифра</publisher-name>
			</publisher>
		</journal-meta>
		<article-meta>
			<article-id pub-id-type="doi">10.60797/IRJ.2026.168.100</article-id>
			<article-categories>
				<subj-group>
					<subject>Brief communication</subject>
				</subj-group>
			</article-categories>
			<title-group>
				<article-title>ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ МЕТОДОВ КЛАССИФИКАЦИИ ЭМОЦИОНАЛЬНЫХ СОСТОЯНИЙ ПО ИЗОБРАЖЕНИЯМ ЛИЦ НА ОСНОВЕ РУЧНЫХ ПРИЗНАКОВ И СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ</article-title>
			</title-group>
			<contrib-group>
				<contrib contrib-type="author" corresp="yes">
					<name>
						<surname>Аликрицкий</surname>
						<given-names>Михаил Сергеевич</given-names>
					</name>
					<email>mixail195222@gmail.com</email>
					<xref ref-type="aff" rid="aff-1">1</xref>
				</contrib>
				<contrib contrib-type="author">
					<name>
						<surname>Захарова</surname>
						<given-names>Оксана Игоревна</given-names>
					</name>
					<email>o.zaharova@psuti.ru</email>
					<xref ref-type="aff" rid="aff-1">1</xref>
				</contrib>
			</contrib-group>
			<aff id="aff-1">
				<institution-wrap>
					<institution-id institution-id-type="ROR">https://ror.org/050q60w23</institution-id>
					<institution content-type="education">Поволжский государственный университет телекоммуникаций и информатики</institution>
				</institution-wrap>
			</aff>
			<pub-date publication-format="electronic" date-type="pub" iso-8601-date="2026-06-17">
				<day>17</day>
				<month>06</month>
				<year>2026</year>
			</pub-date>
			<pub-date pub-type="collection">
				<year>2026</year>
			</pub-date>
			<volume>5</volume>
			<issue>168</issue>
			<fpage>1</fpage>
			<lpage>5</lpage>
			<history>
				<date date-type="received" iso-8601-date="2026-04-06">
					<day>06</day>
					<month>04</month>
					<year>2026</year>
				</date>
				<date date-type="accepted" iso-8601-date="2026-06-02">
					<day>02</day>
					<month>06</month>
					<year>2026</year>
				</date>
			</history>
			<permissions>
				<copyright-statement>Copyright: &amp;#x00A9; 2022 The Author(s)</copyright-statement>
				<copyright-year>2022</copyright-year>
				<license license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
					<license-p>
						This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See 
						<uri xlink:href="http://creativecommons.org/licenses/by/4.0/">http://creativecommons.org/licenses/by/4.0/</uri>
					</license-p>
					.
				</license>
			</permissions>
			<self-uri xlink:href="https://research-journal.org/archive/6-168-2026-june/10.60797/IRJ.2026.168.100"/>
			<abstract>
				<p>В работе проведён анализ эффективности методов классификации эмоциональных состояний по изображениям лиц с использованием ручных признаков и сверточных нейронных сетей. Сопоставляются традиционные подходы, основанные на извлечении дескрипторов (LBP, HOG), а также современные методы глубокого обучения. Цель работы — выполнить сравнительное исследование качества классификации при применении различных методов и определение наиболее эффективного подхода для решения задачи распознавания эмоций. В качестве экспериментальной базы использован набор изображений лиц с разметкой эмоциональных состояний. Оценка результатов проводилась с использованием метрик качества классификации. Установлено, что модели на основе сверточных нейронных сетей обеспечивают более высокую точность по сравнению с методами, основанными на ручных признаках, однако требуют больших вычислительных ресурсов. Обоснована целесообразность применения гибридных или глубоких моделей для повышения эффективности систем распознавания эмоций.</p>
			</abstract>
			<kwd-group>
				<kwd>распознавание эмоций</kwd>
				<kwd> анализ изображений лиц</kwd>
				<kwd> классификация изображений</kwd>
				<kwd> сверточные нейронные сети</kwd>
				<kwd> ручные признаки</kwd>
				<kwd> LBP</kwd>
				<kwd> HOG</kwd>
				<kwd> компьютерное зрение</kwd>
			</kwd-group>
		</article-meta>
	</front>
	<body>
		<sec>
			<title>HTML-content</title>
			<p>1. Введение</p>
			<p>Задача автоматического распознавания эмоций по изображениям лиц остается актуальной</p>
			<p> для систем человеко-машинного взаимодействия, дистанционного обучения и медицинской диагностики [1], [2], [3]. Потребность в таких системах возрастает с развитием интерфейсов, адаптивных образовательных платформ и инструментов психологической поддержки, где анализ мимики позволяет получать обратную связь о состоянии пользователя в реальном времени. , условиями освещения и шумами, а также дисбалансом классов в реальных данных [4], [5]. </p>
			<p>В настоящее время применяются два основных подхода</p>
			<p>: ручное извлечение признаков (LBP, HOG) с последующей классификацией и глубокое обучение, автоматически формирующее иерархические признаки. , но ограничены в обобщении [7], [8].  [9], [10], [11]. </p>
			<p>Цель работы — сравнительное экспериментальное исследование эффективности LBP+SVM, HOG+SVM и CNN на наборе FER2013 с учетом дисбаланса классов.  </p>
			<p>2. Материалы и методы</p>
			<p>Экспериментальной базой послужил открытый набор данных FER2013 в стандартном разбиении: 28709 изображений для обучения, 3589 — для валидации, 3589 — для тестирования, все изображения в градациях серого размером 48x48 пикселей. : angry, disgust, fear, happy, neutral, sad, surprise. Распределение классов неравномерно, наиболее представлен класс «happy» (895 примеров в тестовой выборке), наименее — «disgust» (56 примеров).  и может приводить к смещению модели в сторону многочисленных классов [6], [11]. Перед обучением все изображения были нормализованы в диапазон от 0 до 1. Дополнительная предобработка, такая, как выравнивание лиц по глазам или удаление фона не применялась, чтобы сохранить соответствие реальным условиям работы системы, где такие операции не всегда возможны.</p>
			<p>В исследовании реализованы три подхода к классификации</p>
			<p>.  (LBP), для каждого изображения строилась гистограмма LBP-признаков, которая затем подавалась на вход классификатора опорных векторов (SVM) с линейным ядром. Линейное ядро было выбрано . Второй метод использует признаки ориентированных градиентов (HOG): вычислялся вектор HOG-дескриптора, после чего выполнялась классификация линейным SVM.  и отличаются вычислительной эффективностью, но имеют ограничения при анализе сложных мимических выражений. Аугментация для классических методов не применялась, так как они работают на фиксированных дескрипторах.</p>
			<p>Третий подход представлен сверточной нейронной сетью</p>
			<p> (CNN), обучаемая непосредственно на исходных изображениях. — Выбор архитектурных параметров обусловлен особенностями решаемой задачи.</p>
			<fig id="F1">
				<label>Figure 1</label>
				<caption>
					<p>Архитектура сверточной нейронной сети</p>
				</caption>
				<alt-text>Архитектура сверточной нейронной сети</alt-text>
				<graphic ns0:href="/media/images/2026-05-03/cd154d15-5f50-488c-bd59-7b546aaaa9a7.jpg"/>
			</fig>
			<p> Обучение проводилось с оптимизатором Adam (начальная скорость обучения 0,0005) и функцией потерь categorical crossentropy в течение 60 эпох. Для контроля переобучения применялась валидационная выборка, на которой отслеживалась динамика потерь. Для расширения обучающей выборки применялась аугментации, такие как случайные повороты, сдвиги, масштабирование и горизонтальные отражения. Для компенсации дисбаланса классов использовались весовые коэффициенты, обратно пропорциональные частоте встречаемости каждого класса. Качество моделей оценивалось по метрикам accuracy, precision, recall и F1-score на независимой тестовой выборке. </p>
			<p>3. Результаты и обсуждение</p>
			<p>LBP+SVM показал точность 0,25. fear, sad и neutral из-за сходства текстур.  до 0,44 за счет учета геометрии лица, но сохранил чувствительность к дисбалансу и ошибки между визуально схожими классами. . Лучшие показатели — для happy (precision=0,83) и surprise (0,72), самые низкие — для disgust (recall=0,52) из-за малого числа примеров. Fear, sad и neutral частично смешиваются из-за перекрытия признаков. Применение весов классов повысило recall для редких классов. </p>
			<table-wrap id="T1">
				<label>Table 1</label>
				<caption>
					<p>Сравнение точности классификации различных методов</p>
				</caption>
				<table>
					<tr>
						<td>Метод</td>
						<td>Признаки</td>
						<td>Accuracy, доли</td>
						<td>Precision (macro), доли</td>
						<td>Recall (macro), доли</td>
						<td>F1-score (macro), доли</td>
					</tr>
					<tr>
						<td>SVM</td>
						<td>LBP</td>
						<td>0,25</td>
						<td>0,1418</td>
						<td>0,1452</td>
						<td>0,0647</td>
					</tr>
					<tr>
						<td>SVM</td>
						<td>HOG</td>
						<td>0,44</td>
						<td>0,3923</td>
						<td>0,3888</td>
						<td>0,3830</td>
					</tr>
					<tr>
						<td>CNN</td>
						<td>Автоматически извлекаемые</td>
						<td>0,6077</td>
						<td>0,5566</td>
						<td>0,6152</td>
						<td>0,5677</td>
					</tr>
				</table>
			</table-wrap>
			<p>Результаты для метода LBP+SVM характеризуются крайне низкими значениями F1-score (0,0647), что связано с выраженным смещением модели в сторону наиболее представленного класса (happy). Это указывает на высокую чувствительность метода к дисбалансу классов и ограниченную способность LBP-признаков описывать сложную мимику. В противовес, HOG+SVM демонстрирует более сбалансированные значения метрик (F1-score = 0,3830), что объясняется учетом пространственной структуры изображения. </p>
			<p>Прирост accuracy от HOG к CNN составляет более 16%, .  55–65%, указанным в обзоре Li и Deng [6]. Классические методы LBP и HOG, несмотря на свою интерпретируемость, уступают нейросетевым из-за неспособности моделировать сложные нелинейные зависимости в мимике.</p>
			<p>Проблема дисбаланса классов сохраняет существенное влияние</p>
			<p>: recall для класса disgust почти на 30% ниже, чем для happy. Применение весовых коэффициентов смягчило, но не устранило полностью этот эффект. Дополнительный анализ показал, что даже после балансировки модель часто путает disgust с fear и angry, что может быть связано с анатомическим сходством отдельных мимических паттернов.  С практической точки зрения, даже 60% точности может быть достаточно для некоторых приложений, но для индивидуальной диагностики требуется дальнейшее повышение надёжности. Перспективными направлениями являются генеративные методы дообучения (синтез редких классов) и использование метрического обучения для улучшения разделения визуально сходных эмоций (fear, sad, neutral). Также многообещающим выглядит применение трансформеров для анализа мимики и интеграция с видео-последовательностями, где доступна временная динамика выражений.</p>
			<p>4. Заключение</p>
			<p>В рамках работы выполнено экспериментальное исследование </p>
			<p>трёх подходов к классификации эмоций по лицам. Классические методы (LBP, HOG) обеспечивают базовый уровень точности (0,25-0,44), но их эффективность ограничена при сложной мимике и дисбалансе данных. Сверточная нейронная сеть с аугментацией и весами классов достигла accuracy 0,6077,  для данной задачи. Результаты сопоставимы с современными работами [6], [9], [10], [11].  более сложных стратегий балансировки выборки и архитектурных модификаций CNN.</p>
		</sec>
		<sec sec-type="supplementary-material">
			<title>Additional File</title>
			<p>The additional file for this article can be found as follows:</p>
			<supplementary-material xmlns:xlink="http://www.w3.org/1999/xlink" id="S1" xlink:href="https://doi.org/10.5334/cpsy.78.s1">
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/24766.docx">24766.docx</inline-supplementary-material>]-->
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/24766.pdf">24766.pdf</inline-supplementary-material>]-->
				<label>Online Supplementary Material</label>
				<caption>
					<p>
						Further description of analytic pipeline and patient demographic information. DOI:
						<italic>
							<uri>https://doi.org/10.60797/IRJ.2026.168.100</uri>
						</italic>
					</p>
				</caption>
			</supplementary-material>
		</sec>
	</body>
	<back>
		<ack>
			<title>Acknowledgements</title>
			<p/>
		</ack>
		<sec>
			<title>Competing Interests</title>
			<p/>
		</sec>
		<ref-list>
			<ref id="B1">
				<label>1</label>
				<mixed-citation publication-type="confproc">Ko B.C. A brief review of facial emotion recognition based on visual information / B.C. Ko // Sensors. — 2018. — Vol. 18, No. 2. DOI: 10.3390/s18020401. [in English]</mixed-citation>
			</ref>
			<ref id="B2">
				<label>2</label>
				<mixed-citation publication-type="confproc">Shan C. Facial expression recognition based on local binary patterns: A comprehensive study / C. Shan, S. Gong, P.W. McOwan // Image and Vision Computing. — 2009. — Vol. 27, No. 6. — P. 803–816. — DOI: 10.1016/j.imavis.2008.08.005.</mixed-citation>
			</ref>
			<ref id="B3">
				<label>3</label>
				<mixed-citation publication-type="confproc">Murthy M.K.L. Efficient Feature Extraction for Recognition of Human Emotions through Facial Expressions Using Image Processing Algorithms / M.K.L. Murthy, M. Divyanjali, S.M. Basha [et al.] // E3S Web of Conferences. — 2023. — Vol. 391. — Article ID 01182. — DOI: 10.1051/e3sconf/202339101182.</mixed-citation>
			</ref>
			<ref id="B4">
				<label>4</label>
				<mixed-citation publication-type="confproc">Khaireddin Y. Facial Emotion Recognition: State of the Art Performance on FER2013 / Y. Khaireddin, Z. Chen // arXiv preprint arXiv:2105.03588. — 2021. — URL: https://arxiv.org/abs/2105.03588 (accessed: 06.04.2026).</mixed-citation>
			</ref>
			<ref id="B5">
				<label>5</label>
				<mixed-citation publication-type="confproc">Wang X. Optimizing Class Imbalance in Facial Expression Recognition Using Dynamic Intra-Class Clustering / X. Wang, B. Li, J. Yu [et al.] // Biomimetics. — 2025. — Vol. 10, No. 5. — P. 296–311. — DOI: 10.3390/biomimetics10050296.</mixed-citation>
			</ref>
			<ref id="B6">
				<label>6</label>
				<mixed-citation publication-type="confproc">Li S. Deep Facial Expression Recognition: A Survey / S. Li, W. Deng // IEEE Transactions on Affective Computing. — 2022. — Vol. 13, No. 3. — P. 1195–1215. — DOI: 10.1109/TAFFC.2020.2981446.</mixed-citation>
			</ref>
			<ref id="B7">
				<label>7</label>
				<mixed-citation publication-type="confproc">Goodfellow I.J. Challenges in Representation Learning: A Report on Three Machine Learning Contests / I.J. Goodfellow, D. Erhan, P.L. Carrier [et al.] // Neural Information Processing. — Berlin, Heidelberg: Springer, 2013. — P. 117–124. — DOI: 10.1007/978-3-642-42051-1_16.</mixed-citation>
			</ref>
			<ref id="B8">
				<label>8</label>
				<mixed-citation publication-type="confproc">Dalal N. Histograms of oriented gradients for human detection / N. Dalal, B. Triggs // 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). — San Diego, CA, USA, 2005. — P. 886–893. — DOI: 10.1109/CVPR.2005.177.</mixed-citation>
			</ref>
			<ref id="B9">
				<label>9</label>
				<mixed-citation publication-type="confproc">Telceken M. Can artificial intelligence understand our emotions? Deep learning applications with face recognition / M. Telceken, D. Akgun, S. Kacar [et al.] // Current Psychology. — 2025. — Vol. 44. — P. 7946–7956. — DOI: 10.1007/s12144-025-07375-0.</mixed-citation>
			</ref>
			<ref id="B10">
				<label>10</label>
				<mixed-citation publication-type="confproc">Chinnasamy P. Improving facial emotion recognition through dataset merging and balanced training strategies / P. Chinnasamy, W. Jeberson, K. Singh // Computers and Electrical Engineering. — 2025. — Vol. 123. — Article 110208. — DOI: 10.1016/j.compeleceng.2025.110208.</mixed-citation>
			</ref>
			<ref id="B11">
				<label>11</label>
				<mixed-citation publication-type="confproc">Safarov F. Enhanced AlexNet with Gabor and Local Binary Pattern Features for Improved Facial Emotion Recognition / F. Safarov [et al.] // Sensors. — 2025. — Vol. 25, No. 12. — P. 3832–3847. — DOI: 10.3390/s25123832.</mixed-citation>
			</ref>
		</ref-list>
	</back>
	<fundings/>
</article>