<?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE article PUBLIC "-//NLM/DTD JATS (Z39.96) Journal Publishing DTD v1.2 20120330//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
    <!--<?xml-stylesheet type="text/xsl" href="article.xsl">-->
<article xmlns:ns0="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.2" xml:lang="en">
	<front>
		<journal-meta>
			<journal-id journal-id-type="issn">2303-9868</journal-id>
			<journal-id journal-id-type="eissn">2227-6017</journal-id>
			<journal-title-group>
				<journal-title>Международный научно-исследовательский журнал</journal-title>
			</journal-title-group>
			<issn pub-type="epub">2303-9868</issn>
			<publisher>
				<publisher-name>ООО Цифра</publisher-name>
			</publisher>
		</journal-meta>
		<article-meta>
			<article-id pub-id-type="doi">10.60797/IRJ.2025.160s.1</article-id>
			<article-categories>
				<subj-group>
					<subject>Brief communication</subject>
				</subj-group>
			</article-categories>
			<title-group>
				<article-title>ИЗВЛЕЧЕНИЕ ФОРМАНТ И ДРУГИХ ХАРАКТЕРИСТИК И КЛАССИФИКАЦИЯ СОСТОЯНИЯ ЗДОРОВЬЯ ГОЛОСА МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ</article-title>
			</title-group>
			<contrib-group>
				<contrib contrib-type="author" corresp="yes">
					<name>
						<surname>Саламатов</surname>
						<given-names>Кирилл Андреевич</given-names>
					</name>
					<email>kirillsalamatov20@gmail.com</email>
					<xref ref-type="aff" rid="aff-2">2</xref>
				</contrib>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="orcid">https://orcid.org/0000-0002-7312-7219</contrib-id>
					<contrib-id contrib-id-type="rinc">https://elibrary.ru/author_profile.asp?id=7403688309</contrib-id>
					<contrib-id contrib-id-type="rid">https://publons.com/researcher/GWC-4301-2022</contrib-id>
					<name>
						<surname>Смирнов</surname>
						<given-names>Андрей Алексеевич</given-names>
					</name>
					<email>a.a.smirnov@urfu.ru</email>
					<xref ref-type="aff" rid="aff-1">1</xref>
				</contrib>
			</contrib-group>
			<aff id="aff-1">
				<label>1</label>
				<institution>Уральский Федеральный Университет имени первого Президента России Б. Н. Ельцина</institution>
			</aff>
			<aff id="aff-2">
				<label>2</label>
				<institution>Уральский федеральный университет имени первого Президента России Б. Н. Ельцина</institution>
			</aff>
			<pub-date publication-format="electronic" date-type="pub" iso-8601-date="2025-10-24">
				<day>24</day>
				<month>10</month>
				<year>2025</year>
			</pub-date>
			<pub-date pub-type="collection">
				<year>2025</year>
			</pub-date>
			<volume>6</volume>
			<issue>160s</issue>
			<fpage>1</fpage>
			<lpage>6</lpage>
			<history>
				<date date-type="received" iso-8601-date="2025-07-01">
					<day>01</day>
					<month>07</month>
					<year>2025</year>
				</date>
				<date date-type="accepted" iso-8601-date="2025-07-02">
					<day>02</day>
					<month>07</month>
					<year>2025</year>
				</date>
			</history>
			<permissions>
				<copyright-statement>Copyright: &amp;#x00A9; 2022 The Author(s)</copyright-statement>
				<copyright-year>2022</copyright-year>
				<license license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
					<license-p>
						This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See 
						<uri xlink:href="http://creativecommons.org/licenses/by/4.0/">http://creativecommons.org/licenses/by/4.0/</uri>
					</license-p>
					.
				</license>
			</permissions>
			<self-uri xlink:href="https://research-journal.org/archive/10-160-2025s-october/10.60797/IRJ.2025.160s.1"/>
			<abstract>
				<p>Данная статья посвящена разработке и анализу методов машинного обучения для автоматизированной диагностики нарушений голоса, что представляет собой актуальную задачу в современной медицине и логопедии. Голос играет ключевую роль в коммуникации, и его патологии могут существенно снижать качество жизни пациентов. Традиционные методы диагностики, включающие визуальный осмотр и эндоскопию, требуют участия специалистов и не всегда обеспечивают объективность. В связи с этим применение алгоритмов машинного обучения открывает новые возможности для повышения точности выявления речевых расстройств и их диагностики. В работе рассматриваются основные виды нарушений голоса, включая дисфонию, афонию, фонастению, брадилалию, тахилалию, заикание, дислалию и ринолалию. Для каждого из них анализируются этиология, симптоматика и существующие методы коррекции. Особое внимание уделяется акустическим параметрам голоса, таким как частота основного тона, jitter, shimmer и отношение сигнал/шум, которые могут служить маркерами патологий.</p>
			</abstract>
			<kwd-group>
				<kwd>нарушения голоса</kwd>
				<kwd> машинное обучение</kwd>
				<kwd> акустический анализ</kwd>
				<kwd> дисфония</kwd>
				<kwd> афония</kwd>
				<kwd> метод опорных векторов</kwd>
				<kwd> градиентный бустинг</kwd>
				<kwd> диагностика голосовых нарушений</kwd>
			</kwd-group>
		</article-meta>
	</front>
	<body>
		<sec>
			<title>HTML-content</title>
			<p>1. Введение</p>
			<p>Голос является одним из основных инструментов коммуникации человека, и его нарушения могут значительно повлиять на качество жизни, социальную адаптацию и профессиональную деятельность. Традиционные методы диагностики [1] нарушений голоса, такие как визуальная оценка и эндоскопия гортани, требуют участия опытных специалистов и могут быть субъективными. Однако с развитием технологий машинного обучения [2], [3], [4] появились новые возможности для автоматизации процесса диагностики, что позволяет повысить точность и объективность оценки.</p>
			<p>Цель данной работы — исследование методов машинного обучения, применимых для выявления нарушений голоса. В рамках исследования были поставлены следующие задачи: рассмотреть основные виды нарушений голоса, выявить ключевые параметры голоса, которые могут быть использованы для анализа, разработать методику эксперимента и исследовать эффективность различных алгоритмов машинного обучения для классификации нарушений голоса.</p>
			<p>2. Виды нарушений голоса</p>
			<p>Нарушения голоса могут быть вызваны различными причинами, включая механические повреждения голосового аппарата, воспалительные процессы, гормональные изменения, а также психосоматические заболевания. В зависимости от характера и степени выраженности, нарушения голоса делятся на несколько видов [5]:</p>
			<p>1. Дисфония — это нарушение голоса, которое проявляется в изменении тембра, высоты тона и громкости. Дисфония может быть вызвана усталостью голосовых связок, стрессом, аллергиями или инфекциями. Симптомы включают хрипоту, изменение тембра и трудности при произношении слов.</p>
			<p>2. Афония — полная или частичная потеря голоса. Человек с афонией может говорить только шепотом или издавать прерывистые звуки. Причины афонии включают воспаление гортани, травмы, инфекции или опухоли.</p>
			<p>3. Фонастения — нарушение, связанное с дискоординацией работы дыхательного, артикуляционного и фонационного аппаратов. Проявления фонастении включают быстрое утомление голоса, дрожание, прерывание речи и снижение силы голоса.</p>
			<p>4. Брадилалия и тахилалия — нарушения, связанные с изменением скорости речи. Брадилалия характеризуется замедленной речью, а тахилалия — ускоренной. Оба состояния могут затруднять коммуникацию и приводить к непониманию со стороны окружающих.</p>
			<p>5. Заикание — нарушение, при котором человек испытывает трудности при произношении слов или фраз. Заикание может сопровождаться повторением звуков, слов или длинными паузами. Это нарушение может оказывать значительное влияние на социальную и эмоциональную жизнь человека.</p>
			<p>6. Дислалия — нарушение звукопроизношения, при котором человек заменяет, искажает или смешивает звуки. Это может быть вызвано недостатком обучения или снижением слуховой восприимчивости.</p>
			<p>7. Ринолалия — нарушение произношения, связанное с физиологическими дефектами речевого аппарата, такими как недостаточное закрытие небных дуг. Ринолалия проявляется в изменении тембра голоса, который становится гнусавым.</p>
			<p>3. Диагностика нарушений голоса</p>
			<p>Диагностика [1], [6] нарушений голоса включает несколько этапов. Для дисфонии и афонии используются голосовые тесты и эндоскопия гортани, которые позволяют оценить состояние голосовых связок. Для диагностики фонастении применяются неврологические тесты и анализ речи. Брадилалия и тахилалия диагностируются с помощью оценки скорости речи и произношения звуков. Заикание выявляется с помощью специальных тестов, таких как чтение текста или акустический анализ речи. Для диагностики дислалии и ринолалии используются методы анализа звукопроизношения и аудиологические исследования.</p>
			<p>4. Лечение нарушений голоса</p>
			<p>Лечение нарушений голоса зависит от их типа и причин. Для дисфонии и афонии часто применяются упражнения для укрепления голосовых связок, дыхательные техники и изменение высоты голоса. Фонастения лечится с помощью логопедической терапии, направленной на улучшение координации работы голосового аппарата. Брадилалия и тахилалия требуют терапии, направленной на нормализацию скорости речи. Заикание лечится с помощью психологической поддержки, техник управления стрессом и упражнений на улучшение дыхания и речи. Для дислалии и ринолалии применяются логопедические упражнения и, в некоторых случаях, хирургические методы.</p>
			<p>5. Параметры голоса и акустический анализ</p>
			<p>Голос представляет собой сложный акустический сигнал, который можно разложить на ряд параметров, отражающих его свойства. Основные параметры голоса включают:</p>
			<p>– Частота общего тона (ЧОТ) [7], [8] — основная частота колебания голосовых связок. ЧОТ зависит от пола, возраста и эмоционального состояния человека. Обычно женский голос имеет частоту 180–250 Гц, а мужской — 100–130 Гц. Вычисляется с помощью дискретного преобразования Фурье (ДПФ).</p>
			<p>– Форманты [8], [9] — акустические характеристики звука, которые определяют тембр и разборчивость речи. Они представляют собой резонансные частоты голосового тракта. Представлены на рисунке 1.</p>
			<fig id="F1">
				<label>Figure 1</label>
				<caption>
					<p>Частотные характеристики голоса</p>
				</caption>
				<alt-text>Частотные характеристики голоса</alt-text>
				<graphic ns0:href="/media/images/2025-07-01/fca4c1f3-0cde-484a-9c5b-2b32490d35e4.png"/>
			</fig>
			<p>– Jitter [7], [8] — изменение частоты голоса во времени, либо же изменение периода колебаний голосовых связок. Вычисляется по формуле 1. Jitter измеряется в процентах и отражает стабильность голоса. Точки для вычисления Jitter`а видно на рисунке 2.</p>
			<code>[LATEX_FORMULA]$\operatorname{Jitter}(\%)=\frac{\frac{1}{1-N} \sum_{i=1}^{N-1}\left(T_i-T_{i+1)}\right.}{\frac{1}{N} \sum_{i=1}^N T_i}$, [/LATEX_FORMULA]</code>
			<p>где N – количество периодов основного тона;</p>
			<p>Ti – длина периода основного тона.</p>
			<p>– Shimmer [7], [8] — изменение амплитуды голоса во времени. Shimmer также измеряется в процентах и указывает на вариабельность громкости голоса. Вычисляется по формуле 2. Точки для вычисления Shimmer`а видно на рисунке 2.</p>
			<code>[LATEX_FORMULA]$\operatorname{Shimmer}(\%)=\frac{\frac{1}{1-N} \sum_{i=1}^{N-1}\left(A_i-A_{i+1}\right)}{\frac{1}{N} \sum_{i=1}^N \quad A_i}$,[/LATEX_FORMULA]</code>
			<p>где N – количество периодов основного тона;</p>
			<p>Ai – Амплитуда пика основного тона.</p>
			<fig id="F2">
				<label>Figure 2</label>
				<caption>
					<p>Аудиозапись голоса</p>
				</caption>
				<alt-text>Аудиозапись голоса</alt-text>
				<graphic ns0:href="/media/images/2025-07-03/17514df8-552e-4b5c-8c76-9c3ebea72f13.png"/>
			</fig>
			<p>– Отношение сигнал/шум [7], [8] — отношение мощности гармоник к мощности шума. Этот параметр отражает чистоту голоса.</p>
			<p>Акустический анализ голоса позволяет извлекать эти параметры и использовать их для диагностики нарушений. Например, повышенный уровень Jitter и Shimmer может указывать на наличие дисфонии или афонии.</p>
			<p>6. Методология эксперимента</p>
			<p>Для анализа нарушений голоса использовалась база данных VOICED [10], содержащая записи голоса 208 человек, из которых 58 были здоровыми, а 150 — с патологиями. Для извлечения параметров голоса использовались библиотеки языка программирования Python [11], такие как Numpy [12], Librosa [13]. Эти библиотеки позволяют анализировать аудиозаписи и извлекать такие параметры, как ЧОТ, Jitter и Shimmer, форманты. Пример извлеченных параметров, для обучения моделей машинного обучения, представлен на рисунке 3.</p>
			<fig id="F3">
				<label>Figure 3</label>
				<caption>
					<p>Пример таблицы параметров</p>
				</caption>
				<alt-text>Пример таблицы параметров</alt-text>
				<graphic ns0:href="/media/images/2025-07-01/f61ed590-13f1-4213-9f83-e7ff1cbed726.png"/>
			</fig>
			<p>7. Существующие подходы машинного обучения</p>
			<p>Для классификации нарушений голоса были рассмотрены различные алгоритмы машинного обучения [2], [3], [4]:</p>
			<p>1. Метод k-ближайших соседей (KNN) — алгоритм, который классифицирует объекты на основе majority vote среди k-ближайших соседей в пространстве признаков. KNN не строит явную модель, но требует хранения всех обучающих данных. Эффективен для задач с четкой кластерной структурой.</p>
			<p>2. Линейная регрессия (Linear Regression) — алгоритм для задач регрессии, который строит линейную зависимость между целевой переменной и входными признаками, минимизируя сумму квадратов ошибок. Позволяет оценить важность признаков через коэффициенты.</p>
			<p>3. Стохастический градиентный спуск (SGDClassifier) — алгоритм оптимизации, используемый для обучения линейных моделей (логистической регрессии, SVM и др.). Обновляет веса на небольших пакетах данных, что делает его эффективным для больших наборов данных.</p>
			<p>4. Логистическая регрессия — алгоритм, используемый для бинарной классификации. Он моделирует связь между входными признаками и вероятностью принадлежности к классу.</p>
			<p>5. Дерево решений — алгоритм, который строит структуру в виде дерева для классификации или регрессии. Каждый узел дерева представляет признак, а ветви — возможные значения.</p>
			<p>6. Случайный лес — ансамбль деревьев решений, который строит множество моделей и усредняет их прогнозы. Случайный лес снижает риск переобучения и повышает устойчивость к шуму в данных.</p>
			<p>7. Градиентный бустинг — метод, который последовательно строит слабые модели для исправления ошибок предыдущих. К этой категории относятся такие алгоритмы, как LightGBM, CatBoost и XGBoost.</p>
			<p>8. Результаты анализа</p>
			<p>Наиболее эффективными оказался метод линейной классификации: логистическая регрессия, который показали точность 70%. Наименее эффективными были дерево решений (56%). Анализ важности признаков показал, что наиболее значимыми параметрами для классификации являются Shimmer, Jitter (рисунок 4). Использовалась метрика accuracy, также все модели показывали одинаковую метрику AUC-ROC, равную 60%.</p>
			<fig id="F4">
				<label>Figure 4</label>
				<caption>
					<p>Веса признаков в логистической регрессии</p>
				</caption>
				<alt-text>Веса признаков в логистической регрессии</alt-text>
				<graphic ns0:href="/media/images/2025-07-01/320c0b48-3eb5-476b-839f-dc763e9ad585.png"/>
			</fig>
			<p>9. Заключение</p>
			<p>Исследование подтвердило перспективность применения машинного обучения для выявления нарушений голоса. Методы линейной классификации показали высокую эффективность, а анализ важности параметров позволил выявить ключевые признаки для дальнейшего улучшения моделей. Дальнейшие исследования могут привести к созданию автоматизированных систем диагностики и мониторинга нарушений голоса, что улучшит качество реабилитации пациентов.</p>
		</sec>
		<sec sec-type="supplementary-material">
			<title>Additional File</title>
			<p>The additional file for this article can be found as follows:</p>
			<supplementary-material xmlns:xlink="http://www.w3.org/1999/xlink" id="S1" xlink:href="https://doi.org/10.5334/cpsy.78.s1">
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/20532.docx">20532.docx</inline-supplementary-material>]-->
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/20532.pdf">20532.pdf</inline-supplementary-material>]-->
				<label>Online Supplementary Material</label>
				<caption>
					<p>
						Further description of analytic pipeline and patient demographic information. DOI:
						<italic>
							<uri>https://doi.org/10.60797/IRJ.2025.160s.1</uri>
						</italic>
					</p>
				</caption>
			</supplementary-material>
		</sec>
	</body>
	<back>
		<ack>
			<title>Acknowledgements</title>
			<p/>
		</ack>
		<sec>
			<title>Competing Interests</title>
			<p/>
		</sec>
		<ref-list>
			<ref id="B1">
				<label>1</label>
				<mixed-citation publication-type="confproc">Аникеева З. И. Современные методы диагностики и комплексного лечения респираторного тракта у профессионалов голоса в амбулаторных условиях / З. И. Аникеева — Москва: Граница, 2011. — 416 с.</mixed-citation>
			</ref>
			<ref id="B2">
				<label>2</label>
				<mixed-citation publication-type="confproc">10 самых популярных алгоритмов машинного обучения // Алгоритмы машинного обучения. — 2020. — URL: https://cloud.vk.com/blog/samye-populyarnye-algoritmy-mashinnogo-obucheniya/ (дата обращения: 10.03.24)</mixed-citation>
			</ref>
			<ref id="B3">
				<label>3</label>
				<mixed-citation publication-type="confproc">Пять классических алгоритмов машинного обучения // Библиотека программиста. — 2022 — URL: https://proglib.io/p/5-klassicheskih-algoritmov-mashinnogo-obucheniya-o-kotoryh-vam-obyazatelno-sleduet-znat-2022-08-16 (дата обращения: 20.03.2024)</mixed-citation>
			</ref>
			<ref id="B4">
				<label>4</label>
				<mixed-citation publication-type="confproc">90+ алгоритмов и моделей машинного обучения, и их реализация с помощью языка программирования Python  // Алгоритмы машинного обучения. — URL: https://biconsult.ru/products/90-algoritmov-i-modeley-mashinnogo-obucheniya-i-ih-realizaciya-s-pomoshchyu-yazyka (дата обращения: 30.03.2024)</mixed-citation>
			</ref>
			<ref id="B5">
				<label>5</label>
				<mixed-citation publication-type="confproc">Волкова Л. С. Логопедия : учебник для студентов дефектологических факультетов / Л. С. Волкова , С. Н. Шаховская — Москва: Владос, 2004. — 704 с.</mixed-citation>
			</ref>
			<ref id="B6">
				<label>6</label>
				<mixed-citation publication-type="confproc">Лаврова Е. В. Логопедия. Основы фонопедии / Е. В. Лаврова — Москва: Академия, 2007. — 144 с.</mixed-citation>
			</ref>
			<ref id="B7">
				<label>7</label>
				<mixed-citation publication-type="confproc">Лысак А. П. Акустический анализ голоса в норме и патологии / А. П. Лысак // Речевые технологии. — 2012. — № 4. — с. 25–32.</mixed-citation>
			</ref>
			<ref id="B8">
				<label>8</label>
				<mixed-citation publication-type="confproc">Bäckström T. Introduction to Speech Processing / T. Bäckström, O. Räsänen, A. Zewoudie et al. — 2nd. ed. — 2022. — URL: https://speechprocessingbook.aalto.fi (accessed: 30.03.24). DOI: 10.5281/zenodo.6821775 </mixed-citation>
			</ref>
			<ref id="B9">
				<label>9</label>
				<mixed-citation publication-type="confproc">Кодзасов С.В. Общая фонетика / С.В. Кодзасов, О.Ф. Кривнова. — Москва: изд-во РГГУ, 2001. — 592 с.</mixed-citation>
			</ref>
			<ref id="B10">
				<label>10</label>
				<mixed-citation publication-type="confproc">Cesari U. A new database of healthy and pathological voices / U. Cesari , G. De Pietro, E. Marciano, C. Niri — Naples: Computers &amp;amp; Electrical Engineering, 2018. — 11 с. DOI: 10.1016/j.compeleceng.2018.04.008. [in English]</mixed-citation>
			</ref>
			<ref id="B11">
				<label>11</label>
				<mixed-citation publication-type="confproc">Python programming language  // Python.  — URL: https://www.python.org (accessed: 10.03.2024)</mixed-citation>
			</ref>
			<ref id="B12">
				<label>12</label>
				<mixed-citation publication-type="confproc">Python Nampai programming language framework  // Nampai. — URL: https://numpy.org (accessed: 11.03.2024)</mixed-citation>
			</ref>
			<ref id="B13">
				<label>13</label>
				<mixed-citation publication-type="confproc">Libros Python programming language framework  // Libros. — URL: https://librosa.org/doc/latest/index.html (accessed: 12.03.2024)</mixed-citation>
			</ref>
		</ref-list>
	</back>
	<fundings/>
</article>