HTML-content

2303-9868

2227-6017

Международный научно-исследовательский журнал

2303-9868

ООО Цифра

10.60797/IRJ.2025.160s.1

Brief communication

ИЗВЛЕЧЕНИЕ ФОРМАНТ И ДРУГИХ ХАРАКТЕРИСТИК И КЛАССИФИКАЦИЯ СОСТОЯНИЯ ЗДОРОВЬЯ ГОЛОСА МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ

Саламатов

Кирилл Андреевич

kirillsalamatov20@gmail.com 2

https://orcid.org/0000-0002-7312-7219

https://elibrary.ru/author_profile.asp?id=7403688309

https://publons.com/researcher/GWC-4301-2022

Смирнов

Андрей Алексеевич

a.a.smirnov@urfu.ru 1

1 Уральский Федеральный Университет имени первого Президента России Б. Н. Ельцина 2 Уральский федеральный университет имени первого Президента России Б. Н. Ельцина

24 10 2025

2025

6 160s 1 6 01 07 2025 02 07 2025

2022

This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See http://creativecommons.org/licenses/by/4.0/ .

Данная статья посвящена разработке и анализу методов машинного обучения для автоматизированной диагностики нарушений голоса, что представляет собой актуальную задачу в современной медицине и логопедии. Голос играет ключевую роль в коммуникации, и его патологии могут существенно снижать качество жизни пациентов. Традиционные методы диагностики, включающие визуальный осмотр и эндоскопию, требуют участия специалистов и не всегда обеспечивают объективность. В связи с этим применение алгоритмов машинного обучения открывает новые возможности для повышения точности выявления речевых расстройств и их диагностики. В работе рассматриваются основные виды нарушений голоса, включая дисфонию, афонию, фонастению, брадилалию, тахилалию, заикание, дислалию и ринолалию. Для каждого из них анализируются этиология, симптоматика и существующие методы коррекции. Особое внимание уделяется акустическим параметрам голоса, таким как частота основного тона, jitter, shimmer и отношение сигнал/шум, которые могут служить маркерами патологий.

нарушения голоса машинное обучение акустический анализ дисфония афония метод опорных векторов градиентный бустинг диагностика голосовых нарушений

HTML-content

1. Введение

Голос является одним из основных инструментов коммуникации человека, и его нарушения могут значительно повлиять на качество жизни, социальную адаптацию и профессиональную деятельность. Традиционные методы диагностики [1] нарушений голоса, такие как визуальная оценка и эндоскопия гортани, требуют участия опытных специалистов и могут быть субъективными. Однако с развитием технологий машинного обучения [2], [3], [4] появились новые возможности для автоматизации процесса диагностики, что позволяет повысить точность и объективность оценки.

Цель данной работы — исследование методов машинного обучения, применимых для выявления нарушений голоса. В рамках исследования были поставлены следующие задачи: рассмотреть основные виды нарушений голоса, выявить ключевые параметры голоса, которые могут быть использованы для анализа, разработать методику эксперимента и исследовать эффективность различных алгоритмов машинного обучения для классификации нарушений голоса.

2. Виды нарушений голоса

Нарушения голоса могут быть вызваны различными причинами, включая механические повреждения голосового аппарата, воспалительные процессы, гормональные изменения, а также психосоматические заболевания. В зависимости от характера и степени выраженности, нарушения голоса делятся на несколько видов [5]:

1. Дисфония — это нарушение голоса, которое проявляется в изменении тембра, высоты тона и громкости. Дисфония может быть вызвана усталостью голосовых связок, стрессом, аллергиями или инфекциями. Симптомы включают хрипоту, изменение тембра и трудности при произношении слов.

2. Афония — полная или частичная потеря голоса. Человек с афонией может говорить только шепотом или издавать прерывистые звуки. Причины афонии включают воспаление гортани, травмы, инфекции или опухоли.

3. Фонастения — нарушение, связанное с дискоординацией работы дыхательного, артикуляционного и фонационного аппаратов. Проявления фонастении включают быстрое утомление голоса, дрожание, прерывание речи и снижение силы голоса.

4. Брадилалия и тахилалия — нарушения, связанные с изменением скорости речи. Брадилалия характеризуется замедленной речью, а тахилалия — ускоренной. Оба состояния могут затруднять коммуникацию и приводить к непониманию со стороны окружающих.

5. Заикание — нарушение, при котором человек испытывает трудности при произношении слов или фраз. Заикание может сопровождаться повторением звуков, слов или длинными паузами. Это нарушение может оказывать значительное влияние на социальную и эмоциональную жизнь человека.

6. Дислалия — нарушение звукопроизношения, при котором человек заменяет, искажает или смешивает звуки. Это может быть вызвано недостатком обучения или снижением слуховой восприимчивости.

7. Ринолалия — нарушение произношения, связанное с физиологическими дефектами речевого аппарата, такими как недостаточное закрытие небных дуг. Ринолалия проявляется в изменении тембра голоса, который становится гнусавым.

3. Диагностика нарушений голоса

Диагностика [1], [6] нарушений голоса включает несколько этапов. Для дисфонии и афонии используются голосовые тесты и эндоскопия гортани, которые позволяют оценить состояние голосовых связок. Для диагностики фонастении применяются неврологические тесты и анализ речи. Брадилалия и тахилалия диагностируются с помощью оценки скорости речи и произношения звуков. Заикание выявляется с помощью специальных тестов, таких как чтение текста или акустический анализ речи. Для диагностики дислалии и ринолалии используются методы анализа звукопроизношения и аудиологические исследования.

4. Лечение нарушений голоса

Лечение нарушений голоса зависит от их типа и причин. Для дисфонии и афонии часто применяются упражнения для укрепления голосовых связок, дыхательные техники и изменение высоты голоса. Фонастения лечится с помощью логопедической терапии, направленной на улучшение координации работы голосового аппарата. Брадилалия и тахилалия требуют терапии, направленной на нормализацию скорости речи. Заикание лечится с помощью психологической поддержки, техник управления стрессом и упражнений на улучшение дыхания и речи. Для дислалии и ринолалии применяются логопедические упражнения и, в некоторых случаях, хирургические методы.

5. Параметры голоса и акустический анализ

Голос представляет собой сложный акустический сигнал, который можно разложить на ряд параметров, отражающих его свойства. Основные параметры голоса включают:

– Частота общего тона (ЧОТ) [7], [8] — основная частота колебания голосовых связок. ЧОТ зависит от пола, возраста и эмоционального состояния человека. Обычно женский голос имеет частоту 180–250 Гц, а мужской — 100–130 Гц. Вычисляется с помощью дискретного преобразования Фурье (ДПФ).

– Форманты [8], [9] — акустические характеристики звука, которые определяют тембр и разборчивость речи. Они представляют собой резонансные частоты голосового тракта. Представлены на рисунке 1.

Figure 1

Частотные характеристики голоса

– Jitter [7], [8] — изменение частоты голоса во времени, либо же изменение периода колебаний голосовых связок. Вычисляется по формуле 1. Jitter измеряется в процентах и отражает стабильность голоса. Точки для вычисления Jitter`а видно на рисунке 2.

[LATEX_FORMULA]$\operatorname{Jitter}(\%)=\frac{\frac{1}{1-N} \sum_{i=1}^{N-1}\left(T_i-T_{i+1)}\right.}{\frac{1}{N} \sum_{i=1}^N T_i}$, [/LATEX_FORMULA]

где N – количество периодов основного тона;

Ti – длина периода основного тона.

– Shimmer [7], [8] — изменение амплитуды голоса во времени. Shimmer также измеряется в процентах и указывает на вариабельность громкости голоса. Вычисляется по формуле 2. Точки для вычисления Shimmer`а видно на рисунке 2.

[LATEX_FORMULA]$\operatorname{Shimmer}(\%)=\frac{\frac{1}{1-N} \sum_{i=1}^{N-1}\left(A_i-A_{i+1}\right)}{\frac{1}{N} \sum_{i=1}^N \quad A_i}$,[/LATEX_FORMULA]

где N – количество периодов основного тона;

Ai – Амплитуда пика основного тона.

Figure 2

Аудиозапись голоса

– Отношение сигнал/шум [7], [8] — отношение мощности гармоник к мощности шума. Этот параметр отражает чистоту голоса.

Акустический анализ голоса позволяет извлекать эти параметры и использовать их для диагностики нарушений. Например, повышенный уровень Jitter и Shimmer может указывать на наличие дисфонии или афонии.

6. Методология эксперимента

Для анализа нарушений голоса использовалась база данных VOICED [10], содержащая записи голоса 208 человек, из которых 58 были здоровыми, а 150 — с патологиями. Для извлечения параметров голоса использовались библиотеки языка программирования Python [11], такие как Numpy [12], Librosa [13]. Эти библиотеки позволяют анализировать аудиозаписи и извлекать такие параметры, как ЧОТ, Jitter и Shimmer, форманты. Пример извлеченных параметров, для обучения моделей машинного обучения, представлен на рисунке 3.

Figure 3

Пример таблицы параметров

7. Существующие подходы машинного обучения

Для классификации нарушений голоса были рассмотрены различные алгоритмы машинного обучения [2], [3], [4]:

1. Метод k-ближайших соседей (KNN) — алгоритм, который классифицирует объекты на основе majority vote среди k-ближайших соседей в пространстве признаков. KNN не строит явную модель, но требует хранения всех обучающих данных. Эффективен для задач с четкой кластерной структурой.

2. Линейная регрессия (Linear Regression) — алгоритм для задач регрессии, который строит линейную зависимость между целевой переменной и входными признаками, минимизируя сумму квадратов ошибок. Позволяет оценить важность признаков через коэффициенты.

3. Стохастический градиентный спуск (SGDClassifier) — алгоритм оптимизации, используемый для обучения линейных моделей (логистической регрессии, SVM и др.). Обновляет веса на небольших пакетах данных, что делает его эффективным для больших наборов данных.

4. Логистическая регрессия — алгоритм, используемый для бинарной классификации. Он моделирует связь между входными признаками и вероятностью принадлежности к классу.

5. Дерево решений — алгоритм, который строит структуру в виде дерева для классификации или регрессии. Каждый узел дерева представляет признак, а ветви — возможные значения.

6. Случайный лес — ансамбль деревьев решений, который строит множество моделей и усредняет их прогнозы. Случайный лес снижает риск переобучения и повышает устойчивость к шуму в данных.

7. Градиентный бустинг — метод, который последовательно строит слабые модели для исправления ошибок предыдущих. К этой категории относятся такие алгоритмы, как LightGBM, CatBoost и XGBoost.

8. Результаты анализа

Наиболее эффективными оказался метод линейной классификации: логистическая регрессия, который показали точность 70%. Наименее эффективными были дерево решений (56%). Анализ важности признаков показал, что наиболее значимыми параметрами для классификации являются Shimmer, Jitter (рисунок 4). Использовалась метрика accuracy, также все модели показывали одинаковую метрику AUC-ROC, равную 60%.

Figure 4

Веса признаков в логистической регрессии

9. Заключение

Исследование подтвердило перспективность применения машинного обучения для выявления нарушений голоса. Методы линейной классификации показали высокую эффективность, а анализ важности параметров позволил выявить ключевые признаки для дальнейшего улучшения моделей. Дальнейшие исследования могут привести к созданию автоматизированных систем диагностики и мониторинга нарушений голоса, что улучшит качество реабилитации пациентов.

Additional File

The additional file for this article can be found as follows:

Online Supplementary Material

Further description of analytic pipeline and patient demographic information. DOI: https://doi.org/10.60797/IRJ.2025.160s.1

Acknowledgements

Competing Interests

1 Аникеева З. И. Современные методы диагностики и комплексного лечения респираторного тракта у профессионалов голоса в амбулаторных условиях / З. И. Аникеева — Москва: Граница, 2011. — 416 с. 2 10 самых популярных алгоритмов машинного обучения // Алгоритмы машинного обучения. — 2020. — URL: https://cloud.vk.com/blog/samye-populyarnye-algoritmy-mashinnogo-obucheniya/ (дата обращения: 10.03.24) 3 Пять классических алгоритмов машинного обучения // Библиотека программиста. — 2022 — URL: https://proglib.io/p/5-klassicheskih-algoritmov-mashinnogo-obucheniya-o-kotoryh-vam-obyazatelno-sleduet-znat-2022-08-16 (дата обращения: 20.03.2024) 4 90+ алгоритмов и моделей машинного обучения, и их реализация с помощью языка программирования Python // Алгоритмы машинного обучения. — URL: https://biconsult.ru/products/90-algoritmov-i-modeley-mashinnogo-obucheniya-i-ih-realizaciya-s-pomoshchyu-yazyka (дата обращения: 30.03.2024) 5 Волкова Л. С. Логопедия : учебник для студентов дефектологических факультетов / Л. С. Волкова , С. Н. Шаховская — Москва: Владос, 2004. — 704 с. 6 Лаврова Е. В. Логопедия. Основы фонопедии / Е. В. Лаврова — Москва: Академия, 2007. — 144 с. 7 Лысак А. П. Акустический анализ голоса в норме и патологии / А. П. Лысак // Речевые технологии. — 2012. — № 4. — с. 25–32. 8 Bäckström T. Introduction to Speech Processing / T. Bäckström, O. Räsänen, A. Zewoudie et al. — 2nd. ed. — 2022. — URL: https://speechprocessingbook.aalto.fi (accessed: 30.03.24). DOI: 10.5281/zenodo.6821775 9 Кодзасов С.В. Общая фонетика / С.В. Кодзасов, О.Ф. Кривнова. — Москва: изд-во РГГУ, 2001. — 592 с. 10 Cesari U. A new database of healthy and pathological voices / U. Cesari , G. De Pietro, E. Marciano, C. Niri — Naples: Computers & Electrical Engineering, 2018. — 11 с. DOI: 10.1016/j.compeleceng.2018.04.008. [in English] 11 Python programming language // Python. — URL: https://www.python.org (accessed: 10.03.2024) 12 Python Nampai programming language framework // Nampai. — URL: https://numpy.org (accessed: 11.03.2024) 13 Libros Python programming language framework // Libros. — URL: https://librosa.org/doc/latest/index.html (accessed: 12.03.2024)