Research and development of a method for converting spoken language into text, using speech recognition technology as an example

Research article
  • Ломакин Арсений Сергеевич0009-0001-9340-1748Волгоградский государственный технический университет, Волгоград, Российская Федерация
  • Арсёнов Алексей ВладимировичНациональный исследовательский университет «МЭИ», Москва, Российская Федерация
  • Макаров Александр ОлеговичВолгоградский государственный технический университет, Волгоград, Российская Федерация
  • Юрасов Роман ВадимовичВолгоградский государственный технический университет, Волгоград, Российская Федерация
https://doi.org/10.60797/IRJ.2026.168.87
DOI:
https://doi.org/10.60797/IRJ.2026.168.87
EDN:
OULBJM
Suggested:
22.02.2026
Accepted:
01.06.2026
Published:
17.06.2026
Issue: № 6 (168), 2026
Issue: № 6 (168), 2026
Rightholder: authors. License: Attribution 4.0 International (CC BY 4.0)
39
2
XML
PDF

Abstract

Documentation is a vital component of research and analytical work, ensuring data reliability, the reproducibility of results, and the systematic organisation of the obtained information. However, traditional methods of record-keeping remain labour-intensive, require significant time resources and are prone to human error. Consequently, the development of tools to automate documentation processes is a pressing task. The article suggests a mechanism for dynamic logging, aimed at the automatic generation of structured logs based on voice recordings. The proposed methodology includes the recording and pre-processing of the audio signal, its cleaning of noise and distortion, the conversion of spoken speech into text using modern language models, as well as a two-stage extraction of key points through the application of regular expressions and natural language processing methods. Implementing this approach improves the accuracy of information processing and ensures the effective structuring of the resulting data. The scientific novelty lies in the development of a comprehensive approach to automating documentation at the least formalised stages of the research process. The practical significance of this work is determined by the reduction in time spent, the easing of the workload on specialists, and the minimisation of errors in routine documentation, as well as the potential for applying the developed solution in scientific and professional activities.

1. Введение

Современная исследовательская и профессиональная деятельность в медицине, криминалистике, судебной экспертизе и научных исследованиях, требует тщательного и своевременного документирования. Протоколы экспериментов, истории болезни, отчеты о следственных действиях и полевые наблюдения являются основой для дальнейшей деятельности. Однако традиционный процесс документирования остается ресурсоёмким этапом работы. Он требует от специалистов одновременного выполнения двух задач: непосредственного проведения исследования (или иной профессиональной деятельности) и параллельного фиксирования результатов, что приводит к когнитивной перегрузке, увеличению времени выполнения работ и, как следствие, риску пропуска важных деталей и субъективным ошибкам, которые обусловлены «человеческим фактором».

Проблема усугубляется в условиях, где основным источником данных является речь. К таким условиям относятся мозговые штурмы, оперативные совещания, административные обходы в медицинских учреждениях или осмотры мест происшествий. Например, в некоторых исследованиях, связанных с изучением процесса приема врачей УЗИ описывается, что прием врача длится в среднем 17 минут 52 секунды, из которых 40–60% времени составляло заполнение врачом связанной медицинской документации и заполнение полей структурированного электронного медицинского документа (СЭМД) «Протокол инструментального исследования»

. Существующие решения для автоматизации документооборота, ориентированные на формализованные данные и заранее заданные шаблоны, оказываются малоэффективными для обработки неструктурированной устной речи

В таком случае, решением будет являться разработка системы автоматического протоколирования на основе технологий речевой аналитики. Такой подход предполагает автоматическое преобразование аудиозаписи рабочего процесса в структурированный текстовый документ (протокол), предварительно выделив семантически значимые тезисы. Данный метод обеспечивает обработку информации с минимальной задержкой и исключает наличие орфографических или пунктуационных ошибок в протоколе.

2. Методы и принципы исследования

Целью исследования является разработка программного комплекса для автоматического динамического протоколирования на основе голосового ввода, обеспечивающего преобразование спонтанной устной речи в структурированный текстовый документ с минимальной задержкой и без передачи данных во внешние сервисы. Основную задачу исследования можно разбить на несколько подзадач и формализовать следующим образом:

Для подзадачи распознавания речи (далее ASR) необходимо ввести следующие обозначения

. Пусть
входной аудиосигнал. Требуется найти такую функцию распознавания
, чтобы минимизировать ошибку распознавания
(Word Error Rate) для русского языка (1):

(1)

где

функция ошибки распознавания речи,
множество допустимых моделей распознавания речи,
количество замен для функции
,
количество удалений для функции
,
количество вставок для функции
,
общее число слов в эталонной транскрипции.

Одновременно с этим, задача извлечения семантически значимой информации (Information Extraction)

подразумевает, что для полученного текста,
требуется найти отображение
, которое выделяет множество ключевых тезисов
, релевантных структуре протокола, максимизируя точность (Precision) и полноту (Recall) извлечения [3] (2):

(2)

Не менее значимой является и задача формирования структурированного документа (Document Generation далее

[4]), где требуется определить функцию
, которая преобразует множество тезисов
в конечный документ
, соответствующий заданному шаблону протокола
, при соблюдении ограничения на время формирования
(3):

(3)

где

структура документа,
время генерации,
допустимая задержка, определяемая требованиями реального времени.

Таким образом, итоговая задача формулируется как разработка композитной функции

, удовлетворяющей заданным критериям точности, скорости и безопасности
.

Прежде чем приступить к разработке решения, необходимо проанализировать и сравнить уже существующие сервисы и оценить их по ключевым критериям: режим работы, точность обработки русского языка, гибкость настройки и применимость в условиях строгой конфиденциальности. Для анализа были рассмотрены три решения для распознавания речи: Yandex SpeechKit, Microsoft Azure Cognitive Services (Speech)

и Vosk, однако у них были обнаружены такие недостатки: отсутствие оффлайн-режима для облачных решений, влекущее за собой риски безопасности, невозможность передачи персональных данных, невозможность использования иностранных разработок в государственных учреждениях РФ, высокая стоимость и значительная сложность кастомизации.

Среди решений для обработки русского языка в части извлечения именованных сущностей

(NER) активно используются такие библиотеки, как: Natasha, DeepPavlov и Tomita‑Parser.

Natasha является оффлайн‑решением с открытым исходным кодом, ориентированным на задачи токенизации, лемматизации, извлечения именованных сущностей и синтаксического разбора. Основные преимущества Natasha над Tomita-Parser и DeepPavlov, который основан на BERT

, заключаются в том, что данное решение работает оффлайн, хорошо адаптировано к морфологии русского языка, а также обладает легковесной и модульной архитектурой. Основной недостаток состоит в том, что для узкоспециализированных терминов и доменов модель требует дообучения.

Главной особенностью предлагаемого подхода к автоматическому параллельному документированию является его автономность. Метод ориентирован на широкий спектр пользователей, включая государственные структуры, где вопрос конфиденциальности данных является приоритетным. Для обеспечения безопасности данных применяется оффлайн-распознавание речи на основе языковых моделей.

Современные языковые модели позволяют решать задачи с высокой точностью, будучи предварительно обученными на больших массивах текстовых данных, что избавляет от необходимости размечать объемные обучающие выборки для каждой конкретной задачи, требуя относительно небольшого набора данных для точечного дополнительного обучения (fine-tuning).

Для нашей задачи оптимальным решением является оффлайн-модель VOSK, разработанная российской компанией Alpha Cephei

. Ее преимущества включают: автономность обработки данных, кроссплатформенность, низкая задержка при работе в реальном времени, а также наличие предварительно обученных моделей для русского языка различного размера (от 45 МБ до 2.5 ГБ) (Таблица 1). В данном случае это позволяет найти баланс между нефункциональными требованиями и точностью распознавания.

Таблица 1 - Русскоязычные версии языковой модели Vosk

Модель

Вес модели

Уровень тестирования

Примечание

vosk-model-ru-0.42

1.8 Gb

4.5 (our audiobooks) 11.1 (open_stt audiobooks) 19.5 (open_stt youtube) 36.0 (openstt calls) 4.4 (golos crowd) 17.9 (sova devices)

Большая смешанная российская модель для серверов

vosk-model-small-ru-0.22

45 Mb

22.71 (openstt audiobooks) 31.97 (openstt youtube) 29.89 (sova devices) 11.79 (golos crowd)

Облегченная широкополосная модель для Android/iOS и RPi

vosk-model-ru-0.22

1.5 Gb

5.74 (our audiobooks) 13.35 (open_stt audiobooks) 20.73 (open_stt youtube) 37.38 (openstt calls) 8.65 (golos crowd) 19.71 (sova devices)

Большая смешанная российская модель для серверов

vosk-model-ru-0.10

2.5 Gb

5.71 (our audiobooks) 16.26 (open_stt audiobooks) 26.20 (public_youtube_700_val open_stt) 40.15 (asr_calls_2_val open_stt)

Большая узкополосная российская модель для серверов

Для использования системы в узких предметных областях со своей собственной терминологией (например, медицине или юриспруденции) модель Vosk поддерживает возможность расширения на специализированных текстовых корпусах. Данная функция обеспечивает точность распознавания профессиональной терминологии и адаптивность решения к конкретным условиям эксплуатации. При этом ключевыми требованиями к модели являются не только точность и безопасность, но и интерпретируемость результатов. Последнее особенно важно в медицине т.к. тем самым повышает уровень доверия к прогнозам модели.

После конвертации голоса в текст возникает задача выделения семантически значимых участков для занесения их в шаблон документа/протокола. Классический подход подразумевает разработку синтаксического анализатора, включающего лексический и синтаксический этапы

. Однако данный метод хоть и эффективен для формализованных языков (языков программирования), оказывается неподходящим для обработки устной речи, характеризующейся высокой вариативностью и нестандартными конструкциями.

Альтернативным решением выступает технология распознавания именованных сущностей (NER)

, позволяющая извлекать из текста объекты заданных категорий (имена, даты, локации, медицинские термины) на основе семантических, а не синтаксических признаков. В отличие от парсеров, NER-системы, основанные на машинном обучении, не требуют ручного описания грамматических правил. Они обучаются на размеченных текстах и способны выявлять сущности по контексту, демонстрируя устойчивость к морфологическим и синтаксическим вариациям.

Для решения данной проблемы была выбрана библиотека Natasha (Рисунок 1). Выбор обусловлен соответствию ключевым требованиям: отсутствию необходимости передачи данных внешним сервисам, поддержки русского языка и высокой точностью распознавания.

Пример работы семантического анализатора Natasha

Рисунок 1 - Пример работы семантического анализатора Natasha

Архитектура и методы библиотеки Natasha включают следующие этапы:

1. Морфологический анализ на основе модели pymorphy3, обеспечивающей лемматизацию и определение грамматических характеристик слов.

2. Синтаксический анализ с использованием алгоритмов извлечения зависимостей (dependency parsing), что позволяет учитывать контекстные связи между словами.

3. Распознавание сущностей с применением правил, основанных на комбинации морфологических признаков, словарей и контекстных шаблонов. Так, для извлечения имён используются правила, учитывающие падежные окончания, типичные для имен собственных в русском языке.

4. Нормализация извлеченных значений приведение сущностей к стандартному формату (например, унификация формата дат).

Таким образом, применение NER-библиотеки Natasha позволяет решить задачу структурирования текстовых данных, полученных в результате транскрибации аудиозаписей. Данное решение дополняется препроцессингом и нормализацией данных, включающий парсинг отчетов, преобразование данных в структурированную форму и устранение дубликатов, что может послужить основой для создания надежных систем обработки медицинских данных и обеспечить их целостность и пригодность для последующего использования. Разработанная система динамического протоколирования представляет собой последовательность связанных между собой функциональных компонентов, где результат каждого модуля служит входными данными для последующего.

На начальном этапе система обрабатывает полученную аудиозапись с использованием библиотеки NAudio. Модуль выполняет комплексную подготовку звукового сигнала, включая фильтрацию фоновых шумов, нормализацию амплитуды и коррекцию артефактов записи.

Затем, преобразование подготовленной голосовой записи в текстовые данные осуществляется при помощи оффлайн-модели VOSK. Локальный характер обработки исключает необходимость передачи данных внешним сервисам, гарантируя информационную безопасность.

Последний этап обработки реализован на базе NER-библиотеки Natasha и включает многоуровневый анализ текста. Модуль последовательно выполняет токенизацию входного текста, морфологический анализ с определением грамматических характеристик, идентификацию и классификацию именованных сущностей (имена собственные, временные метки, организации, термины предметной области). Для обработки специализированных шаблонов данных модуль дополнен механизмом правил на основе регулярных выражений.

Система включает специализированный модуль, который преобразует извлеченные сущности в структурированные данные протокола. На основе предварительно настроенных шаблонов документов модуль автоматически распределяет выявленные токены по соответствующим разделам протокола, обеспечивая семантическую корректность.

Все компоненты разработанной системы инкапсулированы в единый программный контейнер, что обеспечивает кроссплатформенность и упрощает развертывание. Архитектура предусматривает механизм адаптации к предметным областям через дополнительное обучение акустических моделей распознавания и расширение словарных баз извлечения сущностей.

3. Основные результаты

Для валидации разработанного метода было проведено тестирование в условиях, имитирующих медицинский клинический обход. Рассмотрим работу системы на конкретном примере. Так, в качестве входных данных будет выступать следующая аудиозапись устной речи врача:

«Пациент Иванов Сергей Петрович, 1985 года рождения. На момент осмотра предъявляет жалобы на острые боли в эпигастральной области, тошноту. Назначен эзомепразол 40 мг раз в день, контрольное эндоскопическое исследование через 14 дней».

В результате транскрибации текст был распознан с минимальными ошибками: «пациент иванов сергей петрович 1985 года рождения на момент осмотра предъявляет жалобы на острые боли в эпигастральной области тошноту назначено эзомепразол 40 миллиграмм раз в день контрольное эндоскопическое исследование через 14 дней».

Извлеченные сущности были автоматически распределены по заранее заданному шаблону истории болезни, формируя структурированную запись.

Основным преимуществом предложенного метода является сокращение временных затрат на обработку протоколов. На Рисунке 2 представлена блок-схема автоматизированного процесса.
Блок-схема процесса документирования

Рисунок 2 - Блок-схема процесса документирования

Таким образом, разработанный программный комплекс решает проблему фиксирования результатов в структурированные формы протоколов параллельно основной деятельности. Апробация в предметной области доказала способность системы точно извлекать структурированную информацию из речи и автоматически формировать протоколы. Средняя скорость приема пациентов с использованием предложенного метода составила 8 минут 12 секунд, что более, чем в 2 раза быстрее приемов с ручным заполнением медицинской документации. Итоговое время приема было рассчитано с использованием набора данных включающих в себя 500 голосовых записей приёмов пациентов продолжительностью от 3 до 8 минут, общим объёмом 41,3 часа аудиоданных (формат WAV, 48 кГц, моно, средний размер файла 17 Мб) из исследования
.

4. Заключение

В результате проведенной работы разработан и апробирован метод автоматизированного формирования структурированных документов на основе распознавания устной речи. Новизна предложенного подхода состоит в сквозной обработке речевого потока от транскрибации до заполнения шаблона документа без участия оператора и без изменения базовой архитектуры системы при смене предметной области.

Ключевыми результатами являются сокращение временных затрат на документирование примерно на 54% по сравнению с ручным заполнением, а также обеспечение корректной автоматической структуризации данных для различных типов документации путём настройки шаблонов и правил извлечения сущностей.

Данное прикладное решение может применяться в создании таких отчетных форм, как структурные электронные медицинские документы, документы приема и выдачи товаров со складов, отчеты и записи научных исследований, протоколы следственных действий.

Перспективы развития системы связаны с расширением библиотеки готовых шаблонов за счет интеграции различных профессиональных областей и созданием инструментов для самостоятельной настройки схем документирования конечными пользователями, что может позволить унифицировать процесс автоматизации документооборота в организациях различного профиля без необходимости разработки специализированных программных решений для каждой отдельной задачи.

Article metrics

Views:39
Downloads:2
Views
Total:
Views:39