HTML-content

2303-9868

2227-6017

Международный научно-исследовательский журнал

2303-9868

ООО Цифра

10.60797/IRJ.2026.168.87

Brief communication

Исследование и разработка метода трансформации устной речи в документ на примере программного обеспечения с использованием технологий распознавания речи

https://orcid.org/0009-0001-9340-1748

Ломакин

Арсений Сергеевич

arseny.lomakin@gmail.com 2 Юрасов

Роман Вадимович

roman.yurasov.v@gmail.com 1 Макаров

Александр Олегович

a.o.makarov2003@gmail.com 2 Арсёнов

Алексей Владимирович

al.arsenov@mail.ru 3

1 Волгоградский государственный технический университет

https://ror.org/041szz343

Волгоградский государственный технический университет

3 Национальный исследовательский университет «МЭИ»

17 06 2026

2026

6 168 1 6 24 02 2026 01 06 2026

2022

This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See http://creativecommons.org/licenses/by/4.0/ .

Документирование является важной составляющей исследовательской и аналитической деятельности, обеспечивая достоверность данных, воспроизводимость результатов и систематизацию полученной информации. Однако традиционные методы ведения записей остаются трудоемкими, требуют значительных временных ресурсов и подвержены ошибкам, обусловленным человеческим фактором. В связи с этим актуальной задачей является разработка средств автоматизации процессов документирования. В статье предлагается механизм динамического протоколирования, направленный на автоматическое формирование структурированных протоколов на основе голосовых записей. Предложенная методология включает запись и предварительную обработку аудиосигнала, его очистку от шумов и искажений, преобразование устной речи в текст с использованием современных языковых моделей, а также двухэтапное извлечение ключевых тезисов посредством применения регулярных выражений и методов обработки естественного языка. Реализация данного подхода позволяет повысить точность обработки информации и обеспечить эффективное структурирование полученных данных. Научная новизна заключается в разработке целостного подхода к автоматизации документирования на наименее формализованных этапах исследовательского процесса. Практическая значимость работы определяется сокращением временных затрат, снижением нагрузки на специалистов и минимизацией ошибок рутинного документирования, а также возможностью применения разработанного решения в научной и профессиональной деятельности.

динамическое протоколирование автоматизация документирования обработка естественного языка (NLP) распознавание речи извлечение информации государственные органы медицинское документирование криминалистика судебная экспертиза

HTML-content

1. Введение

Современная исследовательская и профессиональная деятельность в медицине, криминалистике, судебной экспертизе и научных исследованиях, требует тщательного и своевременного документирования. Протоколы экспериментов, истории болезни, отчеты о следственных действиях и полевые наблюдения являются основой для дальнейшей деятельности. Однако традиционный процесс документирования остается ресурсоёмким этапом работы. Он требует от специалистов одновременного выполнения двух задач: непосредственного проведения исследования (или иной профессиональной деятельности) и параллельного фиксирования результатов, что приводит к когнитивной перегрузке, увеличению времени выполнения работ и, как следствие, риску пропуска важных деталей и субъективным ошибкам, которые обусловлены «человеческим фактором».

Проблема усугубляется в условиях, где основным источником данных является речь. К таким условиям относятся мозговые штурмы, оперативные совещания, административные обходы в медицинских учреждениях или осмотры мест происшествий. Например, в некоторых исследованиях, связанных с изучением процесса приема врачей УЗИ описывается, что прием врача длится в среднем 17 минут 52 секунды, из которых 40–60% времени составляло заполнение врачом связанной медицинской документации и заполнение полей структурированного электронного медицинского документа (СЭМД) «Протокол инструментального исследования»

[1]

В таком случае, решением будет являться разработка системы автоматического протоколирования на основе технологий речевой аналитики. Такой подход предполагает автоматическое преобразование аудиозаписи рабочего процесса в структурированный текстовый документ (протокол), предварительно выделив семантически значимые тезисы. Данный метод обеспечивает обработку информации с минимальной задержкой и исключает наличие орфографических или пунктуационных ошибок в протоколе.

2. Методы и принципы исследования

Целью исследования является разработка программного комплекса для автоматического динамического протоколирования на основе голосового ввода, обеспечивающего преобразование спонтанной устной речи в структурированный текстовый документ с минимальной задержкой и без передачи данных во внешние сервисы. Основную задачу исследования можно разбить на несколько подзадач и формализовать следующим образом:

Для подзадачи распознавания речи (далее ASR) необходимо ввести следующие обозначения [2]. Пусть — [LATEX_FORMULA]A(t)[/LATEX_FORMULA] входной аудиосигнал. Требуется найти такую функцию распознавания [LATEX_FORMULA]f_{\text{ASR}}[/LATEX_FORMULA] , чтобы минимизировать ошибку распознавания [LATEX_FORMULA]WER[/LATEX_FORMULA](Word Error Rate) для русского языка (1):

f A S R = \arg min f ∈ F ( S ( f ) + D ( f ) + I ( f ) N )

где [LATEX_FORMULA]f_{ASR}[/LATEX_FORMULA] — функция ошибки распознавания речи, [LATEX_FORMULA]F[/LATEX_FORMULA] — множество допустимых моделей распознавания речи, [LATEX_FORMULA]S(f)[/LATEX_FORMULA] — количество замен для функции [LATEX_FORMULA]f[/LATEX_FORMULA], [LATEX_FORMULA]D(f)[/LATEX_FORMULA] — количество удалений для функции [LATEX_FORMULA]f[/LATEX_FORMULA], [LATEX_FORMULA]I(f)[/LATEX_FORMULA] — количество вставок для функции [LATEX_FORMULA]f[/LATEX_FORMULA], [LATEX_FORMULA]N[/LATEX_FORMULA] — общее число слов в эталонной транскрипции.

Одновременно с этим, задача извлечения семантически значимой информации (Information Extraction) [LATEX_FORMULA]IE[/LATEX_FORMULA] подразумевает, что для полученного текста, [LATEX_FORMULA]T=f_{A S R}(A(t))[/LATEX_FORMULA] требуется найти отображение [LATEX_FORMULA]f_{IE}[/LATEX_FORMULA], которое выделяет множество ключевых тезисов [LATEX_FORMULA]K=\left\{k_{1}, k_{2}, \ldots, k_{n}\right\}[/LATEX_FORMULA], релевантных структуре протокола, максимизируя точность (Precision) и полноту (Recall) извлечения [3] (2):

f I E : T → K , г д е F 1 s c o r e ( K ) = 2 ∙ ( P r e c i s i o n ∙ R e c a l l ) / ( P r e c i s i o n + R e c a l l ) → m a x

Не менее значимой является и задача формирования структурированного документа (Document Generation — далее [LATEX_FORMULA]DG[/LATEX_FORMULA] [4]), где требуется определить функцию [LATEX_FORMULA]f_{DG}[/LATEX_FORMULA], которая преобразует множество тезисов [LATEX_FORMULA]K[/LATEX_FORMULA] в конечный документ [LATEX_FORMULA]D[/LATEX_FORMULA], соответствующий заданному шаблону протокола [LATEX_FORMULA]\boldsymbol{Ф}[/LATEX_FORMULA], при соблюдении ограничения на время формирования [LATEX_FORMULA]\boldsymbol{t}[/LATEX_FORMULA] (3):

[LATEX_FORMULA]f_{DG}:K→D, \text{где}\,Struct(D) = \text{Ф}\,\text{и}\,T_{gen} < t[/LATEX_FORMULA]

где

S t r u c t ( D ) T g e n t

———определяемая требованиями реального времени.

Таким образом, итоговая задача формулируется как разработка композитной функции [LATEX_FORMULA]f_{\text {System }}=f_{\mathrm{DG}} \cdot f_{\mathrm{IE}} \cdot f_{\mathrm{ASR}}[/LATEX_FORMULA], удовлетворяющей заданным критериям точности, скорости и безопасности [5].

Прежде чем приступить к разработке решения, необходимо проанализировать и сравнить уже существующие сервисы и оценить их по ключевым критериям: режим работы, точность обработки русского языка, гибкость настройки и применимость в условиях строгой конфиденциальности. Для анализа были рассмотрены три решения для распознавания речи: Yandex SpeechKit, Microsoft Azure Cognitive Services (Speech) [6] и Vosk, однако у них были обнаружены такие недостатки: отсутствие оффлайн-режима для облачных решений, влекущее за собой риски безопасности, невозможность передачи персональных данных, невозможность использования иностранных разработок в государственных учреждениях РФ, высокая стоимость и значительная сложность кастомизации.

Среди решений для обработки русского языка в части извлечения именованных сущностей [7] (NER) активно используются такие библиотеки, как: Natasha, DeepPavlov и Tomita‑Parser.

Natasha является оффлайн‑решением с открытым исходным кодом, ориентированным на задачи токенизации, лемматизации, извлечения именованных сущностей и синтаксического разбора. Основные преимущества Natasha над Tomita-Parser и DeepPavlov, который основан на BERT [8], заключаются в том, что данное решение работает оффлайн, хорошо адаптировано к морфологии русского языка, а также обладает легковесной и модульной архитектурой. Основной недостаток состоит в том, что для узкоспециализированных терминов и доменов модель требует дообучения.

Главной особенностью предлагаемого подхода к автоматическому параллельному документированию является его автономность. Метод ориентирован на широкий спектр пользователей, включая государственные структуры, где вопрос конфиденциальности данных является приоритетным. Для обеспечения безопасности данных применяется оффлайн-распознавание речи на основе языковых моделей.

Современные языковые модели позволяют решать задачи с высокой точностью, будучи предварительно обученными на больших массивах текстовых данных, что избавляет от необходимости размечать объемные обучающие выборки для каждой конкретной задачи, требуя относительно небольшого набора данных для точечного дополнительного обучения (fine-tuning).

Для нашей задачи оптимальным решением является оффлайн-модель VOSK, разработанная российской компанией Alpha Cephei [9]. Ее преимущества включают: автономность обработки данных, кроссплатформенность, низкая задержка при работе в реальном времени, а также наличие предварительно обученных моделей для русского языка различного размера (от 45 МБ до 2.5 ГБ) (Таблица 1). найти баланс между нефункциональными требованиями и точностью распознавания.

Table 1

Русскоязычные версии языковой модели Vosk

Модель	Вес модели	Уровень тестирования	Примечание
vosk-model-ru-0.42	1.8 Gb	4.5 (our audiobooks) 11.1 (open_stt audiobooks) 19.5 (open_stt youtube) 36.0 (openstt calls) 4.4 (golos crowd) 17.9 (sova devices)	Большая смешанная российская модель для серверов
vosk-model-small-ru-0.22	45 Mb	22.71 (openstt audiobooks) 31.97 (openstt youtube) 29.89 (sova devices) 11.79 (golos crowd)	Облегченная широкополосная модель для Android/iOS и RPi
vosk-model-ru-0.22	1.5 Gb	5.74 (our audiobooks) 13.35 (open_stt audiobooks) 20.73 (open_stt youtube) 37.38 (openstt calls) 8.65 (golos crowd) 19.71 (sova devices)	Большая смешанная российская модель для серверов
vosk-model-ru-0.10	2.5 Gb	5.71 (our audiobooks) 16.26 (open_stt audiobooks) 26.20 (public_youtube_700_val open_stt) 40.15 (asr_calls_2_val open_stt)	Большая узкополосная российская модель для серверов

Для использования системы в узких предметных областях со своей собственной терминологией (например, медицине или юриспруденции) модель Vosk поддерживает возможность расширения на специализированных текстовых корпусах. Данная функция обеспечивает точность распознавания профессиональной терминологии и адаптивность решения к конкретным условиям эксплуатации. При этом ключевыми требованиями к модели являются не только точность и безопасность, но и интерпретируемость результатов. Последнее особенно важно в медицине т.к. тем самым повышает уровень доверия к прогнозам модели.

После конвертации голоса в текст возникает задача выделения семантически значимых участков для занесения их в шаблон документа/протокола. Классический подход подразумевает разработку синтаксического анализатора, включающего лексический и синтаксический этапы [10]. Однако данный метод хоть и эффективен для формализованных языков (языков программирования), оказывается неподходящим для обработки устной речи, характеризующейся высокой вариативностью и нестандартными конструкциями.

Альтернативным решением выступает технология распознавания именованных сущностей (NER) [11], позволяющая извлекать из текста объекты заданных категорий (имена, даты, локации, медицинские термины) на основе семантических, а не синтаксических признаков. В отличие от парсеров, NER-системы, основанные на машинном обучении, не требуют ручного описания грамматических правил. Они обучаются на размеченных текстах и способны выявлять сущности по контексту, демонстрируя устойчивость к морфологическим и синтаксическим вариациям.

Для решения данной проблемы была выбрана библиотека Natasha (Рисунок 1). Выбор обусловлен соответствию ключевым требованиям: отсутствию необходимости передачи данных внешним сервисам, поддержки русского языка и высокой точностью распознавания.

Figure 1

Пример работы семантического анализатора Natasha

Архитектура и методы библиотеки Natasha включают следующие этапы:

1. Морфологический анализ на основе модели pymorphy3, обеспечивающей лемматизацию и определение грамматических характеристик слов.

2. Синтаксический анализ с использованием алгоритмов извлечения зависимостей (dependency parsing), что позволяет учитывать контекстные связи между словами.

3. Распознавание сущностей с применением правил, основанных на комбинации морфологических признаков, словарей и контекстных шаблонов. Так, для извлечения имён используются правила, учитывающие падежные окончания, типичные для имен собственных в русском языке.

4. Нормализация извлеченных значений — приведение сущностей к стандартному формату (например, унификация формата дат).

Таким образом, применение NER-библиотеки Natasha позволяет решить задачу структурирования текстовых данных, полученных в результате транскрибации аудиозаписей. Данное решение дополняется препроцессингом и нормализацией данных, включающий парсинг отчетов, преобразование данных в структурированную форму и устранение дубликатов, что может послужить основой для создания надежных систем обработки медицинских данных и обеспечить их целостность и пригодность для последующего использования. Разработанная система динамического протоколирования представляет собой последовательность связанных между собой функциональных компонентов, где результат каждого модуля служит входными данными для последующего.

На начальном этапе система обрабатывает полученную аудиозапись с использованием библиотеки NAudio. Модуль выполняет комплексную подготовку звукового сигнала, включая фильтрацию фоновых шумов, нормализацию амплитуды и коррекцию артефактов записи.

Затем, преобразование подготовленной голосовой записи в текстовые данные осуществляется при помощи оффлайн-модели VOSK. Локальный характер обработки исключает необходимость передачи данных внешним сервисам, гарантируя информационную безопасность.

Последний этап обработки реализован на базе NER-библиотеки Natasha и включает многоуровневый анализ текста. Модуль последовательно выполняет токенизацию входного текста, морфологический анализ с определением грамматических характеристик, идентификацию и классификацию именованных сущностей (имена собственные, временные метки, организации, термины предметной области). Для обработки специализированных шаблонов данных модуль дополнен механизмом правил на основе регулярных выражений.

Система включает специализированный модуль, который преобразует извлеченные сущности в структурированные данные протокола. На основе предварительно настроенных шаблонов документов модуль автоматически распределяет выявленные токены по соответствующим разделам протокола, обеспечивая семантическую корректность.

Все компоненты разработанной системы инкапсулированы в единый программный контейнер, что обеспечивает кроссплатформенность и упрощает развертывание. Архитектура предусматривает механизм адаптации к предметным областям через дополнительное обучение акустических моделей распознавания и расширение словарных баз извлечения сущностей.

3. Основные результаты

Для валидации разработанного метода было проведено тестирование в условиях, имитирующих медицинский клинический обход. Рассмотрим работу системы на конкретном примере. Так, в качестве входных данных будет выступать следующая аудиозапись устной речи врача:

«Пациент Иванов Сергей Петрович, 1985 года рождения. На момент осмотра предъявляет жалобы на острые боли в эпигастральной области, тошноту. Назначен эзомепразол 40 мг раз в день, контрольное эндоскопическое исследование через 14 дней».

В результате транскрибации текст был распознан с минимальными ошибками: «пациент иванов сергей петрович 1985 года рождения на момент осмотра предъявляет жалобы на острые боли в эпигастральной области тошноту назначено эзомепразол 40 миллиграмм раз в день контрольное эндоскопическое исследование через 14 дней».

Извлеченные сущности были автоматически распределены по заранее заданному шаблону истории болезни, формируя структурированную запись.

Figure 2

Блок-схема процесса документирования

Основным преимуществом предложенного метода является сокращение временных затрат на обработку протоколов. На Рисунке 2 представлена блок-схема автоматизированного процесса.——[1]

4. Заключение

В результате проведенной работы разработан и апробирован метод автоматизированного формирования структурированных документов на основе распознавания устной речи. Новизна предложенного подхода состоит в сквозной обработке речевого потока

——

Ключевыми результатами являются сокращение временных затрат на документирование примерно на 54% по сравнению с ручным заполнением, а также обеспечение корректной автоматической структуризации данных для различных типов документации путём настройки шаблонов и правил извлечения сущностей.

Данное прикладное решение может применяться в создании таких отчетных форм, как структурные электронные медицинские документы, документы приема и выдачи товаров со складов, отчеты и записи научных исследований, протоколы следственных действий.

Перспективы развития системы связаны с расширением библиотеки готовых шаблонов за счет интеграции различных профессиональных областей и созданием инструментов для самостоятельной настройки схем документирования конечными пользователями, что может позволить унифицировать процесс автоматизации документооборота в организациях различного профиля без необходимости разработки специализированных программных решений для каждой отдельной задачи.

Additional File

The additional file for this article can be found as follows:

Online Supplementary Material

Further description of analytic pipeline and patient demographic information. DOI: https://doi.org/10.60797/IRJ.2026.168.87

Acknowledgements

Competing Interests

1 Ломакин А.С. Разработка метода бесконтактной генерации содержимого структурированного электронного медицинского документа на основе вербального словесного описания / А.С. Ломакин, С.В. Степанов, А.Р. Донская // Вестник Воронежского института высоких технологий. — 2025. — №2. — URL: https://vestnikvivt.ru/ru/journal/article?id=1420 (дата обращения: 05.02.2026) 2 Watanabe S. Hybrid CTC/Attention Architecture for End-to-End Speech Recognition / S. Watanabe, T. Hori, S. Kim, J.R. Hershey , T. Hayakawa // IEEE Journal of Selected Topics in Signal Processing. — 2017. — №8. — с. 1240–1253. [in English] 3 Manning Ch.D. Introduction to Information Retrieval / Ch.D. Manning, P. Raghavan, H. Schütze — New York: New York: Cambridge University Press, 2008. — 139 с. — URL: https://nlp.stanford.edu/IR-book/ (дата обращения: 05.02.2026) [in English] 4 Kushnareva D. Automatic Minute-Generation of Doctor-Patient Conversations / D. Kushnareva // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP). — URL: https://aclanthology.org/2021.emnlp-main.0/ (accessed: 12.04.2026) 5 Goodfellow I. Deep Learning / I. Goodfellow, Y. Bengio, A. Courville — Cambridge: Cambridge: MIT Press, 2016. — 170 с. — URL: https://www.deeplearningbook.org/ (дата обращения: 04.02.2026) [in English] 6 Орлова Ю.А. Адаптация модели распознавания речи Google Cloud Speech для упрощения редактирования исходного кода программ для ЭВМ с мобильных устройств / Ю.А. Орлова, А.С. Дмитриев, Д.В. Колчева // Инженерный вестник Дона. — 2021. — 2. — URL: https://ivdon.ru/ru/magazine/archive/n2y2021/6822 (дата обращения: 14.01.2026) 7 Mozharova V. Combining Knowledge-Based and Distributional Models for Russian Named Entity Recognition / V. Mozharova, N. Loukachevitch // Proceedings of the 28th Conference on Computational Linguistics and Intellectual Processing (Dialogue-2016). — Moscow, 2016. 8 Kuratov Y. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language / Y. Kuratov, M. Arkhipov // arXiv. — 2019. — DOI: 10.48550/arXiv.1905.07213 9 Vosk: Offline speech recognition API. — URL: https://alphacephei.com/vosk/ (accessed: 12.04.2026) 10 Фридл Дж. Регулярные выражения / Дж. Фридл — Санкт-Петербург: Питер, 2021. — 608 с. 11 Калажоков З.Х. Особенности решения задачи распознавания именованных сущностей на русском датасете / З.Х. Калажоков, Н.А. Андриянов // Инженерный вестник Дона. — 2025. — 9. — URL: https://ivdon.ru/ru/magazine/archive/n9y2025/10369 (дата обращения: 05.03.2026)