Research and development of a method for converting spoken language into text, using speech recognition technology as an example

Yurasov R.V.; Makarov A.O.; Arsyonov A.V.; Lomakin A.S.

doi:10.60797/IRJ.2026.168.87

Research and development of a method for converting spoken language into text, using speech recognition technology as an example

Research article

Ломакин Арсений Сергеевич0009-0001-9340-1748Волгоградский государственный технический университет, Волгоград, Российская Федерация
Арсёнов Алексей ВладимировичНациональный исследовательский университет «МЭИ», Москва, Российская Федерация
Макаров Александр ОлеговичВолгоградский государственный технический университет, Волгоград, Российская Федерация
Юрасов Роман ВадимовичВолгоградский государственный технический университет, Волгоград, Российская Федерация

Lomakin A. S.
Arsyonov A. V.
Makarov A. O.
Yurasov R. V.

https://doi.org/10.60797/IRJ.2026.168.87

DOI:

https://doi.org/10.60797/IRJ.2026.168.87

EDN:

OULBJM

Suggested:

22.02.2026

Accepted:

01.06.2026

Published:

17.06.2026

Issue: № 6 (168), 2026

Rightholder: authors. License: Attribution 4.0 International (CC BY 4.0)

39

2

XML

PDF

Abstract

Documentation is a vital component of research and analytical work, ensuring data reliability, the reproducibility of results, and the systematic organisation of the obtained information. However, traditional methods of record-keeping remain labour-intensive, require significant time resources and are prone to human error. Consequently, the development of tools to automate documentation processes is a pressing task. The article suggests a mechanism for dynamic logging, aimed at the automatic generation of structured logs based on voice recordings. The proposed methodology includes the recording and pre-processing of the audio signal, its cleaning of noise and distortion, the conversion of spoken speech into text using modern language models, as well as a two-stage extraction of key points through the application of regular expressions and natural language processing methods. Implementing this approach improves the accuracy of information processing and ensures the effective structuring of the resulting data. The scientific novelty lies in the development of a comprehensive approach to automating documentation at the least formalised stages of the research process. The practical significance of this work is determined by the reduction in time spent, the easing of the workload on specialists, and the minimisation of errors in routine documentation, as well as the potential for applying the developed solution in scientific and professional activities.

Keywords:

dynamic logging, automated documentation, natural language processing (NLP), speech recognition, information extraction, government agencies, medical documentation, forensic science, forensic analysis.

1. Введение

Современная исследовательская и профессиональная деятельность в медицине, криминалистике, судебной экспертизе и научных исследованиях, требует тщательного и своевременного документирования. Протоколы экспериментов, истории болезни, отчеты о следственных действиях и полевые наблюдения являются основой для дальнейшей деятельности. Однако традиционный процесс документирования остается ресурсоёмким этапом работы. Он требует от специалистов одновременного выполнения двух задач: непосредственного проведения исследования (или иной профессиональной деятельности) и параллельного фиксирования результатов, что приводит к когнитивной перегрузке, увеличению времени выполнения работ и, как следствие, риску пропуска важных деталей и субъективным ошибкам, которые обусловлены «человеческим фактором».

Проблема усугубляется в условиях, где основным источником данных является речь. К таким условиям относятся мозговые штурмы, оперативные совещания, административные обходы в медицинских учреждениях или осмотры мест происшествий. Например, в некоторых исследованиях, связанных с изучением процесса приема врачей УЗИ описывается, что прием врача длится в среднем 17 минут 52 секунды, из которых 40–60% времени составляло заполнение врачом связанной медицинской документации и заполнение полей структурированного электронного медицинского документа (СЭМД) «Протокол инструментального исследования»

. Существующие решения для автоматизации документооборота, ориентированные на формализованные данные и заранее заданные шаблоны, оказываются малоэффективными для обработки неструктурированной устной речи

В таком случае, решением будет являться разработка системы автоматического протоколирования на основе технологий речевой аналитики. Такой подход предполагает автоматическое преобразование аудиозаписи рабочего процесса в структурированный текстовый документ (протокол), предварительно выделив семантически значимые тезисы. Данный метод обеспечивает обработку информации с минимальной задержкой и исключает наличие орфографических или пунктуационных ошибок в протоколе.

2. Методы и принципы исследования

Целью исследования является разработка программного комплекса для автоматического динамического протоколирования на основе голосового ввода, обеспечивающего преобразование спонтанной устной речи в структурированный текстовый документ с минимальной задержкой и без передачи данных во внешние сервисы. Основную задачу исследования можно разбить на несколько подзадач и формализовать следующим образом:

Для подзадачи распознавания речи (далее ASR) необходимо ввести следующие обозначения

. Пусть —

входной аудиосигнал. Требуется найти такую функцию распознавания

, чтобы минимизировать ошибку распознавания

(Word Error Rate) для русского языка (1):

(1)

где

— функция ошибки распознавания речи,

— множество допустимых моделей распознавания речи,

— количество замен для функции

,

— количество удалений для функции

,

— количество вставок для функции

,

— общее число слов в эталонной транскрипции.

Одновременно с этим, задача извлечения семантически значимой информации (Information Extraction)

подразумевает, что для полученного текста,

требуется найти отображение

, которое выделяет множество ключевых тезисов

, релевантных структуре протокола, максимизируя точность (Precision) и полноту (Recall) извлечения [3] (2):

(2)

Не менее значимой является и задача формирования структурированного документа (Document Generation — далее

[4]), где требуется определить функцию

, которая преобразует множество тезисов

в конечный документ

, соответствующий заданному шаблону протокола

, при соблюдении ограничения на время формирования

(3):

(3)

где

— структура документа,

— время генерации,

— допустимая задержка, определяемая требованиями реального времени.

Таким образом, итоговая задача формулируется как разработка композитной функции

, удовлетворяющей заданным критериям точности, скорости и безопасности .

Прежде чем приступить к разработке решения, необходимо проанализировать и сравнить уже существующие сервисы и оценить их по ключевым критериям: режим работы, точность обработки русского языка, гибкость настройки и применимость в условиях строгой конфиденциальности. Для анализа были рассмотрены три решения для распознавания речи: Yandex SpeechKit, Microsoft Azure Cognitive Services (Speech)

и Vosk, однако у них были обнаружены такие недостатки: отсутствие оффлайн-режима для облачных решений, влекущее за собой риски безопасности, невозможность передачи персональных данных, невозможность использования иностранных разработок в государственных учреждениях РФ, высокая стоимость и значительная сложность кастомизации.

Среди решений для обработки русского языка в части извлечения именованных сущностей

(NER) активно используются такие библиотеки, как: Natasha, DeepPavlov и Tomita‑Parser.

Natasha является оффлайн‑решением с открытым исходным кодом, ориентированным на задачи токенизации, лемматизации, извлечения именованных сущностей и синтаксического разбора. Основные преимущества Natasha над Tomita-Parser и DeepPavlov, который основан на BERT

, заключаются в том, что данное решение работает оффлайн, хорошо адаптировано к морфологии русского языка, а также обладает легковесной и модульной архитектурой. Основной недостаток состоит в том, что для узкоспециализированных терминов и доменов модель требует дообучения.

Главной особенностью предлагаемого подхода к автоматическому параллельному документированию является его автономность. Метод ориентирован на широкий спектр пользователей, включая государственные структуры, где вопрос конфиденциальности данных является приоритетным. Для обеспечения безопасности данных применяется оффлайн-распознавание речи на основе языковых моделей.

Современные языковые модели позволяют решать задачи с высокой точностью, будучи предварительно обученными на больших массивах текстовых данных, что избавляет от необходимости размечать объемные обучающие выборки для каждой конкретной задачи, требуя относительно небольшого набора данных для точечного дополнительного обучения (fine-tuning).

Для нашей задачи оптимальным решением является оффлайн-модель VOSK, разработанная российской компанией Alpha Cephei

. Ее преимущества включают: автономность обработки данных, кроссплатформенность, низкая задержка при работе в реальном времени, а также наличие предварительно обученных моделей для русского языка различного размера (от 45 МБ до 2.5 ГБ) (Таблица 1). В данном случае это позволяет найти баланс между нефункциональными требованиями и точностью распознавания.

Таблица 1 - Русскоязычные версии языковой модели Vosk

DOI:10.60797/IRJ.2026.168.87.1

Модель	Вес модели	Уровень тестирования	Примечание
vosk-model-ru-0.42	1.8 Gb	4.5 (our audiobooks) 11.1 (open_stt audiobooks) 19.5 (open_stt youtube) 36.0 (openstt calls) 4.4 (golos crowd) 17.9 (sova devices)	Большая смешанная российская модель для серверов
vosk-model-small-ru-0.22	45 Mb	22.71 (openstt audiobooks) 31.97 (openstt youtube) 29.89 (sova devices) 11.79 (golos crowd)	Облегченная широкополосная модель для Android/iOS и RPi
vosk-model-ru-0.22	1.5 Gb	5.74 (our audiobooks) 13.35 (open_stt audiobooks) 20.73 (open_stt youtube) 37.38 (openstt calls) 8.65 (golos crowd) 19.71 (sova devices)	Большая смешанная российская модель для серверов
vosk-model-ru-0.10	2.5 Gb	5.71 (our audiobooks) 16.26 (open_stt audiobooks) 26.20 (public_youtube_700_val open_stt) 40.15 (asr_calls_2_val open_stt)	Большая узкополосная российская модель для серверов

Для использования системы в узких предметных областях со своей собственной терминологией (например, медицине или юриспруденции) модель Vosk поддерживает возможность расширения на специализированных текстовых корпусах. Данная функция обеспечивает точность распознавания профессиональной терминологии и адаптивность решения к конкретным условиям эксплуатации. При этом ключевыми требованиями к модели являются не только точность и безопасность, но и интерпретируемость результатов. Последнее особенно важно в медицине т.к. тем самым повышает уровень доверия к прогнозам модели.

После конвертации голоса в текст возникает задача выделения семантически значимых участков для занесения их в шаблон документа/протокола. Классический подход подразумевает разработку синтаксического анализатора, включающего лексический и синтаксический этапы

. Однако данный метод хоть и эффективен для формализованных языков (языков программирования), оказывается неподходящим для обработки устной речи, характеризующейся высокой вариативностью и нестандартными конструкциями.

Альтернативным решением выступает технология распознавания именованных сущностей (NER)

, позволяющая извлекать из текста объекты заданных категорий (имена, даты, локации, медицинские термины) на основе семантических, а не синтаксических признаков. В отличие от парсеров, NER-системы, основанные на машинном обучении, не требуют ручного описания грамматических правил. Они обучаются на размеченных текстах и способны выявлять сущности по контексту, демонстрируя устойчивость к морфологическим и синтаксическим вариациям.

Для решения данной проблемы была выбрана библиотека Natasha (Рисунок 1). Выбор обусловлен соответствию ключевым требованиям: отсутствию необходимости передачи данных внешним сервисам, поддержки русского языка и высокой точностью распознавания.

Рисунок 1 - Пример работы семантического анализатора Natasha

Архитектура и методы библиотеки Natasha включают следующие этапы:

1. Морфологический анализ на основе модели pymorphy3, обеспечивающей лемматизацию и определение грамматических характеристик слов.

2. Синтаксический анализ с использованием алгоритмов извлечения зависимостей (dependency parsing), что позволяет учитывать контекстные связи между словами.

3. Распознавание сущностей с применением правил, основанных на комбинации морфологических признаков, словарей и контекстных шаблонов. Так, для извлечения имён используются правила, учитывающие падежные окончания, типичные для имен собственных в русском языке.

4. Нормализация извлеченных значений — приведение сущностей к стандартному формату (например, унификация формата дат).

Таким образом, применение NER-библиотеки Natasha позволяет решить задачу структурирования текстовых данных, полученных в результате транскрибации аудиозаписей. Данное решение дополняется препроцессингом и нормализацией данных, включающий парсинг отчетов, преобразование данных в структурированную форму и устранение дубликатов, что может послужить основой для создания надежных систем обработки медицинских данных и обеспечить их целостность и пригодность для последующего использования. Разработанная система динамического протоколирования представляет собой последовательность связанных между собой функциональных компонентов, где результат каждого модуля служит входными данными для последующего.

На начальном этапе система обрабатывает полученную аудиозапись с использованием библиотеки NAudio. Модуль выполняет комплексную подготовку звукового сигнала, включая фильтрацию фоновых шумов, нормализацию амплитуды и коррекцию артефактов записи.

Затем, преобразование подготовленной голосовой записи в текстовые данные осуществляется при помощи оффлайн-модели VOSK. Локальный характер обработки исключает необходимость передачи данных внешним сервисам, гарантируя информационную безопасность.

Последний этап обработки реализован на базе NER-библиотеки Natasha и включает многоуровневый анализ текста. Модуль последовательно выполняет токенизацию входного текста, морфологический анализ с определением грамматических характеристик, идентификацию и классификацию именованных сущностей (имена собственные, временные метки, организации, термины предметной области). Для обработки специализированных шаблонов данных модуль дополнен механизмом правил на основе регулярных выражений.

Система включает специализированный модуль, который преобразует извлеченные сущности в структурированные данные протокола. На основе предварительно настроенных шаблонов документов модуль автоматически распределяет выявленные токены по соответствующим разделам протокола, обеспечивая семантическую корректность.

Все компоненты разработанной системы инкапсулированы в единый программный контейнер, что обеспечивает кроссплатформенность и упрощает развертывание. Архитектура предусматривает механизм адаптации к предметным областям через дополнительное обучение акустических моделей распознавания и расширение словарных баз извлечения сущностей.

3. Основные результаты

Для валидации разработанного метода было проведено тестирование в условиях, имитирующих медицинский клинический обход. Рассмотрим работу системы на конкретном примере. Так, в качестве входных данных будет выступать следующая аудиозапись устной речи врача:

«Пациент Иванов Сергей Петрович, 1985 года рождения. На момент осмотра предъявляет жалобы на острые боли в эпигастральной области, тошноту. Назначен эзомепразол 40 мг раз в день, контрольное эндоскопическое исследование через 14 дней».

В результате транскрибации текст был распознан с минимальными ошибками: «пациент иванов сергей петрович 1985 года рождения на момент осмотра предъявляет жалобы на острые боли в эпигастральной области тошноту назначено эзомепразол 40 миллиграмм раз в день контрольное эндоскопическое исследование через 14 дней».

Извлеченные сущности были автоматически распределены по заранее заданному шаблону истории болезни, формируя структурированную запись.

Основным преимуществом предложенного метода является сокращение временных затрат на обработку протоколов. На Рисунке 2 представлена блок-схема автоматизированного процесса.

Рисунок 2 - Блок-схема процесса документирования

Таким образом, разработанный программный комплекс решает проблему фиксирования результатов в структурированные формы протоколов параллельно основной деятельности. Апробация в предметной области доказала способность системы точно извлекать структурированную информацию из речи и автоматически формировать протоколы. Средняя скорость приема пациентов с использованием предложенного метода составила 8 минут 12 секунд, что более, чем в 2 раза быстрее приемов с ручным заполнением медицинской документации. Итоговое время приема было рассчитано с использованием набора данных включающих в себя 500 голосовых записей приёмов пациентов продолжительностью от 3 до 8 минут, общим объёмом 41,3 часа аудиоданных (формат — WAV, 48 кГц, моно, средний размер файла — 17 Мб) из исследования .

4. Заключение

В результате проведенной работы разработан и апробирован метод автоматизированного формирования структурированных документов на основе распознавания устной речи. Новизна предложенного подхода состоит в сквозной обработке речевого потока — от транскрибации до заполнения шаблона документа — без участия оператора и без изменения базовой архитектуры системы при смене предметной области.

Ключевыми результатами являются сокращение временных затрат на документирование примерно на 54% по сравнению с ручным заполнением, а также обеспечение корректной автоматической структуризации данных для различных типов документации путём настройки шаблонов и правил извлечения сущностей.

Данное прикладное решение может применяться в создании таких отчетных форм, как структурные электронные медицинские документы, документы приема и выдачи товаров со складов, отчеты и записи научных исследований, протоколы следственных действий.

Перспективы развития системы связаны с расширением библиотеки готовых шаблонов за счет интеграции различных профессиональных областей и созданием инструментов для самостоятельной настройки схем документирования конечными пользователями, что может позволить унифицировать процесс автоматизации документооборота в организациях различного профиля без необходимости разработки специализированных программных решений для каждой отдельной задачи.

Additional materials

Not specified

Financing

The authors did not receive financial support for research, writing and publishing articles

Acknowledgements

Not specified

Conflicts of interests

Not specified

References

Lomakin A.S. Razrabotka metoda beskontaktnoj generacii soderzhimogo strukturirovannogo e'lektronnogo medicinskogo dokumenta na osnove verbal'nogo slovesnogo opisaniya [Development of a method for contactless generation of the content of a structured electronic medical document based on a verbal description] / A.S. Lomakin, S.V. Stepanov, A.R. Donskaya // Vestnik Voronezhskogo instituta vy'sokix texnologij [Bulletin of the Voronezh Institute of High Technologies]. — 2025. — №2. — URL: https://vestnikvivt.ru/ru/journal/article?id=1420 (accessed: 05.02.26). [in Russian]

Watanabe S. Hybrid CTC Attention Architecture for End-to-End Speech Recognition / S. Watanabe, T. Hori, S. Kim et al. // IEEE Journal of Selected Topics in Signal Processing. — 2017. — №8. — P. 1240–1253.

Manning Ch.D. Introduction to Information Retrieval / Ch.D. Manning, P. Raghavan, H. Schutze. — New York: New York Cambridge University Press, 2008. — 139 p. — URL: https://nlp.stanford.edu/IR-book/ (accessed: 05.02.26).

Kushnareva D. Automatic Minute-Generation of Doctor-Patient Conversations / D. Kushnareva // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP). — URL: https://aclanthology.org/2021.emnlp-main.0/ (accessed: 12.04.2026)

Goodfellow I. Deep Learning / I. Goodfellow, Y. Bengio, A. Courville. — Cambridge: Cambridge MIT Press, 2016. — 170 p. — URL: https://www.deeplearningbook.org/ (accessed: 04.02.26).

Orlova Yu.A. Adaptaciya modeli raspoznavaniya rechi Google Cloud Speech dlya uproshheniya redaktirovaniya isxodnogo koda programm dlya E'VM s mobil'ny'x ustrojstv [Adaptation of the Google Cloud Speech recognition model to simplify editing the source code of computer programs from mobile devices] / Yu.A. Orlova, A.S. Dmitriev, D.V. Kolcheva // Inzhenerny'j vestnik Dona [Engineering Journal of Don]. — 2021. — 2. — URL: https://ivdon.ru/ru/magazine/archive/n2y2021/6822 (accessed: 14.01.26). [in Russian]

Mozharova V. Combining Knowledge-Based and Distributional Models for Russian Named Entity Recognition / V. Mozharova, N. Loukachevitch // Proceedings of the 28th Conference on Computational Linguistics and Intellectual Processing (Dialogue-2016). — Moscow, 2016.

Kuratov Y. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language / Y. Kuratov, M. Arkhipov // arXiv. — 2019. — DOI: 10.48550/arXiv.1905.07213

Vosk: Offline speech recognition API. — URL: https://alphacephei.com/vosk/ (accessed: 12.04.2026)

Fridl Dzh. Regulyarny'e vy'razheniya [Mastering Regular Expressions] / Dzh. Fridl. — Sankt-Peterburg: Piter, 2021. — 608 p. [in Russian]

Kalazhokov Z.X. Osobennosti resheniya zadachi raspoznavaniya imenovanny'x sushhnostej na russkom datasete [Peculiarities of solving the named entity recognition problem on a Russian dataset] / Z.X. Kalazhokov, N.A. Andriyanov // Inzhenerny'j vestnik Dona [Engineering Journal of Don]. — 2025. — 9. — URL: https://ivdon.ru/ru/magazine/archive/n9y2025/10369 (accessed: 05.03.26). [in Russian]

References

Lomakin A.S.
Razrabotka metoda beskontaktnoj generacii soderzhimogo strukturirovannogo e'lektronnogo medicinskogo dokumenta na osnove verbal'nogo slovesnogo opisaniya
[
Development of a method for contactless generation of the content of a structured electronic medical document based on a verbal description
] / A.S. Lomakin, S.V. Stepanov, A.R. Donskaya //
Vestnik Voronezhskogo instituta vy'sokix texnologij
[
Bulletin of the Voronezh Institute of High Technologies
]. — 2025. — №2. — URL: https://vestnikvivt.ru/ru/journal/article?id=1420 (accessed: 05.02.26). [in Russian]
Watanabe S.
Hybrid CTC Attention Architecture for End-to-End Speech Recognition
/ S. Watanabe, T. Hori, S. Kim et al. //
IEEE Journal of Selected Topics in Signal Processing
. — 2017. — №8. — P. 1240–1253.
Manning Ch.D.
Introduction to Information Retrieval
/ Ch.D. Manning, P. Raghavan, H. Schutze. — New York: New York Cambridge University Press, 2008. — 139 p. — URL: https://nlp.stanford.edu/IR-book/ (accessed: 05.02.26).
Kushnareva D. Automatic Minute-Generation of Doctor-Patient Conversations / D. Kushnareva // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP). — URL: https://aclanthology.org/2021.emnlp-main.0/ (accessed: 12.04.2026)
Goodfellow I.
Deep Learning
/ I. Goodfellow, Y. Bengio, A. Courville. — Cambridge: Cambridge MIT Press, 2016. — 170 p. — URL: https://www.deeplearningbook.org/ (accessed: 04.02.26).
Orlova Yu.A.
Adaptaciya modeli raspoznavaniya rechi Google Cloud Speech dlya uproshheniya redaktirovaniya isxodnogo koda programm dlya E'VM s mobil'ny'x ustrojstv
[
Adaptation of the Google Cloud Speech recognition model to simplify editing the source code of computer programs from mobile devices
] / Yu.A. Orlova, A.S. Dmitriev, D.V. Kolcheva //
Inzhenerny'j vestnik Dona
[
Engineering Journal of Don
]. — 2021. — 2. — URL: https://ivdon.ru/ru/magazine/archive/n2y2021/6822 (accessed: 14.01.26). [in Russian]
Mozharova V. Combining Knowledge-Based and Distributional Models for Russian Named Entity Recognition / V. Mozharova, N. Loukachevitch // Proceedings of the 28th Conference on Computational Linguistics and Intellectual Processing (Dialogue-2016). — Moscow, 2016.
Kuratov Y. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language / Y. Kuratov, M. Arkhipov // arXiv. — 2019. — DOI: 10.48550/arXiv.1905.07213
Vosk: Offline speech recognition API. — URL: https://alphacephei.com/vosk/ (accessed: 12.04.2026)
Fridl Dzh.
Regulyarny'e vy'razheniya
[
Mastering Regular Expressions
] / Dzh. Fridl. — Sankt-Peterburg: Piter, 2021. — 608 p. [in Russian]
Kalazhokov Z.X.
Osobennosti resheniya zadachi raspoznavaniya imenovanny'x sushhnostej na russkom datasete
[
Peculiarities of solving the named entity recognition problem on a Russian dataset
] / Z.X. Kalazhokov, N.A. Andriyanov //
Inzhenerny'j vestnik Dona
[
Engineering Journal of Don
]. — 2025. — 9. — URL: https://ivdon.ru/ru/magazine/archive/n9y2025/10369 (accessed: 05.03.26). [in Russian]

Review

Reviewer:Gibadullin Ruslan Farshatovich

ORCID:0000-0001-9359-911X

1 review round

2 review round

3 review round

Review text

DOI:10.60797/IRJ.2026.168.87.4

Предметом исследования рецензируемой статьи выступает метод автоматизированного формирования структурированных текстовых документов на основе обработки голосовых записей устной речи. Авторами рассматривается комплекс задач, объединяющих автоматическое распознавание речи, извлечение семантически значимой информации на основе технологии распознавания именованных сущностей, а также генерацию итогового документа по заранее заданному шаблону протокола. Особое внимание уделено областям применения, в которых документирование осуществляется параллельно с основной профессиональной деятельностью, — медицинским осмотрам, осмотрам мест происшествий, оперативным совещаниям и научно-исследовательским мероприятиям.

Методология исследования характеризуется системностью и продуманным сочетанием теоретических и прикладных подходов. Авторами проведён сравнительный анализ существующих решений в области распознавания русскоязычной речи, включая Yandex SpeechKit, Microsoft Azure Cognitive Services и Vosk, а также библиотек обработки естественного языка Natasha, DeepPavlov и Tomita-Parser. Для каждой подзадачи приведена корректная математическая формализация: введены функции распознавания речи, отображения для извлечения ключевых тезисов и функции генерации документа, заданы критерии оптимизации в виде минимизации ошибки распознавания и максимизации показателей точности и полноты. В качестве инструментальной базы выбраны оффлайн-модель Vosk от российской компании Alpha Cephei и библиотека Natasha, что обосновано с точки зрения требований к автономности обработки, поддержке морфологии русского языка и легковесности архитектуры. Реализация дополнена этапами предварительной обработки аудиосигнала средствами библиотеки NAudio, морфологического и синтаксического анализа, нормализации извлечённых значений, а также применением регулярных выражений для специализированных шаблонов данных. Валидация метода выполнена на корпусе из пятисот голосовых записей приёмов пациентов общим объёмом сорок одна целая и три десятых часа аудиоданных, что свидетельствует о репрезентативности экспериментальной выборки.

Актуальность темы исследования не вызывает сомнений. Современные сферы профессиональной деятельности, где основным источником данных выступает устная речь, испытывают значительную нагрузку, связанную с одновременным выполнением основной работы и фиксацией её результатов. Приведённые в статье эмпирические данные о том, что заполнение медицинской документации занимает до сорока — шестидесяти процентов времени врачебного приёма, наглядно демонстрируют остроту обозначенной проблемы. Дополнительную актуальность исследованию придаёт ориентация на оффлайн-обработку, исключающую передачу данных во внешние сервисы, что критически важно для государственных учреждений Российской Федерации, медицинских организаций, оперирующих персональными данными, а также для криминалистики и судебной экспертизы, в которых требования к конфиденциальности являются приоритетными.

Научная новизна работы заключается в разработке целостного сквозного подхода к автоматизации документирования на наименее формализованных этапах исследовательского и профессионального процесса. Авторы предлагают композитную функцию преобразования аудиосигнала в структурированный документ, объединяющую этапы предварительной обработки сигнала, оффлайн-транскрибации, извлечения именованных сущностей и заполнения шаблона без участия оператора. Принципиальным элементом новизны выступает архитектурное решение, допускающее адаптацию к новой предметной области без изменения базовой структуры системы за счёт дообучения акустических моделей и расширения словарных баз извлечения сущностей. Указанное отличает предложенный метод от существующих решений, ориентированных преимущественно на формализованные данные и заранее заданные шаблоны.

Стиль изложения соответствует требованиям научного жанра. Авторы используют корректную профессиональную терминологию, последовательно вводят используемые обозначения, сопровождают теоретические положения формальными определениями и математическими выражениями. Текст характеризуется ясностью формулировок, отсутствием избыточной публицистичности и сбалансированным сочетанием обзорной, методической и экспериментальной составляющих. Иллюстративный материал, включающий пример работы семантического анализатора Natasha и блок-схему процесса документирования, органично дополняет основной текст и облегчает восприятие материала.

Структура статьи логична и соответствует традициям представления научных результатов. Работа открывается аннотацией с чётко выделенными ключевыми словами, далее последовательно раскрываются введение с постановкой проблемы, раздел методов и принципов исследования с формализацией задачи и обоснованием выбора инструментальных средств, раздел основных результатов с описанием апробации, а также заключение с обобщением полученных выводов и перспективами развития. Сравнительная таблица русскоязычных версий модели Vosk наглядно представляет диапазон возможных конфигураций и позволяет читателю самостоятельно оценить компромисс между размером модели и точностью распознавания.

Содержание статьи отличается полнотой и логической связностью. Авторы последовательно проводят читателя от обоснования актуальности через формализацию подзадач и сравнительный анализ существующих решений к описанию архитектуры разработанной системы и её экспериментальной проверке. Особенно ценным представляется наглядный пример обработки реальной речи врача при клиническом осмотре, демонстрирующий корректность распознавания специализированной медицинской терминологии и автоматическое распределение извлечённых сущностей по разделам шаблона истории болезни. Количественные результаты апробации — сокращение среднего времени приёма пациента с семнадцати минут пятидесяти двух секунд до восьми минут двенадцати секунд и снижение временных затрат на документирование примерно на пятьдесят четыре процента — убедительно подтверждают практическую эффективность предложенного решения. Список литературы включает одиннадцать источников, среди которых представлены фундаментальные работы по теории распознавания речи, информационного поиска и глубокого обучения, а также актуальные русскоязычные публикации, что отражает достаточную проработанность научного контекста.

Выводы, сформулированные авторами в заключении, обоснованы материалом исследования и подкреплены экспериментальными данными. Заявленная новизна сквозной обработки речевого потока от транскрибации до заполнения шаблона документа подтверждена приведённой апробацией. Указанные перспективы развития, связанные с расширением библиотеки готовых шаблонов и созданием инструментов для самостоятельной настройки схем документирования конечными пользователями, представляются логичным продолжением исследования и открывают возможности для дальнейших научных публикаций.

Интерес для читательской аудитории статья представляет значительный. Работа будет полезна специалистам в области обработки естественного языка, разработчикам систем речевой аналитики, инженерам по созданию прикладного программного обеспечения для медицинских и государственных учреждений, исследователям в смежных областях информационной безопасности и автоматизации документооборота. Прикладной характер результатов и широкий спектр потенциальных областей внедрения, охватывающих структурные электронные медицинские документы, протоколы следственных действий, складскую и научно-исследовательскую отчётность, обеспечивают статье широкий отклик как в академической, так и в инженерно-практической среде.

С учётом изложенного, статья «Исследование и разработка метода трансформации устной речи в документ на примере программного обеспечения с использованием технологий распознавания речи» отвечает требованиям, предъявляемым к научным публикациям, обладает научной новизной и практической значимостью, написана грамотным научным языком и рекомендуется к опубликованию.

Author information

ORCID:0009-0001-9340-1748
AffiliationVolgograd State Technical University, Volgograd, Russian Federation
Role:Author
AffiliationNational Research University “MEI”, Moscow, Russian Federation
Role:Author
AffiliationVolgograd State Technical University, Volgograd, Russian Federation
Role:Author, Software
AffiliationVolgograd State Technical University, Volgograd, Russian Federation
Role:Author, Methodology, Analysis

Article metrics

Downloads:2

ViewsDownloads

Views

Total: