ANALYTICAL COMPARISON OF LINGUISTIC MODELS FOR MEDICAL TEXT PROCESSING

Research article
DOI:
https://doi.org/10.60797/IRJ.2025.156.116
Issue: № 6 (156), 2025
Suggested:
23.04.2025
Accepted:
04.06.2025
Published:
17.06.2025
58
1
XML
PDF

Abstract

Within the scope of this article, an analytical comparison of popular language models for medical text processing is carried out. The covered models are MedCAT, ScispaCy, BioBERT and different versions of GPT. Evaluation is done according to a number of criteria: accuracy of information extraction, context understanding, universality of application, speed of information processing, presence of robustness to data noise and level of interpretability of results. The results of the research found that the MedCAT model has the highest scores and is more suitable for application in medical tasks. The study also emphasises the importance of integrating popular language models into processes related to medical information processing in order to improve the efficiency and quality of medical care.

1. Введение

В современном мире растет актуальность применения языковых моделей, ориентированных на работу с медицинскими текстами. Это обусловлено стремительным развитием технологий обработки естественного языка и их практическим применением в современной системе здравоохранения. Также за последние годы в значительной степени увеличился объем медицинской информации. Это связано с появлением огромного количества электронных медицинских текстовых данных: электронных медицинских карт, научных публикаций и т.д. Помимо этого, огромное значение сегодня имеет активное развитие перспективных направлений медицины, в частности, персонализированной, а также цифровизация системы здравоохранения. С увеличением доступности и многообразия информации, касающейся здоровья, требуется все чаще применять высокоэффективные инструменты для работы с различными слабоструктурированными данными. Поэтому целью данного исследования является проведение аналитического сравнения языковых моделей, предназначенных для обработки медицинских текстов.

Как показывают результаты научных исследований и реальная практика, современные языковые модели демонстрируют достойные результаты в работе с естественным языком. Тем не менее, следует обратить внимание на то, что, с точки зрения их практического применения в медицинской сфере, необходимо учитывать специфику медицинской терминологии и особенности предметной области

. Выделив основные преимущества и недостатки существующих разработок, можно определить модели, наилучшим образом подходящие для решения медицинских задач. Среди основных целей применения языковых моделей в медицине можно выделить следующие: автоматическое извлечение информации, классификация болезней, анализ медицинских заметок, а также помощь в диагностике и терапии
.

В рамках данного исследования также акцентировано внимание на возможности адаптировать рассматриваемые языковые модели к непосредственным нуждам современной медицины. Очень важно, чтобы применяемые на практике алгоритмы были максимально понятными и прозрачными. Это особенно критично в медицинской практике, потому что даже несущественные ошибки могут сильно влиять на результаты.

Принимая во внимание все приведенные выше аспекты, можно сделать вывод, что задача сравнения языковых моделей, предназначенных для обработки медицинских текстов, является достаточно актуальной. Полученные на базе такого анализа результаты могут быть использованы при создании продвинутых цифровых медицинских решений, а также интеллектуальных медицинских информационных систем. Все это способно существенно повысить эффективность медицинской деятельности, упростив и автоматизировав процессы, связанные с анализом медицинской информации.

2. Методы и принципы исследования

В данном исследовании применяется метод сравнительного анализа языковых моделей. Такой анализ позволяет оценить, насколько хорошо указанные модели справляются с обработкой медицинской информации. Для анализа выбрано шесть моделей: MedCAT, ScispaCy, BioBERT и разные версии GPT. Согласно сформулированным целям, в рамках исследования проведена их оценка по ряду основных критериев: точность извлечения информации, понимание контекста, универсальность применения, скорость обработки информации, наличие устойчивости к шуму данных и уровень интерпретируемости результатов. Все исследуемые модели оценивались по 10-балльной шкале с учетом основных преимуществ и недостатков.

Для проведения сравнительного анализа использовался открытый сборник медицинских документов MTSamples

. В качестве экспериментального корпуса были отобраны десять текстов из раздела “Consult — History and Phy” (история болезни и физиотерапия), посвященных разным заболеваниями. Выбор текстов данного формата обусловлен тем, что они содержат наиболее полно сформулированные клинические заключения, включающие анамнез, жалобы пациента, первичный осмотр, принимаемые и прописанные препараты, а также планы лечения. Общий объём корпуса составляет около 7000 слов.

Модели MedCAT, ScispaCy, BioBERT были собраны локально с использованием соответствующих пакетов python: medcat v1.15.2, sciscpacy v0.5.5, biobert-embedding v0.1.2. Модели GPT-3.5, GPT-4 и GPT-4 Turbo использовались через официальное Web API. Для всех моделей применялись параметры по умолчанию, за исключением sciscpacy, где в качестве основного конвейера выбран en_core_sci_md. Предпринимались попытки извлечения именованных сущностей определенных типов: симптомы, заболевания, химические вещества, препараты. Демонстрация извлечения терминов на примере модели MedCAT приведена на рисунке 1:
Извлечение именованных сущностей на примере модели MedCAT

Рисунок 1 - Извлечение именованных сущностей на примере модели MedCAT

Оценка по критериям проводилась следующим образом:

1. Точность извлечения информации. Способность модели корректно выделять все сущности выбранных типов проверялась на основе F-мер, которые каждая из моделей демонстрировала на крупных медицинских корпусах в соответствующих исследованиях: MedCAT на MedMentions

, ScispaCy на BC5CDR, CRAFT, JNLPBA и BioNLP13CG с использованием конейера en_core_sci_md
, BioBERT на BioNLP13CG
и разные версии GPT на MTSamples
.

2. Понимание контекста. Оценивалось, насколько модель правильно соотносит извлечённые сущности с их контекстуальным окружением и семантикой. Критерий проверялся на специально составленных примерах, где одни и те же термины встречались в разных значениях. Например, «отёк легких» как симптом и как диагноз. Баллы присваивались по 10-балльной шкале в зависимости от процента корректных интерпретаций.

3. Универсальность применения. Проверялась на трёх дополнительных текстах разных типов и размеров: фрагменты выписок, научные статьи, лабораторные исследования. Оценивались расхождения в количестве извлеченных терминов разных типов для всех моделей при анализе данных текстов. Количество расхождений усреднялось и формировалась оценка от 1 до 10.

4. Скорость обработки информации. Измерялась средняя задержка ответа для каждого документа корпуса (≈700 слов) в условиях локального запуска и облачного API (для GPT-моделей). Время усреднялось по пяти запускам и нормировалось в баллах от 1 (более 30 секунд) до 10 (менее 3 секунд).

5. Устойчивость к шуму данных. Модели тестировались на «зашумлённом» варианте корпуса, где были добавлены опечатки, нестандартные сокращения и случайные символы (≈5% токенов). Оценка проводилась по сохранению F-меры извлечения сущностей от исходной версии (без шума), при этом потеря точности менее 10% соответствовала 8–10 баллам, 10–20% – 5–7 баллам и более 20% – 1–4 баллам.

6. Интерпретируемость результатов. Рассматривалась прозрачность процесса принятия решений: возможность понять на какой источник опиралась модель при извлечении сущности и правильного определения ее типа. Для MedCAT и ScispaCy проверялась точность соотнесения с терминами базы знаний UMLS с выводом верных идентификаторов концептов (CUI) и их семантических типов (TUI), что позволяло верифицировать результаты по справочной онтологии. Для BioBERT и GPT-моделей оценка строилась по наличию и качеству пояснительных атрибутов в их API: attention-карты (heatmap по токенам), логиты или вероятности генерации каждого токена.

Баллы по каждому критерию выставлялись в соответствии с заранее описанными порогами и нормировались на шкале от 1 до 10. Итоговая оценка модели вычислялась как среднее арифметическое по всем шести критериям.

3. Основные результаты

Языковые модели, создаваемые для работы с медицинскими текстами, являются инструментами, сочетающими в себе лингвистические аспекты, информатику и медицину. Главная цель таких моделей — помочь автоматизировать анализ и понимание текстов, присутствующих в медицинской практике. Такие модели используют современные алгоритмы машинного обучения. По этой причине они могут обрабатывать очень большие объемы данных, извлекая полезную информацию. Это позволяет улучшить повысить эффективность медицинских услуг, ускорить процессы документооборота в здравоохранении, и, впоследствии, повысить качество принятия решений

.

Как показывает практика, современные популярные языковые модели достаточно хорошо справляются с анализом текстов как с точки зрения значений слов, так и с точки зрения структурной специфики предложений, включающих терминологию предметной области

.

Языковые модели, предназначенные для медицинских текстов, должны иметь характерные особенности. Требуется принимать во внимание тот факт, что в медицинской сфере присутствует много сложных терминов и аббревиатур. Кроме того, важно учитывать, как устроены медицинские документы, представленные историями болезни, выписками, научными статьями, а также рекомендациями по лечению

. Такие тексты зачастую имеют сложные структуры и обладают специфичными лексическими единицами, характерными для данной предметной области. Поэтому при разработке языковых моделей для медицины необходимо создавать специализированные корпуса данных, включающие широкий спектр медицинских текстов
.

Для анализа выбрано 6 популярных моделей: MedCAT, ScispaCy, BioBERT, GPT-4-Turbo, GPT-4 и GPT-3.5. Далее будет представлено краткое описание каждой из них.

MedCAT (Medical Concept Annotation Tool) — это специализированная языковая модель, разработанная для автоматического распознавания, нормализации и связывания медицинских сущностей в неструктурированных текстах. В её основе лежит сочетание распределённых представлений слов, предварительно обученных на медицинских корпусах, и алгоритмов машинного обучения, включая нейросетевые методы и условные случайные поля (CRF). Одной из ключевых особенностей MedCAT является способность к обучению с учителем на доменной разметке при одновременном использовании данных без разметки, что позволяет ей эффективно адаптироваться под конкретные задачи и контексты

.

ScispaCy — это набор моделей и инструментов на основе библиотеки spaCy, специально адаптированных для обработки научных и биомедицинских текстов

. Разработанная на базе архитектур современных языковых моделей и обученная на больших объемах медицинских публикаций (в частности, из корпуса PubMed), ScispaCy обеспечивает высокую точность в задачах токенизации, распознавания именованных сущностей (NER), лемматизации и синтаксического анализа в биомедицинском контексте. Одной из отличительных черт ScispaCy является её высокая скорость и эффективность, позволяющие обрабатывать большие объемы текста с минимальными задержками, что особенно важно в реальных приложениях.

Одним из ключевых преимуществ моделей MedCAT и ScispaCy является поддержка привязки извлечённых сущностей к UMLS (Unified Medical Language System) — обширному метатезаурусу, разработанному Национальной медицинской библиотекой США. UMLS объединяет сотни биомедицинских словарей, включая SNOMED CT, MeSH и ICD, обеспечивая стандартизованное представление медицинских понятий и связей между ними. Привязка к UMLS позволяет моделям не только точно распознавать медицинские термины в тексте, но и интерпретировать их значение с учётом синонимии, омонимии и иерархических связей между концептами. Это значительно повышает точность анализа и делает возможным унифицированное извлечение знаний из разнородных источников

.

В языковых моделях, представленных BERT (Bidirectional Encoder Representations from Transformers), а также его производными, применяются так называемые трансформерные архитектуры

. Архитектурной основой BioBERT является система распознавания именованных сущностей, базирующаяся на двунаправленном трансформерном кодировщике. Данная модель прошла обучение на корпусе биомедицинских текстов, что обеспечивает повышенную точность интерпретации специализированной терминологии.

GPT-4 (Generative Pre-trained Transformer 4) представляет собой крупномасштабную мультимодальную языковую модель, способную воспринимать и обрабатывать как текстовые, так и визуальные входные данные с целью генерации высококачественных текстовых ответов. Эта архитектура демонстрирует высокий уровень когнитивной гибкости и контекстной осведомлённости, что делает её применимой в широком спектре задач — от автоматизированного анализа информации до поддержки принятия решений

. Улучшенная версия модели, GPT-4 Turbo, представляет собой оптимизированную диалоговую систему, обладающую повышенной производительностью и эффективностью, ориентированную на решение задач в интерактивном формате. В свою очередь, GPT-3.5 — это предыдущая итерация трансформерной архитектуры, также разработанная компанией OpenAI, которая заложила фундамент для дальнейшего прогресса в области генеративных языковых моделей.

Критериями для сравнительного анализа при проведении оценки выбраны точность извлечения информации, понимание контекста, универсальность применения, скорость обработки информации, наличие устойчивости к шуму данных и уровень интерпретируемости результатов. Для оценки эффективности моделей использовалась шкала от 1 до 10. В приведенной шкале 1 означает низкую эффективность по критерию, а 10 — высокую.

Точность отражает способность моделей надежно идентифицировать и извлекать медицинские сущности, включая термины, диагнозы и лекарственные средства. Показатель контекстуального понимания демонстрирует, насколько эффективно модель учитывает терминологическую и стилистическую специфику медицинского дискурса, что критически важно при работе со сложными или неоднозначными фрагментами текста. Универсальность характеризует степень адаптируемости модели к различным типам задач, таким как извлечение информации, классификация и семантический анализ

. Скорость обработки служит индикатором практической применимости модели в условиях ограниченного времени и больших объемов данных. Устойчивость к шуму — способность сохранять высокую точность при наличии опечаток, нестандартных сокращений или других искажений — позволяет использовать модель в условиях реальной клинической документации. Наконец, интерпретируемость результатов определяет, насколько прозрачен и понятен процесс принятия моделью решений, что имеет особое значение в контексте медицины, где требуется доверие к автоматизированным системам анализа.

В соответствии с приведенными выше критериями была выполнена сравнительная оценка моделей, с результатами которой можно ознакомиться в таблице 1.

Таблица 1 - Аналитическое сравнение языковых моделей

Модель

Точность

Понимание контекста

Универсальность

Скорость

Устойчивость

Интерпретируемость

Средняя оценка

MedCAT

8

8

9

6

8

7

7,6

ScispaCy

7

8

8

7

7

7

7,3

BioBERT

8

7

7

6

6

5

6,5

GPT-4-Turbo

7

7

8

6

6

3

6,1

GPT-4

8

6

7

5

5

3

5,6

GPT-3.5

6

6

6

6

5

3

5,3

Проведённый анализ показал, что MedCAT является наиболее эффективной моделью для обработки медицинских текстов. Высокая точность извлечения медицинских терминов достигается за счёт комбинированного подхода, сочетающего машинное обучение с использованием специализированных медицинских онтологий, в частности UMLS. Это позволяет модели не только распознавать термины, но и корректно интерпретировать их в контексте, учитывая синонимы, сокращения, аббревиатуры и вариативность формулировок.

Модель демонстрирует хорошую адаптируемость к разным задачам, включая аннотацию, классификацию и нормализацию данных, что делает её универсальным инструментом для решения задач обработки медицинского естественного языка. При этом MedCAT показывает устойчивость к шуму — сохраняет стабильную точность при наличии опечаток и других искажений текста, характерных для реальной клинической документации. Особенно стоит отметить высокий уровень интерпретируемости результатов, что является редкостью для подобных языковых моделей: привязка к понятиям UMLS позволяет пользователю проследить, какие сущности были извлечены и на каких основаниях. Это способствует более широкому и уверенному применению её результатов как в практической, так и в исследовательской деятельностях.

4. Заключение

Сравнительный анализ показал, что эффективность языковых моделей в задачах обработки медицинских текстов существенно зависит от их способности учитывать специфику предметной области. Модель MedCAT, ориентированная на медицинский контекст и интегрированная с UMLS, продемонстрировала оптимальное соотношение точности, скорости, устойчивости к шуму и интерпретируемости. Такие характеристики критически важны для эффективного анализа медицинских данных и последующего использования результатов в программных системах: медицинских информационных системах, системах поддержки принятия решений и т.д.

Полученные результаты подтверждают необходимость применения специализированных решений при работе с медицинской информацией. Универсальные модели могут существенно уступать в ряде ключевых критериев. Это подчёркивает перспективность внедрения таких языковых моделей, как MedCAT и ScispaCy, в системы автоматизированного анализа медицинской информации. А также актуальность дальнейшей разработки и адаптации подобных узконаправленных инструментов в существующие системы с целью повышения их эффективности при решении различных задач обработки информации.

Языковые модели для обработки медицинских текстов продолжают стремительно развиваться, открывая новые возможности для автоматизации и оптимизации различных процессов в здравоохранении. Правильное внедрение таких технологий в реальную практику и системы управления медицинской информацией может значительно повысить точность диагностики, улучшить процессы принятия решений и ускорить обработку данных. Это позволит не только снизить нагрузку на медицинский персонал, но и повысить качество обслуживания пациентов. В дальнейшем подобные инструменты могут стать ключевыми компонентами, необходимыми для создания интеллектуальных медицинских систем, открывающих новые перспективы в области цифровизации системы здравоохранения.

Article metrics

Views:58
Downloads:1
Views
Total:
Views:58