СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ КЛАССИФИКАЦИИ ТЕЛЕФОННЫХ ОБРАЩЕНИЙ: КЛАССИЧЕСКИЕ АЛГОРИТМЫ И ТРАНСФОРМЕРНЫЕ МОДЕЛИ

Научная статья
  • Никулин Дмитрий Андреевич0009-0004-2103-0003Московский авиационный институт (национальный исследовательский университет), Москва, Российская Федерация
  • Офицеров Владимир Петрович0000-0002-8055-3785Московский авиационный институт (национальный исследовательский университет), Москва, Российская Федерация
https://doi.org/10.60797/IRJ.2026.168.15
DOI:
https://doi.org/10.60797/IRJ.2026.168.15
EDN:
MEHDKU
Предложена:
17.04.2026
Принята:
22.05.2026
Опубликована:
17.06.2026
Выпуск: № 6 (168), 2026
Выпуск: № 6 (168), 2026
Правообладатель: авторы. Лицензия: Attribution 4.0 International (CC BY 4.0)
43
1
XML
PDF

Аннотация

В статье представлен сравнительный анализ методов классификации телефонных обращений клиентов на основе текстовых транскриптов. Рассматриваются классические алгоритмы машинного обучения, использующие статистические методы векторизации текста (Bag-of-Words, TF-IDF, n-граммы), а также современные трансформерные модели семейства BERT. Проведено экспериментальное сопоставление подходов по метрикам качества классификации (Precision, Recall, F1-score), вычислительной сложности и пригодности для внедрения в корпоративные тикет-системы. Особое внимание уделено обработке русскоязычных текстов, содержащих ошибки автоматического распознавания речи. Установлено, что трансформерные модели обеспечивают прирост качества классификации до 13,4% по F1-score при существенном увеличении вычислительных затрат. Предложены рекомендации по практическому применению различных классов моделей.

1. Введение

Автоматизация обработки телефонных обращений является важной задачей современных корпоративных информационных систем. Рост нагрузки на контакт-центры требует применения интеллектуальных методов анализа текстовых данных.

Типовой конвейер обработки обращений включает:

– автоматическое распознавание речи;

– формирование текстового транскрипта;

– классификацию обращения;

– маршрутизацию заявки.

Ключевым этапом является классификация, определяющая дальнейшую обработку обращения.

Цель работы — сравнительный анализ классических и нейросетевых методов классификации.

2. Обзор литературы

Задача классификации текстов подробно рассмотрена в фундаментальных работах по обработке естественного языка. В работе Jurafsky и Martin

представлены базовые методы NLP и модели обработки речи.

Методы статистической обработки текста, включая TF-IDF и векторные модели, рассмотрены в

. Применение классических алгоритмов для задач call-центров исследовано в работах
,
,
.

Метод опорных векторов показал высокую эффективность в задачах классификации текста

.

Современные исследования сосредоточены на трансформерных моделях. Модель BERT предложена в работе Devlin и др.

, а её улучшенные версии представлены в
,
,
.

Для многоязычных задач применяются модели XLM-R

. Русскоязычные трансформеры исследованы в
.

Таким образом, современное состояние области характеризуется переходом от классических алгоритмов к глубоким нейросетевым архитектурам.

3. Постановка задачи

Задача формализуется как многоклассовая классификация:

где X — множество текстов, Y — множество классов.

Рассматриваются классы:

– консультация;

– лицензирование;

– доступ к порталу;

– обучение;

– сотрудничество.

4. Методы исследования

4.1. Классические модели

Используются методы векторизации:

– Bag-of-Words.

– TF-IDF.

– n-граммы.

Алгоритмы:

– SVM.

– Naive Bayes.

– Logistic Regression.

– Random Forest.

– Decision Tree.

4.2. Трансформерные модели

Рассматриваются модели:

– ruBERT.

– ruRoBERTa.

– ruELECTRA.

– DeBERTa.

5. Методика эксперимента

Объем датасета — 401 запись.

5.1. Распределение классов

Таблица 1 - Распределение записей по классам

​Класс обращения

​Количество записей, шт

​Сотрудничество

104​

​Лицензирование

94​

Обучение​

​84

Консультация​

​71

Доступ к порталу ​

48​

5.2. Предобработка

Исходные данные представляли собой аудиозаписи телефонных обращений, для которых были получены текстовые транскрипты с использованием системы автоматического распознавания речи (ASR). Полученные тексты приведены к унифицированному виду: выполнены очистка от служебных символов, нормализация регистра, удаление нерелевантных элементов и анонимизация персональных данных, таких как ФИО, номера телефонов, адреса и другие чувствительные данные.

На этапе подготовки данных использовалось разбиение датасета на обучающую и тестовую выборки в соотношении 80/20. Итоговая оценка качества моделей и построение матриц ошибок выполнялись на основе 5-кратной кросс-валидации по полному подготовленному набору данных.

5.3. Метрики

Для оценки качества обученных моделей использовались метрики:

· Precision.

· Recall.

· F1-мера.

· Матрица ошибок (confusion matrix).

5.3. Параметры обучения трансформерных моделей

В таблице 2 приведены параметры, используемые при обучении трансформерных моделей.

Таблица 2 - Параметры обучения трансформерных моделей моделей

​Параметр

​Значение

​Batch size

4​

​Learning rate

​10-6

Оптимизатор​

​AdamW

Max Sequence Length​

512​

​Epochs

​до 100

​Early Stopping

10 эпох​

Подбор параметров носил прикладной характер и был ориентирован на достижение устойчивого качества классификации при ограничениях используемого вычислительного стенда.

Была проведена адаптация следующих моделей:

· mDeBERTa-v3;

· ruBERT-tiny;

· ruRoBERTa-large;

· ruBERT-base-cased;

· xlm-roberta-base;

· ruELECTRA-large;

· ruELECTRA-medium.

5.4. Аппаратные характеристики

Параметры обучения были подобраны в соответствии с техническими характеристиками вычислительной техники, на которой производилось обучение моделей, а также путем ручного подбора. Характеристики тестового стенда приведены в таблице 3.

Таблица 3 - Характеристики вычислительного стенда

​Параметр

​Значение

GPU​

RTX 5060 Ti 16 ГБ

​CPU

Ryzen 5 5600X

RAM​

​16 ГБ

6. Результаты

6.1. Классические методы

Результаты обучения классических алгоритмов представлены в таблице 4.

Таблица 4 - Результаты обучения классических алгоритмов

Модель

F1-score (взвешенное)

Precision

Recall

Время обучения, сек

Время предсказания, мс

TF-IDF + NaiveBayes

0,7915

0,7899

0,7955

0,5

0,153

N-gram(1-3) + SVM

0,7830

0,7833

0,7830

1,4

0,348

TF-IDF + SVM

0,7777

0,7777

0,7781

0,8

0,268

BoW + NaiveBayes

0,7737

0,7780

0,7731

0,2

0,079

TF-IDF + LogReg

0,7702

0,7754

0,7681

4,7

0,262

N-gram(1-3) + LogReg

0,7642

0,7701

0,7631

4,9

0,402

BoW + LogReg

0,6757

0,6802

0,6758

17,6

0,119

BoW + RandomForest

0,6620

0,6932

0,6683

1,3

0,522

BoW + SVM

0,6564

0,6600

0,6559

0,2

0,086

TF-IDF + RandomForest

0,6514

0,6752

0,6559

1,7

0,608

BoW + DecisionTree

0,5944

0,6024

0,5910

0,3

0,086

TF-IDF + DecisionTree

0,5672

0,5666

0,5686

0,7

0,169

N-gram(1-3) + DecisionTree

0,5610

0,5592

0,5636

1,4

0,232

Наилучшие результаты по F1-мере продемонстрировал наивный Байесовский классификатор в сочетании с признаковым представлением текста на основе TF-IDF, достигнув значения F1=0,7915.

Матрица ошибок представлена на рисунке 1.

Матрица ошибок модели Naive Bayes с признаковым представлением TF-IDF

Рисунок 1 - Матрица ошибок модели Naive Bayes с признаковым представлением TF-IDF

Гистограмма сравнения классических алгоритмов машинного обучения приведена на рисунке 2.
Сравнение классических моделей по F1-score и времени предсказания

Рисунок 2 - Сравнение классических моделей по F1-score и времени предсказания

Вывод: классические алгоритмы машинного обучения демонстрируют приемлемую точность и стабильные результаты в задаче классификации, обладая при этом высокой скоростью работы

6.2. Трансформерные модели

Таблица 5 - Результаты обучения трансформерных моделей

Модель

F1-score (взвешенное)

Precision

Recall

Время обучения, с

Время предсказания, мс

XLM-RoBERTa

0,8978

0,8984

0,8978

473,7

3,613

ruRoBERTa-large

0,8881

0,8888

0,8878

1474,0

10,999

RuBERT-tiny

0,8651

0,8665

0,8653

588,7

1,536

RuBERT

0,8605

0,8607

0,8603

604,5

3,574

ruELECTRA-large

0,8558

0,8567

0,8554

1662,3

17,596

mDeBERTa-v3

0,8303

0,8310

0,8304

1786,7

11,510

ruELECTRA-medium

0,7518

0,7503

0,7556

1032,8

4,098

По сравнению с лучшей классической моделью (наивный байесовский классификатор в сочетании с признаковым представлением текста на основе TF-IDF, F1 = 0,7915) модель XLM-RoBERTa повысила значение F1-взвешенного показателя до 0,8978, что соответствует приросту примерно на 13,4%. Матрица ошибок представлена на рисунке 3.

Матрица ошибок для модели XLM-RoBERTa

Рисунок 3 - Матрица ошибок для модели XLM-RoBERTa

Гистограмма сравнения моделей по метрике F1 и времени предсказания приведена на рисунке 4.
Гистограмма сравнения трансформерных моделей по метрике F1 и времени предсказания

Рисунок 4 - Гистограмма сравнения трансформерных моделей по метрике F1 и времени предсказания

Вывод: использование трансформерных архитектур обеспечивает прирост качества классификации по сравнению с классическими алгоритмами машинного обучения (прирост качества ≈ + 13,4%).

7. Обсуждение

Результаты демонстрируют компромисс между качеством и вычислительной сложностью.

Классические методы обеспечивают высокую скорость работы при умеренной точности.

Трансформерные модели показывают прирост качества (~13,4%), но требуют существенно больших ресурсов. График с фронтом Парето представлен на рисунке 5.

Сравнение моделей по качеству классификации и времени предсказания с выделением границы Парето

Рисунок 5 - Сравнение моделей по качеству классификации и времени предсказания с выделением границы Парето

По результатам сравнительного анализа установлено, что классические методы машинного обучения обеспечивают приемлемое качество классификации при значительно меньших вычислительных затратах.

Трансформерные модели демонстрируют более высокие значения F1-score за счет учета контекстных зависимостей и устойчивости к вариативности формулировок обращений, при этом рост качества сопровождается увеличением вычислительных затрат: если для лучшей классической модели время предсказания составляет 0,153 мс на запись, то для XLM-RoBERTa — 3,613 мс, то есть примерно в 23 раза выше. Полученные данные согласуются с современными исследованиями

,
,
,
.

8. Практическая применимость

На основании результатов эксперимента предлагается гибридный подход к построению архитектур: в качестве базового решения (baseline) могут применяться быстрые и вычислительно эффективные алгоритмы, такие как, например, логистическая регрессия, или метод опорных векторов. В качестве основного классификатора целесообразно применять трансформерную модель.

Для систем реального времени, работающих с большим потоком обращений, классические методы могут использоваться как базовый или резервный контур классификации.

Трансформерные модели целесообразно применять в качестве основного механизма интеллектуальной маршрутизации обращений при наличии достаточных вычислительных ресурсов.

9. Заключение

Проведённый в статье сравнительный анализ классических алгоритмов машинного обучения и современных трансформерных моделей для задачи классификации телефонных обращений в корпоративных тикет-системах подтвердил выдвинутую гипотезу о более высоком качестве классификации, обеспечиваемом трансформерными моделями.

По результатам эксперимента установлено, что классические методы машинного обучения характеризуются меньшей вычислительной сложностью, более высокой скоростью работы и сохраняют практическую актуальность в условиях ограниченных вычислительных ресурсов. Трансформерные модели демонстрируют более высокие значения метрик качества, что делает их предпочтительными для задач, в которых приоритетом является точность классификации.

Ограничения: эксперимент проведен на малом датасете из 401 записи, поэтому дальнейшие исследования целесообразно проводить на более крупных и разнообразных корпусах телефонных обращений.

Перспективы:

– увеличение выборки;

– использование ансамблей;

– учет ошибок ASR.

Метрика статьи

Просмотров:43
Скачиваний:1
Просмотры
Всего:
Просмотров:43