<?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE article PUBLIC "-//NLM/DTD JATS (Z39.96) Journal Publishing DTD v1.2 20120330//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
    <!--<?xml-stylesheet type="text/xsl" href="article.xsl">-->
<article xmlns:ns0="http://www.w3.org/1999/xlink" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.2" xml:lang="en">
	<front>
		<journal-meta>
			<journal-id journal-id-type="issn">2303-9868</journal-id>
			<journal-id journal-id-type="eissn">2227-6017</journal-id>
			<journal-title-group>
				<journal-title>Международный научно-исследовательский журнал</journal-title>
			</journal-title-group>
			<issn pub-type="epub">2303-9868</issn>
			<publisher>
				<publisher-name>ООО Цифра</publisher-name>
			</publisher>
		</journal-meta>
		<article-meta>
			<article-id pub-id-type="doi">10.60797/IRJ.2026.168.15</article-id>
			<article-categories>
				<subj-group>
					<subject>Brief communication</subject>
				</subj-group>
			</article-categories>
			<title-group>
				<article-title>СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ КЛАССИФИКАЦИИ ТЕЛЕФОННЫХ ОБРАЩЕНИЙ: КЛАССИЧЕСКИЕ АЛГОРИТМЫ И ТРАНСФОРМЕРНЫЕ МОДЕЛИ</article-title>
			</title-group>
			<contrib-group>
				<contrib contrib-type="author" corresp="yes">
					<contrib-id contrib-id-type="orcid">https://orcid.org/0009-0004-2103-0003</contrib-id>
					<name>
						<surname>Никулин</surname>
						<given-names>Дмитрий Андреевич</given-names>
					</name>
					<email>nikulas.nikulin@yandex.ru</email>
					<xref ref-type="aff" rid="aff-1">1</xref>
				</contrib>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="orcid">https://orcid.org/0000-0002-8055-3785</contrib-id>
					<name>
						<surname>Офицеров</surname>
						<given-names>Владимир Петрович</given-names>
					</name>
					<email>ovp45@mail.ru</email>
					<xref ref-type="aff" rid="aff-1">1</xref>
				</contrib>
			</contrib-group>
			<aff id="aff-1">
				<label>1</label>
				<institution>Московский авиационный институт (национальный исследовательский университет)</institution>
			</aff>
			<pub-date publication-format="electronic" date-type="pub" iso-8601-date="2026-06-17">
				<day>17</day>
				<month>06</month>
				<year>2026</year>
			</pub-date>
			<pub-date pub-type="collection">
				<year>2026</year>
			</pub-date>
			<volume>7</volume>
			<issue>168</issue>
			<fpage>1</fpage>
			<lpage>7</lpage>
			<history>
				<date date-type="received" iso-8601-date="2026-04-17">
					<day>17</day>
					<month>04</month>
					<year>2026</year>
				</date>
				<date date-type="accepted" iso-8601-date="2026-05-22">
					<day>22</day>
					<month>05</month>
					<year>2026</year>
				</date>
			</history>
			<permissions>
				<copyright-statement>Copyright: &amp;#x00A9; 2022 The Author(s)</copyright-statement>
				<copyright-year>2022</copyright-year>
				<license license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
					<license-p>
						This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See 
						<uri xlink:href="http://creativecommons.org/licenses/by/4.0/">http://creativecommons.org/licenses/by/4.0/</uri>
					</license-p>
					.
				</license>
			</permissions>
			<self-uri xlink:href="https://research-journal.org/archive/6-168-2026-june/10.60797/IRJ.2026.168.15"/>
			<abstract>
				<p>В статье представлен сравнительный анализ методов классификации телефонных обращений клиентов на основе текстовых транскриптов. Рассматриваются классические алгоритмы машинного обучения, использующие статистические методы векторизации текста (Bag-of-Words, TF-IDF, n-граммы), а также современные трансформерные модели семейства BERT. Проведено экспериментальное сопоставление подходов по метрикам качества классификации (Precision, Recall, F1-score), вычислительной сложности и пригодности для внедрения в корпоративные тикет-системы. Особое внимание уделено обработке русскоязычных текстов, содержащих ошибки автоматического распознавания речи. Установлено, что трансформерные модели обеспечивают прирост качества классификации до 13,4% по F1-score при существенном увеличении вычислительных затрат. Предложены рекомендации по практическому применению различных классов моделей.</p>
			</abstract>
			<kwd-group>
				<kwd>классификация текста</kwd>
				<kwd> телефонные обращения</kwd>
				<kwd> машинное обучение</kwd>
				<kwd> трансформеры</kwd>
				<kwd> BERT</kwd>
				<kwd> SVM</kwd>
				<kwd> тикет-система</kwd>
				<kwd> NLP</kwd>
			</kwd-group>
		</article-meta>
	</front>
	<body>
		<sec>
			<title>HTML-content</title>
			<p>1. Введение</p>
			<p>Автоматизация обработки телефонных обращений является важной задачей современных корпоративных информационных систем. Рост нагрузки на контакт-центры требует применения интеллектуальных методов анализа текстовых данных.</p>
			<p>Типовой конвейер обработки обращений включает: </p>
			<p>– автоматическое распознавание речи; </p>
			<p>– формирование текстового транскрипта; </p>
			<p>– классификацию обращения; </p>
			<p>– маршрутизацию заявки.</p>
			<p>Ключевым этапом является классификация, определяющая дальнейшую обработку обращения.</p>
			<p>Цель работы — сравнительный анализ классических и нейросетевых методов классификации.</p>
			<p>2. Обзор литературы</p>
			<p>Задача классификации текстов подробно рассмотрена в фундаментальных работах по обработке естественного языка. В работе Jurafsky и Martin [1] представлены базовые методы NLP и модели обработки речи.</p>
			<p>Методы статистической обработки текста, включая TF-IDF и векторные модели, рассмотрены в [2]. Применение классических алгоритмов для задач call-центров исследовано в работах [3], [4], [5].</p>
			<p>Метод опорных векторов показал высокую эффективность в задачах классификации текста [6].</p>
			<p>Современные исследования сосредоточены на трансформерных моделях. Модель BERT предложена в работе Devlin и др. [7], а её улучшенные версии представлены в [8], [9], [10].</p>
			<p>Для многоязычных задач применяются модели XLM-R [11]. Русскоязычные трансформеры исследованы в [12].</p>
			<p>Таким образом, современное состояние области характеризуется переходом от классических алгоритмов к глубоким нейросетевым архитектурам.</p>
			<p>3. Постановка задачи</p>
			<p>Задача формализуется как многоклассовая классификация:</p>
			<p>[LATEX_FORMULA]f: X \rightarrow Y[/LATEX_FORMULA]</p>
			<p>где X — множество текстов, Y — множество классов.</p>
			<p> </p>
			<p>Рассматриваются классы:</p>
			<p>– консультация; </p>
			<p>– лицензирование; </p>
			<p>– доступ к порталу; </p>
			<p>– обучение; </p>
			<p>– сотрудничество.</p>
			<p>4. Методы исследования</p>
			<p>Используются методы векторизации: </p>
			<p>– Bag-of-Words.</p>
			<p>– TF-IDF.</p>
			<p>– n-граммы.</p>
			<p>Алгоритмы: </p>
			<p>– SVM.</p>
			<p>– Naive Bayes.</p>
			<p>– Logistic Regression.</p>
			<p>– Random Forest.</p>
			<p>– Decision Tree.</p>
			<p>Рассматриваются модели: </p>
			<p>– ruBERT.</p>
			<p>– ruRoBERTa.</p>
			<p>– ruELECTRA.</p>
			<p>– DeBERTa.</p>
			<p>5. Методика эксперимента</p>
			<p>Объем датасета — 401 запись.</p>
			<table-wrap id="T1">
				<label>Table 1</label>
				<caption>
					<p>Распределение записей по классам</p>
				</caption>
				<table>
					<tr>
						<td>​Класс обращения</td>
						<td>​Количество записей, шт</td>
					</tr>
					<tr>
						<td>​Сотрудничество</td>
						<td>104​</td>
					</tr>
					<tr>
						<td>​Лицензирование</td>
						<td>94​</td>
					</tr>
					<tr>
						<td>Обучение​</td>
						<td>​84</td>
					</tr>
					<tr>
						<td>Консультация​</td>
						<td>​71</td>
					</tr>
					<tr>
						<td>Доступ к порталу ​</td>
						<td>48​</td>
					</tr>
				</table>
			</table-wrap>
			<p>Исходные данные представляли собой аудиозаписи телефонных обращений, для которых были получены текстовые транскрипты с использованием системы автоматического распознавания речи (ASR). Полученные тексты приведены к унифицированному виду: выполнены очистка от служебных символов, нормализация регистра, удаление нерелевантных элементов и анонимизация персональных данных, таких как ФИО, номера телефонов, адреса и другие чувствительные данные.</p>
			<p>На этапе подготовки данных использовалось разбиение датасета на обучающую и тестовую выборки в соотношении 80/20. Итоговая оценка качества моделей и построение матриц ошибок выполнялись на основе 5-кратной кросс-валидации по полному подготовленному набору данных.</p>
			<p>Для оценки качества обученных моделей использовались метрики:</p>
			<p>· Precision.</p>
			<p>· Recall.</p>
			<p>· F1-мера.</p>
			<p>· Матрица ошибок (confusion matrix).</p>
			<p>В таблице 2 приведены параметры, используемые при обучении трансформерных моделей.</p>
			<table-wrap id="T2">
				<label>Table 2</label>
				<caption>
					<p>Параметры обучения трансформерных моделей моделей</p>
				</caption>
				<table>
					<tr>
						<td>​Параметр</td>
						<td>​Значение</td>
					</tr>
					<tr>
						<td>​Batch size</td>
						<td>4​</td>
					</tr>
					<tr>
						<td>​Learning rate</td>
						<td>5×</td>
					</tr>
					<tr>
						<td>Оптимизатор​</td>
						<td>​AdamW</td>
					</tr>
					<tr>
						<td>Max Sequence Length​</td>
						<td>512​</td>
					</tr>
					<tr>
						<td>​Epochs</td>
						<td>​до 100</td>
					</tr>
					<tr>
						<td>​Early Stopping</td>
						<td>10 эпох​</td>
					</tr>
				</table>
			</table-wrap>
			<p>Подбор параметров носил прикладной характер и был ориентирован на достижение устойчивого качества классификации при ограничениях используемого вычислительного стенда.</p>
			<p>Была проведена адаптация следующих моделей:</p>
			<p>· mDeBERTa-v3;</p>
			<p>· ruBERT-tiny;</p>
			<p>· ruRoBERTa-large;</p>
			<p>· ruBERT-base-cased;</p>
			<p>· xlm-roberta-base;</p>
			<p>· ruELECTRA-large;</p>
			<p>· ruELECTRA-medium.</p>
			<p>Параметры обучения были подобраны в соответствии с техническими характеристиками вычислительной техники, на которой производилось обучение моделей, а также путем ручного подбора. Характеристики тестового стенда приведены в таблице 3.</p>
			<table-wrap id="T3">
				<label>Table 3</label>
				<caption>
					<p>Характеристики вычислительного стенда</p>
				</caption>
				<table>
					<tr>
						<td>​Параметр</td>
						<td>​Значение</td>
					</tr>
					<tr>
						<td>GPU​</td>
						<td>RTX 5060 Ti 16 ГБ </td>
					</tr>
					<tr>
						<td>​CPU</td>
						<td>Ryzen 5 5600X</td>
					</tr>
					<tr>
						<td>RAM​</td>
						<td>​16 ГБ</td>
					</tr>
				</table>
			</table-wrap>
			<p>6. Результаты</p>
			<p>Результаты обучения классических алгоритмов представлены в таблице 4.</p>
			<table-wrap id="T4">
				<label>Table 4</label>
				<caption>
					<p>Результаты обучения классических алгоритмов </p>
				</caption>
				<table>
					<tr>
						<td>Модель</td>
						<td>F1-score (взвешенное)</td>
						<td>Precision</td>
						<td>Recall</td>
						<td>Время обучения, сек</td>
						<td>Время предсказания, мс</td>
					</tr>
					<tr>
						<td>TF-IDF + NaiveBayes</td>
						<td>0,7915</td>
						<td>0,7899</td>
						<td>0,7955</td>
						<td>0,5</td>
						<td>0,153</td>
					</tr>
					<tr>
						<td>N-gram(1-3) + SVM</td>
						<td>0,7830</td>
						<td>0,7833</td>
						<td>0,7830</td>
						<td>1,4</td>
						<td>0,348</td>
					</tr>
					<tr>
						<td>TF-IDF + SVM</td>
						<td>0,7777</td>
						<td>0,7777</td>
						<td>0,7781</td>
						<td>0,8</td>
						<td>0,268</td>
					</tr>
					<tr>
						<td>BoW + NaiveBayes</td>
						<td>0,7737</td>
						<td>0,7780</td>
						<td>0,7731</td>
						<td>0,2</td>
						<td>0,079</td>
					</tr>
					<tr>
						<td>TF-IDF + LogReg</td>
						<td>0,7702</td>
						<td>0,7754</td>
						<td>0,7681</td>
						<td>4,7</td>
						<td>0,262</td>
					</tr>
					<tr>
						<td>N-gram(1-3) + LogReg</td>
						<td>0,7642</td>
						<td>0,7701</td>
						<td>0,7631</td>
						<td>4,9</td>
						<td>0,402</td>
					</tr>
					<tr>
						<td>BoW + LogReg</td>
						<td>0,6757</td>
						<td>0,6802</td>
						<td>0,6758</td>
						<td>17,6</td>
						<td>0,119</td>
					</tr>
					<tr>
						<td>BoW + RandomForest</td>
						<td>0,6620</td>
						<td>0,6932</td>
						<td>0,6683</td>
						<td>1,3</td>
						<td>0,522</td>
					</tr>
					<tr>
						<td>BoW + SVM</td>
						<td>0,6564</td>
						<td>0,6600</td>
						<td>0,6559</td>
						<td>0,2</td>
						<td>0,086</td>
					</tr>
					<tr>
						<td>TF-IDF + RandomForest</td>
						<td>0,6514</td>
						<td>0,6752</td>
						<td>0,6559</td>
						<td>1,7</td>
						<td>0,608</td>
					</tr>
					<tr>
						<td>BoW + DecisionTree</td>
						<td>0,5944</td>
						<td>0,6024</td>
						<td>0,5910</td>
						<td>0,3</td>
						<td>0,086</td>
					</tr>
					<tr>
						<td>TF-IDF + DecisionTree</td>
						<td>0,5672</td>
						<td>0,5666</td>
						<td>0,5686</td>
						<td>0,7</td>
						<td>0,169</td>
					</tr>
					<tr>
						<td>N-gram(1-3) + DecisionTree</td>
						<td>0,5610</td>
						<td>0,5592</td>
						<td>0,5636</td>
						<td>1,4</td>
						<td>0,232</td>
					</tr>
				</table>
			</table-wrap>
			<p>Наилучшие результаты по F1-мере продемонстрировал наивный Байесовский классификатор в сочетании с признаковым представлением текста на основе TF-IDF, достигнув значения F1=0,7915.</p>
			<p>Матрица ошибок представлена на рисунке 1.</p>
			<fig id="F1">
				<label>Figure 1</label>
				<caption>
					<p>Матрица ошибок модели Naive Bayes с признаковым представлением TF-IDF</p>
				</caption>
				<alt-text>Матрица ошибок модели Naive Bayes с признаковым представлением TF-IDF</alt-text>
				<graphic ns0:href="/media/images/2026-04-17/13e01ea7-b4b9-4f68-8b08-dd0ef0b3dae5.png"/>
			</fig>
			<p>Гистограмма сравнения классических алгоритмов машинного обучения приведена на рисунке 2.</p>
			<fig id="F2">
				<label>Figure 2</label>
				<caption>
					<p>Сравнение классических моделей по F1-score и времени предсказания</p>
				</caption>
				<alt-text>Сравнение классических моделей по F1-score и времени предсказания</alt-text>
				<graphic ns0:href="/media/images/2026-04-17/495c8ca8-b79e-4270-9e6e-c313fb28b2fb.png"/>
			</fig>
			<p>Вывод: классические алгоритмы машинного обучения демонстрируют приемлемую точность и стабильные результаты в задаче классификации, обладая при этом высокой скоростью работы</p>
			<table-wrap id="T5">
				<label>Table 5</label>
				<caption>
					<p>Результаты обучения трансформерных моделей</p>
				</caption>
				<table>
					<tr>
						<td>Модель</td>
						<td>F1-score (взвешенное)</td>
						<td>Precision</td>
						<td>Recall</td>
						<td>Время обучения, с</td>
						<td>Время предсказания, мс</td>
					</tr>
					<tr>
						<td>XLM-RoBERTa</td>
						<td>0,8978</td>
						<td>0,8984</td>
						<td>0,8978</td>
						<td>473,7</td>
						<td>3,613</td>
					</tr>
					<tr>
						<td>ruRoBERTa-large</td>
						<td>0,8881</td>
						<td>0,8888</td>
						<td>0,8878</td>
						<td>1474,0</td>
						<td>10,999</td>
					</tr>
					<tr>
						<td>RuBERT-tiny</td>
						<td>0,8651</td>
						<td>0,8665</td>
						<td>0,8653</td>
						<td>588,7</td>
						<td>1,536</td>
					</tr>
					<tr>
						<td>RuBERT</td>
						<td>0,8605</td>
						<td>0,8607</td>
						<td>0,8603</td>
						<td>604,5</td>
						<td>3,574</td>
					</tr>
					<tr>
						<td>ruELECTRA-large</td>
						<td>0,8558</td>
						<td>0,8567</td>
						<td>0,8554</td>
						<td>1662,3</td>
						<td>17,596</td>
					</tr>
					<tr>
						<td>mDeBERTa-v3</td>
						<td>0,8303</td>
						<td>0,8310</td>
						<td>0,8304</td>
						<td>1786,7</td>
						<td>11,510</td>
					</tr>
					<tr>
						<td>ruELECTRA-medium</td>
						<td>0,7518</td>
						<td>0,7503</td>
						<td>0,7556</td>
						<td>1032,8</td>
						<td>4,098</td>
					</tr>
				</table>
			</table-wrap>
			<p>По сравнению с лучшей классической моделью (наивный байесовский классификатор в сочетании с признаковым представлением текста на основе TF-IDF, F1 = 0,7915) модель XLM-RoBERTa повысила значение F1-взвешенного показателя до 0,8978, что соответствует приросту примерно на 13,4%.Матрица ошибок представлена на рисунке 3.</p>
			<fig id="F3">
				<label>Figure 3</label>
				<caption>
					<p>Матрица ошибок для модели XLM-RoBERTa</p>
				</caption>
				<alt-text>Матрица ошибок для модели XLM-RoBERTa</alt-text>
				<graphic ns0:href="/media/images/2026-04-17/09f8746c-e60f-4fc7-9b3a-90887be0b454.png"/>
			</fig>
			<p>Гистограмма сравнения моделей по метрике F1 и времени предсказания приведена на рисунке 4.</p>
			<fig id="F4">
				<label>Figure 4</label>
				<caption>
					<p>Гистограмма сравнения трансформерных моделей по метрике F1 и времени предсказания</p>
				</caption>
				<alt-text>Гистограмма сравнения трансформерных моделей по метрике F1 и времени предсказания</alt-text>
				<graphic ns0:href="/media/images/2026-04-17/9f5468ce-7cb5-4591-b73a-de2f8d2b8782.png"/>
			</fig>
			<p>Вывод: использование трансформерных архитектур обеспечивает прирост качества классификации по сравнению с классическими алгоритмами машинного обучения (прирост качества ≈ + 13,4%).</p>
			<p>7. Обсуждение</p>
			<p>Результаты демонстрируют компромисс между качеством и вычислительной сложностью.</p>
			<p>Классические методы обеспечивают высокую скорость работы при умеренной точности.</p>
			<p>Трансформерные модели показывают прирост качества (~13,4%), но требуют существенно больших ресурсов. График с фронтом Парето представлен на рисунке 5.</p>
			<fig id="F5">
				<label>Figure 5</label>
				<caption>
					<p>Сравнение моделей по качеству классификации и времени предсказания с выделением границы Парето</p>
				</caption>
				<alt-text>Сравнение моделей по качеству классификации и времени предсказания с выделением границы Парето</alt-text>
				<graphic ns0:href="/media/images/2026-04-17/abcb5e41-f0e8-4d91-97d9-db13a9347088.png"/>
			</fig>
			<p>По результатам сравнительного анализа установлено, что классические методы машинного обучения обеспечивают приемлемое качество классификации при значительно меньших вычислительных затратах.</p>
			<p>Трансформерные модели демонстрируют более высокие значения F1-score за счет учета контекстных зависимостей и устойчивости к вариативности формулировок обращений, при этом рост качества сопровождается увеличением вычислительных затрат: если для лучшей классической модели время предсказания составляет 0,153 мс на запись, то для XLM-RoBERTa — 3,613 мс, то есть примерно в 23 раза выше. Полученные данные согласуются с современными исследованиями [9], [10], [11], [12].</p>
			<p>8. Практическая применимость</p>
			<p>На основании результатов эксперимента предлагается гибридный подход к построению архитектур: в качестве базового решения (baseline) могут применяться быстрые и вычислительно эффективные алгоритмы, такие как, например, логистическая регрессия, или метод опорных векторов. В качестве основного классификатора целесообразно применять трансформерную модель.</p>
			<p>Для систем реального времени, работающих с большим потоком обращений, классические методы могут использоваться как базовый или резервный контур классификации.</p>
			<p>Трансформерные модели целесообразно применять в качестве основного механизма интеллектуальной маршрутизации обращений при наличии достаточных вычислительных ресурсов.</p>
			<p>9. Заключение</p>
			<p>Проведённый в статье сравнительный анализ классических алгоритмов машинного обучения и современных трансформерных моделей для задачи классификации телефонных обращений в корпоративных тикет-системах подтвердил выдвинутую гипотезу о более высоком качестве классификации, обеспечиваемом трансформерными моделями.</p>
			<p>По результатам эксперимента установлено, что классические методы машинного обучения характеризуются меньшей вычислительной сложностью, более высокой скоростью работы и сохраняют практическую актуальность в условиях ограниченных вычислительных ресурсов. Трансформерные модели демонстрируют более высокие значения метрик качества, что делает их предпочтительными для задач, в которых приоритетом является точность классификации.</p>
			<p> </p>
			<p>Ограничения: эксперимент проведен на малом датасете из 401 записи, поэтому дальнейшие исследования целесообразно проводить на более крупных и разнообразных корпусах телефонных обращений.</p>
			<p> </p>
			<p>Перспективы: </p>
			<p>– увеличение выборки; </p>
			<p>– использование ансамблей; </p>
			<p>– учет ошибок ASR.</p>
		</sec>
		<sec sec-type="supplementary-material">
			<title>Additional File</title>
			<p>The additional file for this article can be found as follows:</p>
			<supplementary-material xmlns:xlink="http://www.w3.org/1999/xlink" id="S1" xlink:href="https://doi.org/10.5334/cpsy.78.s1">
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/24988.docx">24988.docx</inline-supplementary-material>]-->
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/24988.pdf">24988.pdf</inline-supplementary-material>]-->
				<label>Online Supplementary Material</label>
				<caption>
					<p>
						Further description of analytic pipeline and patient demographic information. DOI:
						<italic>
							<uri>https://doi.org/10.60797/IRJ.2026.168.15</uri>
						</italic>
					</p>
				</caption>
			</supplementary-material>
		</sec>
	</body>
	<back>
		<ack>
			<title>Acknowledgements</title>
			<p/>
		</ack>
		<sec>
			<title>Competing Interests</title>
			<p/>
		</sec>
		<ref-list>
			<ref id="B1">
				<label>1</label>
				<mixed-citation publication-type="confproc">Jurafsky D. Speech and Language Processing / D. Jurafsky, J. Martin — Stanford: Stanford University, 2026. — 600 с. — URL: https://web.stanford.edu/~jurafsky/slp3/ (дата обращения: 15.04.2026) [in English]</mixed-citation>
			</ref>
			<ref id="B2">
				<label>2</label>
				<mixed-citation publication-type="confproc">Manning C.D. Introduction to Information Retrieval / C.D. Manning, P. Raghavan, H. Schütze — Cambridge: Cambridge University Press, 2008. — 506 с. [in English]</mixed-citation>
			</ref>
			<ref id="B3">
				<label>3</label>
				<mixed-citation publication-type="confproc">Busemann S.. Message classification in call centers / S. Busemann, S. Schmeier, R. Arens // Proceedings of the Sixth Conference on Applied Natural Language Processing; — Seattle: Association for Computational Linguistics, 2000. — с. 158–165. [in English]</mixed-citation>
			</ref>
			<ref id="B4">
				<label>4</label>
				<mixed-citation publication-type="confproc">Haffner P.. Optimizing SVMs for complex call classification / P. Haffner, G. Tür, J. Wright // Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing; — Hong Kong: IEEE, 2003. — с. 632–635. [in English]</mixed-citation>
			</ref>
			<ref id="B5">
				<label>5</label>
				<mixed-citation publication-type="confproc">Malik S. Classification of Call Transcriptions / S. Malik, M. Idrees, H.M. Danish, A. Ahmad, S. Khalid, S. Shahzad // VAWKUM Transactions on Computer Sciences. — 2023. — Vol. 11, No. 2. — с. 1–17. [in English]</mixed-citation>
			</ref>
			<ref id="B6">
				<label>6</label>
				<mixed-citation publication-type="confproc">Joachims T.. Text Categorization with Support Vector Machines / T. Joachims // Proceedings of the European Conference on Machine Learning; — Chemnitz: Springer, 1998. — с. 137–142. DOI: 10.1007/BFb0026683. [in English]</mixed-citation>
			</ref>
			<ref id="B7">
				<label>7</label>
				<mixed-citation publication-type="confproc">Devlin J.. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / J. Devlin, M.W. Chang, K. Lee, K. Toutanova // Proceedings of NAACL; — Minneapolis: ACL, 2019. — с. 4171–4186. DOI: 10.18653/v1/N19-1423. [in English]</mixed-citation>
			</ref>
			<ref id="B8">
				<label>8</label>
				<mixed-citation publication-type="confproc">Liu Y. RoBERTa: A Robustly Optimized BERT Pretraining Approach / Y. Liu, M. Ott, N. Goyal [et al.] // arXiv. — 2019. — URL: https://arxiv.org/abs/1907.11692 (accessed: 15.04.2026).</mixed-citation>
			</ref>
			<ref id="B9">
				<label>9</label>
				<mixed-citation publication-type="confproc">He P. DeBERTa: Decoding-enhanced BERT with Disentangled Attention / P. He, X. Liu, J. Gao [et al.] // arXiv. — 2020. — URL: https://arxiv.org/abs/2006.03654 (accessed: 15.04.2026).</mixed-citation>
			</ref>
			<ref id="B10">
				<label>10</label>
				<mixed-citation publication-type="confproc">Clark K.. ELECTRA: Pre-training Text Encoders as Discriminators Rather than Generators / K. Clark, M.T. Luong, Q.V. Le, C.D. Manning // Proceedings of ICLR; — Addis Ababa: ICLR, 2020. — с. 1–18. [in English]</mixed-citation>
			</ref>
			<ref id="B11">
				<label>11</label>
				<mixed-citation publication-type="confproc">Conneau A.. Unsupervised Cross-lingual Representation Learning at Scale / A. Conneau, K. Khandelwal, N. Goyal, V. Chaudhary, G. Wenzek, F. Guzmán, E. Grave, M. Ott, L. Zettlemoyer, V. Stoyanov // Proceedings of ACL; — Online: ACL, 2020. — с. 8440–8451. DOI: 10.18653/v1/2020.acl-main.747. [in English]</mixed-citation>
			</ref>
			<ref id="B12">
				<label>12</label>
				<mixed-citation publication-type="confproc">Zmitrovich D.. A Family of Pretrained Transformer Language Models for Russian / D. Zmitrovich , A. Abramov, A. Kalmykov, M. Tikhonova, E. Taktasheva, D. Astafurov, M. Baushenko, A. Snegirev, V. Kadulin, S. Markov, T. Shavrina, V. Mikhailov, A. Fenogenova // Computational Linguistics and Intellectual Technologies; — Moscow: RSUH, 2024. — с. 507–524. [in English]</mixed-citation>
			</ref>
		</ref-list>
	</back>
	<fundings/>
</article>