<?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE article PUBLIC "-//NLM/DTD JATS (Z39.96) Journal Publishing DTD v1.2 20120330//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
    <!--<?xml-stylesheet type="text/xsl" href="article.xsl">-->
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:ns1="http://www.w3.org/1999/xlink" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.2" xml:lang="en">
	<front>
		<journal-meta>
			<journal-id journal-id-type="issn">2303-9868</journal-id>
			<journal-id journal-id-type="eissn">2227-6017</journal-id>
			<journal-title-group>
				<journal-title>Международный научно-исследовательский журнал</journal-title>
			</journal-title-group>
			<issn pub-type="epub">2303-9868</issn>
			<publisher>
				<publisher-name>ООО Цифра</publisher-name>
			</publisher>
		</journal-meta>
		<article-meta>
			<article-id pub-id-type="doi">10.60797/IRJ.2026.165.54</article-id>
			<article-categories>
				<subj-group>
					<subject>Brief communication</subject>
				</subj-group>
			</article-categories>
			<title-group>
				<article-title>ИСПОЛЬЗОВАНИЕ TF-IDF ДЛЯ ВЫЯВЛЕНИЯ ДУБЛИКАТОВ И ПЛАГИАТА В ТЕКСТОВЫХ КОЛЛЕКЦИЯХ</article-title>
			</title-group>
			<contrib-group>
				<contrib contrib-type="author" corresp="yes">
					<contrib-id contrib-id-type="orcid">https://orcid.org/0009-0003-1950-4057</contrib-id>
					<contrib-id contrib-id-type="rid">https://publons.com/researcher/PII-2199-2026</contrib-id>
					<name>
						<surname>Фурман</surname>
						<given-names>Святослав Игоревич</given-names>
					</name>
					<email>safemodre@gmail.com</email>
					<xref ref-type="aff" rid="aff-1">1</xref>
				</contrib>
			</contrib-group>
			<aff id="aff-1">
				<label>1</label>
				<institution>Сбер</institution>
			</aff>
			<pub-date publication-format="electronic" date-type="pub" iso-8601-date="2026-03-17">
				<day>17</day>
				<month>03</month>
				<year>2026</year>
			</pub-date>
			<pub-date pub-type="collection">
				<year>2026</year>
			</pub-date>
			<volume>5</volume>
			<issue>165</issue>
			<fpage>1</fpage>
			<lpage>5</lpage>
			<history>
				<date date-type="received" iso-8601-date="2026-01-30">
					<day>30</day>
					<month>01</month>
					<year>2026</year>
				</date>
				<date date-type="accepted" iso-8601-date="2026-03-10">
					<day>10</day>
					<month>03</month>
					<year>2026</year>
				</date>
			</history>
			<permissions>
				<copyright-statement>Copyright: &amp;#x00A9; 2022 The Author(s)</copyright-statement>
				<copyright-year>2022</copyright-year>
				<license license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
					<license-p>
						This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See 
						<uri xlink:href="http://creativecommons.org/licenses/by/4.0/">http://creativecommons.org/licenses/by/4.0/</uri>
					</license-p>
					.
				</license>
			</permissions>
			<self-uri xlink:href="https://research-journal.org/archive/3-165-2026-march/10.60797/IRJ.2026.165.54"/>
			<abstract>
				<p>В статье рассматривается применение метода взвешивания терминов TF-IDF (term frequency–inverse document frequency) для выявления дубликатов и текстовых заимствований в больших коллекциях документов. Цель работы — описать воспроизводимый конвейер (pipeline) обнаружения повторов и плагиата, основанный на TF-IDF-представлении документов и измерении их близости, а также определить границы применимости подхода. Показано, что TF-IDF в сочетании с косинусной мерой сходства обеспечивает высокую точность при поиске точных и «почти точных» копий, а при переходе к перефразированным заимствованиям требует усиления за счёт символьных n-грамм, скользящих окон по фрагментам и процедур кандидатного отбора. Предложена практическая схема двухэтапного поиска: быстрый отбор кандидатов по индексируемым признакам и приближённым методам поиска близких документов; уточняющая проверка TF-IDF-сходства на уровне документа и/или фрагментов. Обсуждаются параметры векторизации (словарь, сглаживание IDF, sublinear TF, нормализация), выбор порогов сходства, вычислительная сложность и способы масштабирования на разреженных матрицах. Отдельно рассматриваются современные вызовы: генеративные заимствования и «обфускация» текста, где TF-IDF остаётся сильной базовой моделью для детекта близкого перефразирования, но уступает семантическим эмбеддингам при глубокой переработке текста. Результаты оформлены в виде рекомендаций по настройке TF-IDF для разных типов повторов и сценариев контроля академической добросовестности.</p>
			</abstract>
			<kwd-group>
				<kwd>векторная модель текста</kwd>
				<kwd> косинусное сходство</kwd>
				<kwd> n-граммы</kwd>
				<kwd> поиск похожих документов</kwd>
				<kwd> обнаружение заимствований</kwd>
				<kwd> near-duplicate detection</kwd>
				<kwd> разреженные матрицы</kwd>
				<kwd> кандидатный отбор</kwd>
				<kwd> порог сходства</kwd>
				<kwd> информационный поиск</kwd>
			</kwd-group>
		</article-meta>
	</front>
	<body>
		<sec>
			<title>HTML-content</title>
			<p>1. Введение</p>
			<p>Задачи выявления дубликатов и плагиата возникают в информационном поиске, научной коммуникации, корпоративном документообороте и обучающих платформах. На практике требуется не только обнаружить полные копии, но и «почти дубликаты» - тексты с частичными заменами, перестановками и редакторскими правками. Базовым и широко воспроизводимым подходом остаётся векторная модель текста, где документ представляется набором взвешенных терминов, а сходство измеряется скалярными метриками. TF-IDF - один из наиболее распространённых способов взвешивания, позволяющий усиливать роль терминов, характерных для конкретного документа, и подавлять «общеупотребительные» термины коллекции [1], [2].</p>
			<p>Актуальность темы усиливается двумя тенденциями. Во-первых, рост объёмов коллекций требует масштабируемых методов, работающих на разреженных матрицах и поддерживающих индексирование [2]. Во-вторых, распространение генеративных моделей приводит к появлению «генеративного плагиата» и новых сценариев перефразирования, что отражается в современных постановках задач и бенчмарках PAN [5]. Новизна настоящей работы заключается в систематизации практических конфигураций TF-IDF для разных типов заимствований и в описании двухэтапного конвейера «кандидаты → проверка», который остаётся применимым и в условиях современных угроз. Теоретическая значимость - в уточнении границ применимости TF-IDF при усилении обфускации текста; практическая - в рекомендациях параметров и порогов для внедрения в прикладные системы контроля повторов и академической добросовестности.</p>
			<p>2. Методы и принципы исследования</p>
			<p>2.1. Представление документов TF-IDF</p>
			<p>Пусть коллекция документов [LATEX_FORMULA]D={ d1,…,dn}[/LATEX_FORMULA], словарь терминов [LATEX_FORMULA]V[/LATEX_FORMULA]. Для термина [LATEX_FORMULA]t∈V[/LATEX_FORMULA] и документа [LATEX_FORMULA]d[/LATEX_FORMULA] вычисляется вес:</p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>w</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>t</mml:mi>
					<mml:mo>,</mml:mo>
					<mml:mi>d</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
					<mml:mo>=</mml:mo>
					<mml:mi>t</mml:mi>
					<mml:mi>f</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>t</mml:mi>
					<mml:mo>,</mml:mo>
					<mml:mi>d</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
					<mml:mi>⋅</mml:mi>
					<mml:mi>i</mml:mi>
					<mml:mi>d</mml:mi>
					<mml:mi>f</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>t</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
				</mml:mrow>
			</mml:math>
			<p>, где </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>t</mml:mi>
					<mml:mi>f</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>t</mml:mi>
					<mml:mo>,</mml:mo>
					<mml:mi>d</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
				</mml:mrow>
			</mml:math>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>i</mml:mi>
					<mml:mi>d</mml:mi>
					<mml:mi>f</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>𝑡</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
				</mml:mrow>
			</mml:math>
			<p>[1][2][2][3]</p>
			<p>Для TF-IDF-векторов </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>x</mml:mi>
				</mml:mrow>
			</mml:math>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>y</mml:mi>
				</mml:mrow>
			</mml:math>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>cos</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>x</mml:mi>
					<mml:mo>,</mml:mo>
					<mml:mi>y</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
					<mml:mo>=</mml:mo>
					<mml:mfrac>
						<mml:mrow>
							<mml:mi>x</mml:mi>
							<mml:mi>·</mml:mi>
							<mml:mi>y</mml:mi>
						</mml:mrow>
						<mml:mrow>
							<mml:mo fence="false" stretchy="false">‖</mml:mo>
							<mml:mi>x</mml:mi>
							<mml:mo fence="false" stretchy="false">‖</mml:mo>
							<mml:mspace width="0.167em"/>
							<mml:mo fence="false" stretchy="false">‖</mml:mo>
							<mml:mi>y</mml:mi>
							<mml:mo fence="false" stretchy="false">‖</mml:mo>
						</mml:mrow>
					</mml:mfrac>
				</mml:mrow>
			</mml:math>
			<p>Косинус удобен для разреженных данных и широко используется как базовый механизм сравнения документов в IR и задачах похожести </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>r</mml:mi>
				</mml:mrow>
			</mml:math>
			<p>[2]</p>
			<p>Дубликаты - задача, как правило, «document-level»: найти пары документов с высокой близостью. Плагиат часто «passage-level»: требуется локализовать заимствованные фрагменты и соотнести их с источниками. Для этого документ разбивают на фрагменты (предложения/абзацы или окна из </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>k</mml:mi>
				</mml:mrow>
			</mml:math>
			<p>[4]</p>
			<p>Полный перебор всех пар документов имеет квадратичную сложность </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>O</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:msup>
						<mml:mi>n</mml:mi>
						<mml:mn>2</mml:mn>
					</mml:msup>
					<mml:mo stretchy="false">)</mml:mo>
				</mml:mrow>
			</mml:math>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>n</mml:mi>
				</mml:mrow>
			</mml:math>
			<p>Кандидатный отбор: быстрый поиск кандидатов по инвертированному индексу/топ-терминам TF-IDF или приближённый поиск близких объектов (например, по эскизам/хэшам сходства). Для больших коллекций применимы идеи локально-чувствительного хэширования и компактных отпечатков (simhash) </p>
			<p>[7][8]</p>
			<p>Проверка: точный расчёт косинусного сходства TF-IDF для ограниченного множества кандидатов; при плагиате - проверка на уровне фрагментов и последующая агрегация.</p>
			<p>3. Основные результаты</p>
			<p>Результат 1. Практическая схема системы (см. рис. 1)</p>
			<fig id="F1">
				<label>Figure 1</label>
				<caption>
					<p>Схема конвейера выявления дубликатов и плагиата на основе TF-IDF</p>
				</caption>
				<alt-text>Схема конвейера выявления дубликатов и плагиата на основе TF-IDF</alt-text>
				<graphic ns1:href="/media/images/2026-01-29/462ffddd-00cd-45e0-a89a-bd279cd64ff6.png"/>
			</fig>
			<p>[4][5]</p>
			<p>Результат 2. Рекомендации по конфигурациям TF-IDF для разных типов заимствований (см. табл. 1)</p>
			<p>В табл. 1 представлены бальные оценки применимости (1-5) для различных TF-IDF в зависимости от типа совпадения (полный дубликат, near-duplicate, фрагментное копирование, перефразирование). Указанные значения не являются абстрактной экспертной оценкой, а представляют собой экспертно-эмпирическую интегральную шкалу, полученную по итогам количественной валидации на контрольной выборке и последующей интерпретации результатов.</p>
			<table-wrap id="T1">
				<label>Table 1</label>
				<caption>
					<p>Рекомендуемые настройки TF-IDF для типов повторов и заимствований</p>
				</caption>
				<table>
					<tr>
						<td>Тип совпадения​</td>
						<td>​Единица сравнения (ед.)</td>
						<td>​Признаки TF-IDF</td>
						<td>​Окно/шаг (токены, ед.)</td>
						<td>​Кандидатный отбор</td>
						<td>​Применимость (1 - 5)</td>
					</tr>
					<tr>
						<td>​Полный дубликат</td>
						<td>​документ</td>
						<td>​слова 1–2-граммы + L2</td>
						<td>​-</td>
						<td>​инверт. индекс по топ-терминам</td>
						<td>​5</td>
					</tr>
					<tr>
						<td>​Near-duplicate (редакт.)</td>
						<td>​документ</td>
						<td>​слова 1–2-граммы + sublinear TF</td>
						<td>​-</td>
						<td>​simhash/LSH + проверка TF-IDF</td>
						<td>​4</td>
					</tr>
					<tr>
						<td>​Фрагментное копирование</td>
						<td>​фрагмент</td>
						<td>​слова 1-граммы + сглаж. IDF</td>
						<td>​200 / 50</td>
						<td>кандидаты по топ-терминам окон​</td>
						<td>​4</td>
					</tr>
					<tr>
						<td>​Лёгкое перефразирование</td>
						<td>​фрагмент</td>
						<td>​символы 3–5-граммы</td>
						<td>​200 / 50</td>
						<td>​ANN/LSH по эскизам</td>
						<td>​3</td>
					</tr>
					<tr>
						<td>​Сильное перефразирование</td>
						<td>​фрагмент</td>
						<td>​гибрид: слова + символы</td>
						<td>​200 / 50</td>
						<td>​кандидаты + доп. семантика</td>
						<td>​2</td>
					</tr>
					<tr>
						<td>​Генеративные заимствования</td>
						<td>​фрагмент</td>
						<td>​TF-IDF как базовый фильтр</td>
						<td>​200 / 50</td>
						<td>​кандидаты + спец. детекторы</td>
						<td>​2</td>
					</tr>
				</table>
			</table-wrap>
			<p>Методика валидации включала следующие этапы:</p>
			<p>Формирование тестового набора пар документов/фрагментов, размеченных по классам совпадения: </p>
			<p>— дубликат (полное совпадение), </p>
			<p>— near-duplicate (редакционные правки),</p>
			<p> — фрагментное заимствование, </p>
			<p>— перефразирование (лёгкое/сильное).</p>
			<p>Построение TF-IDF-представлений для каждой конфигурации из табл. 1 (словные 1–2-граммы, символьные 3–5-граммы, sublinear TF, сглаживание IDF, L2-нормализация).</p>
			<p>Расчёт меры сходства (cosine similarity) и подбор порога </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>r</mml:mi>
				</mml:mrow>
			</mml:math>
			<mml:math display="inline">
				<mml:mrow>
					<mml:msub>
						<mml:mi>F</mml:mi>
						<mml:mrow>
							<mml:mn>1</mml:mn>
						</mml:mrow>
					</mml:msub>
				</mml:mrow>
			</mml:math>
			<mml:math display="inline">
				<mml:mrow>
					<mml:msub>
						<mml:mi>F</mml:mi>
						<mml:mrow>
							<mml:mi>β</mml:mi>
						</mml:mrow>
					</mml:msub>
				</mml:mrow>
			</mml:math>
			<p>Оценка качества на тестовой части с использованием метрик: Precision, Recall, </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:msub>
						<mml:mi>F</mml:mi>
						<mml:mrow>
							<mml:mn>1</mml:mn>
						</mml:mrow>
					</mml:msub>
				</mml:mrow>
			</mml:math>
			<p>Преобразование метрик в балльную шкалу (1–5): балл присваивался на основании диапазона </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:msub>
						<mml:mi>F</mml:mi>
						<mml:mrow>
							<mml:mn>1</mml:mn>
						</mml:mrow>
					</mml:msub>
				</mml:mrow>
			</mml:math>
			<p>[LATEX_FORMULA]r[/LATEX_FORMULA]</p>
			<p>На основе полученной валидации подтверждено, что TF-IDF на словах обеспечивает наилучшие результаты для дубликатов и большинства near-duplicate случаев, тогда как символьные n-граммы повышают устойчивость к морфологическим вариациям, опечаткам и частичным заменам, что особенно заметно в задачах фрагментного сравнения и лёгкого перефразирования. Для сильного перефразирования и генеративных заимствований балльные оценки ниже, что отражает наблюдаемое падение лексического перекрытия и необходимость гибридизации признаков </p>
			<p>[5][10]</p>
			<p>4. Обсуждение</p>
			<p>TF-IDF обладает тремя прикладными преимуществами: интерпретируемость - легко объяснить, какие термины «сблизили» тексты; эффективность на разреженных матрицах и совместимость с индексированием </p>
			<p>[2][3][4][5]</p>
			<p>Ограничения TF-IDF связаны с лексической природой признаков: при сильном перефразировании (замена значительной доли слов на синонимы, перестройка предложений) косинусное сходство TF-IDF снижается, хотя «семантическое» содержание сохраняется. В таких случаях оправдан гибридный режим: TF-IDF как быстрый фильтр кандидатов и более «дорогие» семантические сравнения на втором этапе. Практика бенчмарков по цифровой криминалистике и плагиату также отражает движение к комбинированным стратегиям и новым угрозам (включая генеративные тексты) </p>
			<p>[5][10]</p>
			<p>С точки зрения масштабирования, важнейшим является снижение числа сравниваемых пар. Для этого применяют компактные отпечатки и приближённый поиск близких документов, включая simhash и связанные методы локально-чувствительного хэширования </p>
			<p>[7][8][6]</p>
			<p>5. Заключение</p>
			<p>Цель статьи - описать использование TF-IDF для выявления дубликатов и плагиата достигнута за счёт формализации пайплайна сравнения документов и фрагментов, а также выработки практических рекомендаций по параметрам и масштабированию. Показано, что TF-IDF в связке с косинусной мерой сходства является надёжной базовой моделью для поиска полных и близких дубликатов и применим для фрагментного плагиата при использовании скользящих окон и двухэтапного отбора кандидатов. Одновременно выявлены границы применимости: при сильном перефразировании и генеративных заимствованиях TF-IDF требует гибридизации с более устойчивыми семантическими методами и специализированными процедурами локализации. Перспективы дальнейших исследований связаны с адаптивным выбором порогов под домены и жанры, объединением TF-IDF-кандидатирования с современными детекторами генеративного плагиата, разработкой единых протоколов оценки для «честного» сравнения базовых и гибридных систем на публичных датасетах.</p>
		</sec>
		<sec sec-type="supplementary-material">
			<title>Additional File</title>
			<p>The additional file for this article can be found as follows:</p>
			<supplementary-material xmlns:xlink="http://www.w3.org/1999/xlink" id="S1" xlink:href="https://doi.org/10.5334/cpsy.78.s1">
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/23529.docx">23529.docx</inline-supplementary-material>]-->
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/23529.pdf">23529.pdf</inline-supplementary-material>]-->
				<label>Online Supplementary Material</label>
				<caption>
					<p>
						Further description of analytic pipeline and patient demographic information. DOI:
						<italic>
							<uri>https://doi.org/10.60797/IRJ.2026.165.54</uri>
						</italic>
					</p>
				</caption>
			</supplementary-material>
		</sec>
	</body>
	<back>
		<ack>
			<title>Acknowledgements</title>
			<p/>
		</ack>
		<sec>
			<title>Competing Interests</title>
			<p/>
		</sec>
		<ref-list>
			<ref id="B1">
				<label>1</label>
				<mixed-citation publication-type="confproc">Salton G. Term-weighting approaches in automatic text retrieval / G. Salton, C. Buckley // Information Processing &amp;amp; Management. — 1988. — № 24. [in English]</mixed-citation>
			</ref>
			<ref id="B2">
				<label>2</label>
				<mixed-citation publication-type="confproc">Manning C. Introduction to Information Retrieval / C. Manning, P. Raghavan // Cambridge: Cambridge University Press. — 2008. — № 13. — с. 482. [in English]</mixed-citation>
			</ref>
			<ref id="B3">
				<label>3</label>
				<mixed-citation publication-type="confproc">TfidfVectorizer — scikit-learn documentation: электронный ресурс. — URL: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html (дата обращения: 20.01.2026)</mixed-citation>
			</ref>
			<ref id="B4">
				<label>4</label>
				<mixed-citation publication-type="confproc">Potthast M. Proceedings (PAN/CLEF evaluation context / M. Potthast, B. Stein // An evaluation framework for plagiarism detection. — 2010 — URL: https://www.researchgate.net/publication/221102075_An_Evaluation_Framework_for_Plagiarism_Detection (дата обращения: 12.01.2026) [in English]</mixed-citation>
			</ref>
			<ref id="B5">
				<label>5</label>
				<mixed-citation publication-type="confproc">Greiner-Petter A. CEUR Workshop Proceedings / A. Greiner-Petter // Overview of the Plagiarism Detection Task at PAN 2025. — 2025 — URL: https://ceur-ws.org/Vol-4038/paper_280.pdf (дата обращения: 29.12.2025) [in English]</mixed-citation>
			</ref>
			<ref id="B6">
				<label>6</label>
				<mixed-citation publication-type="confproc">Rodier S. Proceedings of LREC / S. Rodier, S. Carter // Online Near-Duplicate Detection of News Articles. — 2020 — URL: http://www.lrec-conf.org/proceedings/lrec2020/pdf/2020.lrec-1.156.pdf (дата обращения: 03.01.2026) [in English]</mixed-citation>
			</ref>
			<ref id="B7">
				<label>7</label>
				<mixed-citation publication-type="confproc">Charikar M. Similarity estimation techniques from rounding algorithms / M. Charikar // Proceedings of STOC. — 2004 — URL: https://www.cs.princeton.edu/courses/archive/spr04/cos598B/bib/CharikarEstim.pdf (дата обращения: 07.01.2026) [in English]</mixed-citation>
			</ref>
			<ref id="B8">
				<label>8</label>
				<mixed-citation publication-type="confproc">Manku G. Detecting Near-Duplicates for Web Crawling / G. Manku, A. Jain // Proceedings of WWW. — 2007 — URL: https://research.google.com/pubs/archive/33026.pdf (дата обращения: 09.01.2026) [in English]</mixed-citation>
			</ref>
			<ref id="B9">
				<label>9</label>
				<mixed-citation publication-type="confproc">Yalcin K. An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding / K. Yalcin, N. Aydin // Expert Systems with Applications. — 2022. — №197. — URL: https://www.sciencedirect.com/science/article/abs/pii/S0957417422001610 (дата обращения: 12.01.2026) [in English]</mixed-citation>
			</ref>
			<ref id="B10">
				<label>10</label>
				<mixed-citation publication-type="confproc">Amirzhanov A. Plagiarism types and detection methods: a systematic review / A. Amirzhanov // Frontiers in Computer Science. — 2025 — URL: https://www.frontiersin.org/journals/computer-science/articles/10.3389/fcomp.2025.1504725/pdf (дата обращения: 14.01.2026) [in English]</mixed-citation>
			</ref>
			<ref id="B11">
				<label>11</label>
				<mixed-citation publication-type="confproc">Краснов Ф.В. Проблема потери решений в задаче поиска схожих документов: применение терминологии при построении векторной модели корпуса / Ф.В. Краснов // КиберЛенинка. — 2021 — URL: https://cyberleninka.ru/article/n/problema-poteri-resheniy-v-zadache-poiska-shozhih-dokumentov-primenenie-terminologii-pri-postroenii-vektornoy-modeli-korpusa (дата обращения: 15.01.2026)</mixed-citation>
			</ref>
			<ref id="B12">
				<label>12</label>
				<mixed-citation publication-type="confproc">Кузнецова Р.В. МЕТОДЫ ОБНАРУЖЕНИЯ ПЕРЕВОДНЫХ ЗАИМСТВОВАНИЙ В БОЛЬШИХ ТЕКСТОВЫХ КОЛЛЕКЦИЯХ / Р.В. Кузнецова, О.Ю. Бахтеев, Ю.В. Чехович // researchgate. — 2021. — URL: https://www.researchgate.net/publication/354247949_METODY_OBNARUZENIA_PEREVODNYH_ZAIMSTVOVANIJ_V_BOLSIH_TEKSTOVYH_KOLLEKCIAH (дата обращения: 18.01.26)</mixed-citation>
			</ref>
		</ref-list>
	</back>
	<fundings/>
</article>