Рекомендуемые настройки TF-IDF для типов повторов и заимствований | Международный научно-исследовательский журнал

ИСПОЛЬЗОВАНИЕ TF-IDF ДЛЯ ВЫЯВЛЕНИЯ ДУБЛИКАТОВ И ПЛАГИАТА В ТЕКСТОВЫХ КОЛЛЕКЦИЯХ

Таблица 1 - Рекомендуемые настройки TF-IDF для типов повторов и заимствований

Тип совпадения	Единица сравнения (ед.)	Признаки TF-IDF	Окно/шаг (токены, ед.)	Кандидатный отбор	Применимость (1 - 5)
Полный дубликат	документ	слова 1–2-граммы + L2	-	инверт. индекс по топ-терминам	5
Near-duplicate (редакт.)	документ	слова 1–2-граммы + sublinear TF	-	simhash/LSH + проверка TF-IDF	4
Фрагментное копирование	фрагмент	слова 1-граммы + сглаж. IDF	200 / 50	кандидаты по топ-терминам окон	4
Лёгкое перефразирование	фрагмент	символы 3–5-граммы	200 / 50	ANN/LSH по эскизам	3
Сильное перефразирование	фрагмент	гибрид: слова + символы	200 / 50	кандидаты + доп. семантика	2
Генеративные заимствования	фрагмент	TF-IDF как базовый фильтр	200 / 50	кандидаты + спец. детекторы	2

единица: оценка применимости, баллы 1–5