Вернуться к статье

ИСПОЛЬЗОВАНИЕ TF-IDF ДЛЯ ВЫЯВЛЕНИЯ ДУБЛИКАТОВ И ПЛАГИАТА В ТЕКСТОВЫХ КОЛЛЕКЦИЯХ

Таблица 1 - Рекомендуемые настройки TF-IDF для типов повторов и заимствований

Тип совпадения​

​Единица сравнения (ед.)

​Признаки TF-IDF

​Окно/шаг (токены, ед.)

​Кандидатный отбор

​Применимость (1 - 5)

​Полный дубликат

​документ

​слова 1–2-граммы + L2

​-

​инверт. индекс по топ-терминам

​5

​Near-duplicate (редакт.)

​документ

​слова 1–2-граммы + sublinear TF

​-

​simhash/LSH + проверка TF-IDF

​4

​Фрагментное копирование

​фрагмент

​слова 1-граммы + сглаж. IDF

​200 / 50

кандидаты по топ-терминам окон​

​4

​Лёгкое перефразирование

​фрагмент

​символы 3–5-граммы

​200 / 50

​ANN/LSH по эскизам

​3

​Сильное перефразирование

​фрагмент

​гибрид: слова + символы

​200 / 50

​кандидаты + доп. семантика

​2

​Генеративные заимствования

​фрагмент

​TF-IDF как базовый фильтр

​200 / 50

​кандидаты + спец. детекторы

​2

единица: оценка применимости, баллы 1–5