ИСПОЛЬЗОВАНИЕ TF-IDF ДЛЯ ВЫЯВЛЕНИЯ ДУБЛИКАТОВ И ПЛАГИАТА В ТЕКСТОВЫХ КОЛЛЕКЦИЯХ
Таблица 1 - Рекомендуемые настройки TF-IDF для типов повторов и заимствований
Тип совпадения | Единица сравнения (ед.) | Признаки TF-IDF | Окно/шаг (токены, ед.) | Кандидатный отбор | Применимость (1 - 5) |
Полный дубликат | документ | слова 1–2-граммы + L2 | - | инверт. индекс по топ-терминам | 5 |
Near-duplicate (редакт.) | документ | слова 1–2-граммы + sublinear TF | - | simhash/LSH + проверка TF-IDF | 4 |
Фрагментное копирование | фрагмент | слова 1-граммы + сглаж. IDF | 200 / 50 | кандидаты по топ-терминам окон | 4 |
Лёгкое перефразирование | фрагмент | символы 3–5-граммы | 200 / 50 | ANN/LSH по эскизам | 3 |
Сильное перефразирование | фрагмент | гибрид: слова + символы | 200 / 50 | кандидаты + доп. семантика | 2 |
Генеративные заимствования | фрагмент | TF-IDF как базовый фильтр | 200 / 50 | кандидаты + спец. детекторы | 2 |
единица: оценка применимости, баллы 1–5
