Семантические кластеры патентных документов и генератор наборов данных для машинного обучения
Таблица 1 - Общие характеристики коллекции семантических кластеров
№ | Показатель | A1 | B2 | Всего |
1 | Количество кластеров (записей в БД) | 8 316 266 | 4 159 569 | 12 475 835 |
2 | Количество неуникальных документов во всех кластерах с учётом базового документа | 91 532 079 | 328 969 976 | 420 502 055 |
3 | Количество уникальных документов во всех кластерах, включая базовые документы | - | - | 26 118 166 |
4 | Количество кластеров, в которые входит только базовый документ | 1 450 671 | 24 019 | 1 474 690 |
5 | Количество кластеров, в которых есть документы помимо базового | 6 865 595 | 4 135 550 | 11 001 145 |
6 | Количество цитат всего | 12 342 294 | 85 020 365 | 97 362 659 |
7 | Количество цитат исходного ведомства | 12 305 499 | 84 506 761 | 96 812 260 |
8 | Количество цитат других ведомств | 36 795 | 513 604 | 550 399 |
9 | Количество кластеров с цитатами только исходного ведомства (без цитат других ведомств и аналогов базового документа) | 1 362 299 | 3 670 843 | 5 033 142 |
10 | Количество кластеров с цитатами только других ведомств (без цитат исходного ведомства и аналогов базового документа) | 5 315 | 1 826 | 7 141 |
11 | Количество кластеров с цитатами как исходного, так и других ведомств (но без аналогов базового документа) | 22 714 | 76 757 | 99 471 |
12 | Количество кластеров только с аналогами базового документа | 6 926 858 | 399 314 | 7 326 172 |
13 | Количество кластеров без цитат исходного ведомства | 6 931 253 | 411 969 | 7 343 222 |
14 | Количество кластеров без цитат других ведомств | 8 291 237 | 4 080 986 | 12 372 223 |
15 | Среднее количество всех цитат | 1,484 | 20,440 | 7,804 |
16 | Среднее количество цитат исходного ведомства | 1,480 | 20,316 | 7,760 |
17 | Среднее количество цитат других ведомств | 0,004 | 0,123 | 0,044 |
18 | Среднее количество патентов-аналогов базового документа | 3,898 | 4,268 | 4,022 |
