Return to article

Семантические кластеры патентных документов и генератор наборов данных для машинного обучения

Таблица 1 - Общие характеристики коллекции семантических кластеров

Показатель

A1

B2

Всего

1

Количество кластеров (записей в БД)​

​8 316 266

​4 159 569

​12 475 835

​2

​Количество неуникальных документов во всех кластерах с учётом базового документа

​91 532 079

​328 969 976

​420 502 055

​3

​Количество уникальных документов во всех кластерах, включая базовые документы

​-

-​

​26 118 166

​4

​Количество кластеров, в которые входит только базовый документ

​1 450 671

24 019​

​1 474 690

​5

​Количество кластеров, в которых есть документы помимо базового

​6 865 595

​4 135 550

​11 001 145

​6

​Количество цитат всего

​12 342 294

85 020 365​

​97 362 659

​7

Количество цитат исходного ведомства

​12 305 499

84 506 761​

​96 812 260​

​8

​Количество цитат других ведомств

36 795​

​513 604

550 399​

​9

Количество кластеров с цитатами только исходного ведомства (без цитат других ведомств и аналогов базового документа)​

​1 362 299

​3 670 843

​5 033 142

​10

​Количество кластеров с цитатами только других ведомств (без цитат исходного ведомства и аналогов базового документа)

​5 315

​1 826

​7 141

​11

Количество кластеров с цитатами как исходного, так и других ведомств (но без аналогов базового документа)​

​22 714

​76 757

​99 471

​12

​Количество кластеров только с аналогами базового документа

​6 926 858

​399 314

​7 326 172

13​

​Количество кластеров без цитат исходного ведомства

​6 931 253

​411 969

​7 343 222

14​

​Количество кластеров без цитат других ведомств

​8 291 237

​4 080 986

​12 372 223

​15

Среднее количество всех цитат

​1,484

​20,440

​7,804

​16

​Среднее количество цитат исходного ведомства

1,480​

​20,316

​7,760

​17

Среднее количество цитат других ведомств​

​0,004

​0,123

​0,044

18

Среднее количество патентов-аналогов базового документа

3,898

4,268

4,022