Return to article

Классификация и сравнительный анализ подходов к сбору колоночного уровня data lineage на базе Apache Spark

Таблица 3 - Сравнительный анализ решений по сбору lineage

Инструмент

Уровень детализации сбора

Поддержка пакетных и потоковых процессов

Уровень покрытия операций над столбцами

Накладные расходы

Масштабируемость и отказоустойчивость

Инфраструктурные требования

Открытый исходный код

Spline

столбцовый

комбинированный

базовые функции

фоновые

ограниченная

умеренные

полностью

OpenLineage (Spark integration)

столбцовый

комбинированный

базовые функции

фоновые

ограниченная

умеренные

полностью

Spark Atlas Connector

табличный

только пакетный

отсутствует

фоновые

ограниченная

высокие

полностью

DataHub

столбцовый

комбинированный

базовые функции

фоновые

ограниченная

высокие

частично

OpenMetadata

столбцовый

комбинированный

базовые функции

фоновые

ограниченная

умеренные

полностью

Apache Atlas

табличный

только пакетный

отсутствует

фоновые

ограниченная

высокие

полностью

Databricks Unity Catalog

столбцовый

комбинированный

базовые функции

фоновые

полная

минимальные

отсутствует

AWS Glue + Amazon Neptune + Spline

столбцовый

комбинированный

базовые функции

фоновые

полная

высокие

частично

Google Cloud Dataplex (Dataproc / Serverless Spark)

столбцовый

комбинированный

базовые функции

фоновые

полная

минимальные

отсутствует

Collibra (с OpenLineage)

столбцовый

только пакетный

базовые функции

отсутствует

полная

высокие

отсутствует

Monte Carlo Data

столбцовый

комбинированный

базовые функции

отсутствует

полная

минимальные

отсутствует

Atlan

столбцовый

комбинированный

базовые функции

отсутствует

полная

умеренные

отсутствует