Классификация и сравнительный анализ подходов к сбору колоночного уровня data lineage на базе Apache Spark
Таблица 3 - Сравнительный анализ решений по сбору lineage
Инструмент | Уровень детализации сбора
| Поддержка пакетных и потоковых процессов | Уровень покрытия операций над столбцами | Накладные расходы | Масштабируемость и отказоустойчивость | Инфраструктурные требования | Открытый исходный код |
Spline | столбцовый | комбинированный | базовые функции | фоновые | ограниченная | умеренные | полностью |
OpenLineage (Spark integration) | столбцовый | комбинированный | базовые функции | фоновые | ограниченная | умеренные | полностью |
Spark Atlas Connector | табличный | только пакетный | отсутствует | фоновые | ограниченная | высокие | полностью |
DataHub | столбцовый | комбинированный | базовые функции | фоновые | ограниченная | высокие | частично |
OpenMetadata | столбцовый | комбинированный | базовые функции | фоновые | ограниченная | умеренные | полностью |
Apache Atlas | табличный | только пакетный | отсутствует | фоновые | ограниченная | высокие | полностью |
Databricks Unity Catalog | столбцовый | комбинированный | базовые функции | фоновые | полная | минимальные | отсутствует |
AWS Glue + Amazon Neptune + Spline | столбцовый | комбинированный | базовые функции | фоновые | полная | высокие | частично |
Google Cloud Dataplex (Dataproc / Serverless Spark) | столбцовый | комбинированный | базовые функции | фоновые | полная | минимальные | отсутствует |
Collibra (с OpenLineage) | столбцовый | только пакетный | базовые функции | отсутствует | полная | высокие | отсутствует |
Monte Carlo Data | столбцовый | комбинированный | базовые функции | отсутствует | полная | минимальные | отсутствует |
Atlan | столбцовый | комбинированный | базовые функции | отсутствует | полная | умеренные | отсутствует |
