Universe 帮助中心

6.1 数据血缘

创建于 2022-10-21 / 最近更新于 2022-11-04 / 2311
字体: [默认] [大] [更大]

数据血缘:作为数据生命周期的一种,可以协助厘清元数据之间的关系和脉络,规范元数据设计。

  • 血缘分析:即血统分析,通过对数据处理过程的全面追踪回溯,找到所有元数据对象以及这些元数据对象之间的关系;

  • 影响分析:基于某个数据对象,寻找依赖于该对象的处理过程或其他数据对象,并在某些数据对象发生变化或者需要修改时,评估其影响范围。

数据开发平台可以根据工作流/数据流的运行分析相应的数据流向与关联,对于外部数据连接/内部数据集之间表级别的数据血缘进行展示,以某一个“表”为起点,支持“血缘分析”和“影响分析”两个方向的分析链路。

数据血缘的产生

工作流定义/数据流定义运行后,会产生并记录相应“表”之间的数据血缘关系:

  • 如果工作流定义/数据流定义从未运行或运行失败,则不存在相应的血缘关系

  • 血缘关系脱离工作流实例单独存储,删除工作流实例后血缘关系不受影响

数据血缘的结构

  • 节点:“表”

    • 内部数据集:数据中心中的数据集

    • 外部数据表:数据库中的表、FTP服务器中的文件、BI平台中的数据集

  • 连线:

    • 关系:由工作流/数据流来承载“表”之间的关系

    • 方向:代表数据的流向,依托于“关系”而存在

数据血缘的展示

入口:数据中心-数据集-数据集详情页-数据血缘

功能简介:数据血缘的展示以“数据集”作为分析切入点,以数据集为中心提供向上游/下游进行血缘分析/影响分析。

节点信息展示

  • 数据中心中的数据集:支持跳转至数据集详情页

    • 数据集基本信息:数据集名称、行列数、最近更新时间、位置

  • 数据库中的表:

    • 数据连接基本信息:数据连接名称、数据源类型、IP主机名、端口、数据库名、用户名

    • 数据表辅助信息:SQL语句/目标表名称

  • FTP服务器中的文件:

    • 数据连接基本信息:数据连接名称、数据源类型、IP主机名、端口、目录、用户名

    • 文件名称

  • BI平台中的数据集:

    • 数据连接基本信息:数据连接名称、数据源类型、IP主机名、端口、域名、用户名

    • 数据集辅助信息:SQL语句

关系信息展示

  • 工作流定义:

    • 支持展示:工作流定义名称、最近更新时间、最近成功运行时间

    • 支持跳转:工作流定义编辑页、工作流实例详情页

  • 数据流定义:

    • 支持展示:数据流定义名称、最近更新时间、最近成功运行时间

    • 支持跳转:数据流定义编辑页


9 人点赞过