资源血缘
1. 概述
资源血缘是数据生命周期的一个重要概念,包括数据的起源以及到当前位置的完整路径描述,帮助用户更方便的数据管理。具体是指针对资源主体进行的血缘分析和影响分析,BI中典型的资源有数据集、仪表板页面、应用、卡片等等。字段血缘是指针对资源中的具体字段进行的血缘分析和影响分析,分析数据字段在不同数据资源之间的流转路径。
用户可通过各资源的“资源血缘”入口,了解当前资源的全局资源血缘情况;也可以更细粒度的查看“字段血缘”,一图了解字段变更影响面。
向前看:“我”是谁加工出来的,通过「血缘分析」实现关键信息的追踪和记录;
向后看:“我” 支持了谁的加工,通过「影响分析」了解分析对象的下游数据信息,快速掌握元数据变更可能造成的影响并评估风险。
2. 使用指导
2.1. 资源血缘
用户透过“资源血缘”,可以方便的看到每一个数据应用、分析看板、ETL、数据集等之间的关联,数据分析的流程走向尽在掌握,从而实现快速了解资源上下游依赖情况、资源删改风险评估等,在排查问题时,也可快速定位问题所在,如向上追溯引入指标计算问题的关键节点,向下评估指标变更导致的口径计算影响面等。
查看资源血缘
查看资源血缘有如下入口:数据账户列表、数据集列表/详情、可视化分析卡片、页面、应用 、大屏、ETL列表/详情
分析某个数据集的资源血缘
进入数据中心-数据集界面,在右侧的操作栏中,点击如下图所示的“查看资源血缘”按钮,可以进入资源血缘的详情页,查看资源之间的关系。
资源类型包含:数据账户、数据集、ETL、仪表板、大屏、应用等。除此之外,在资源血缘页面中,还可以勾选“血缘分析”、“影响分析”,从而查看完整的血缘信息。
在血缘画布中,默认展开上下两层级节点,点击展开节点可以继续追溯血缘。
资源血缘画布中,如果资源血缘链路复杂,可以使用画布辅助定位。
数据库类型的数据集向前追溯,可以找到该数据集关联数据库哪些数据表。
分析某个卡片的资源血缘
进入数据分析界面,针对某卡片点击如下图所示的“查看资源血缘”按钮,可以进入资源血缘的详情页。
进入资源血缘页面后,支持以卡片和仪表盘作为分析对象,展示上下游血缘
查看信息与节点切换
观远BI支持用户在资源血缘界面查看任意资源节点的信息,并切换分析的节点。
点击某一个节点,该节点边框会呈高亮显示,页面右侧将显示该节点的详细信息,支持查看该节点的创建时间、位置路径、状态等信息。还可点击窗口下方的查看按钮,一键跳转至该节点的资源详情页。
其中,ETL或数据集节点可见最近一次的更新时间和状态。
观远BI支持用户进行“分析对象切换”操作,即点击任意节点的“…”按钮,在下拉菜单中选择“切换分析对象”,点击后即以当前节点资源作为分析对象,查看其上下游的资源血缘链路图。
注意:目前观远数据的节点切换功能仅管理员可见,后续该功能的权限范围会做进一步优化。
批量操作
针对资源节点,可以进行批量操作,主要包含批量删除、应用解绑。
批量删除
注意:目前观远数据的批量删除功能仅管理员可见,后续该功能的权限范围会做进一步优化。
点击“批量操作”,看到节点的勾选框,可批量勾选多个资源节点。
点击“批量删除”,即可删除选中的所有资源节点(删除后仪表板将放入回收站,其他资源均不可恢复)。
若节点仍然存在下游的依赖关系,那么不可删除,可以在“删除失败提示”弹窗中,看到删除失败的节点。
点击“显示下游血缘”,可以看到具体关联的下游资源内容,评估重要性后,如果确认要删除,点击右下角的“删除血缘树”,即可一键删除待操作区所有可删除的资源节点。
如果删除成功,那么该节点会呈现虚化和虚线效果,刷新后则会消失。删除操作不可逆,请谨慎操作。
应用解绑
若用户需要删除部分仪表板,但希望保留与之相关的应用,需要先给仪表板节点进行解绑。
点击仪表板资源节点的“…”按钮,在下拉菜单中选择“解绑所有相关应用”,点击后将解绑该仪表板的所有相关应用。
解绑后,仪表板不会出现在应用中(若需要恢复可在应用详情中重新添加),即仪表板的下游资源血缘树中不再包含应用,用户可在后续的删除操作中仅删除仪表板。
2.2. 字段血缘
过去,数据消费者在看板上发现某个指标数据和历史经验判断不一致、怀疑有数据问题时,数据开发人员不得不在仪表板上找到存在数据问题的卡片,追溯其依赖的数据集,再从数据集的血缘上逐一Check问题数据集上游的ETL和数据来源,判断哪一步引入问题。如果非BI平台引入的数据处理问题,还需要追溯到上游的数据库表,整个过程繁琐低效。
针对此项问题,观远BI推出「字段血缘」功能,用户可以基于数据血缘,找到某一指标关联的上下游数据集、ETL和卡片,向上追溯引入指标计算问题的关键节点,向下评估指标变更导致的口径计算影响面。这将提高数据开发人员排查数据问题的效率。
前提准备
1. 字段血缘功能受system-backend开关控制,如需使用请在管理员后台开启。
2. 若上下游关系中涉及ETL节点,ETL需要至少运行一次,才能生成字段血缘信息。
查看字段血缘
在排查问题过程中,如果想看某个字段的血缘关系,可以切换至字段血缘tab。
注意:仅支持数据集与卡片查看字段血缘。
在左侧字段列表勾选需要进行分析的字段,右侧画布区即可展示相应的血缘-影响分析结果。
切换至资源列表tab,可查看当前勾选字段涉及的所有资源。
进入某个智能ETL的编辑页面,点击ETL的某个算子节点,可以进行节点的字段血缘分析,选择字段后会在画布中高亮展示当前字段从始至终的血缘链路;血缘链路中的节点上可以显示相关血缘字段的名称。
注意:
1. 目前仅支持数据集及卡片查看字段血缘;
2. ETL输出数据集的字段血缘,是在ETL每次运行后进行更新。因此,在开启开关后或其他场景中发现ETL输出数据集字段血缘不存在/有误,建议重新执行ETL后再检查字段血缘是否正确。
2.3. 导出模型文档
观远支持基于平台数据血缘,自动导出数据集和字段级的基础版本文档。资源血缘画布右上角新增「导出资源血缘」入口;字段血缘画布新增「导出模型文档」入口。
对于资源血缘,在导出时以ETL输出数据集为主体,遍历画布中所有的ETL输出数据集,找到该输出数据集对应的ETL及其输入数据集,逐条列出对应的输入。
对字段血缘,在导出时以当前分析对象为主体,遍历该分析对象的上游和下游的所有字段(以当前分析对象为主体往上及往下找一层),找到这些字段对应的源字段及源输入信息,逐个字段、逐条列出对应的输入。
2.4. 审计日志支持血缘访问记录
审计日志中支持数据血缘模块【资源血缘】、【字段血缘】的用户访问记录,主要记录访问时间、访问用户等信息。