Universe 帮助中心

2021年09月重要功能更新

创建于 2022-10-28 / 最近更新于 2022-11-07 / 817
字体: [默认] [大] [更大]

以下功能在2.0.0及之后的版本中均可使用

工作流/数据流的导入操作支持智能匹配

对于工作流和数据流(包括:普通数据流、DB数据流)进行跨环境迁移时,支持在导入时根据路径和名称信息进行关联资源的智能匹配(eg:数据连接、数据集、子工作流等)。

* 对于SmartETL从BI平台导入到开发平台,暂不支持智能匹配

支持智能匹配的关联资源如下所示:




工作流

数据连接

SQL节点:获取数据、插入数据、删除数据、非查询

FILE节点:文件读取、文件输出

SCD节点:初始化-外部数据库、增量更新-外部数据库

数据集

Dataset节点:从数据集获取数据、注册数据集、更新数据集

SCD节点:初始化-内部数据集、增量更新-内部数据集

数据流

Dataflow节点

工作流

Subprocess节点、Dependent节点

数据质量模型

Quality_Model节点

任务节点

Dependent节点

资源文件

Python节点、Shell节点、Spark节点

数据流

数据连接

普通数据流:输出至数据库算子

DB数据流:从数据库输入算子、输出至数据库算子

数据集

输入数据集算子

输出数据集算子(注册数据集、更新数据集)

进行工作流/数据流导入时,默认开启“智能匹配”选项,对于上表所示的关联资源:

  • 如果在当前环境存在相同路径和名称的相关内容,则会在导入时进行自动匹配;

  • 如果未匹配成功,则导入后相应节点的配置项为异常状态,需要人工配置后保存。

工作流/数据流支持查看历史记录

工作流、数据流支持查看过往的历史记录,并根据实际需要对历史记录进行恢复。

* 本期暂不支持DB数据流

入口:工作流定义/数据流定义详情页-右侧操作栏-历史记录

  • 针对工作流/数据流,平台以每次[保存]作为记录的时机,将记录以下内容:

    • 工作流

      • 工作流层面(名称、描述、通知方式等暂不在记录范围内)

        • 工作流设置(超时限制)

        • 工作流参数

      • 算子层面

        • 算子基本设置、节点配置、运行选项

        • 算子间依赖关系

        • 布局变动

    • 数据流(名称、描述等暂不在记录范围内)

      • 数据流注释

      • 算子层面

        • 算子名称、配置

        • 算子间依赖关系

        • 布局变动

  • 单击[历史记录]后,可展示最近2个月内当前工作流/数据流保存的所有变动记录(最少可支持展示最近10条记录),记录内容如下所示:

    • 支持对历史记录进行重命名,用于记录一些重大变动信息;

    • 支持对历史记录进行恢复(右上角),用于误操作时的记录回退等场景;

    • 确认恢复后,被恢复的记录配置将会覆盖当前工作流/数据流各项配置,单击[保存]后变动生效,生成新的记录。

数据质量模型支持多数据集检测

数据质量模型支持添加多个数据集,以满足对目标数据集进行复杂的多数据集检测的场景。

  • 为支持多数据集检测,做了如下优化:

    • 数据集:分为目标数据集&参考数据集

      • 目标数据集:作为质量模型的检测目标,各规则(除逻辑检测可自由撰写SQL语句)检测对象默认均为目标数据集;

      • 参考数据集:作为支持目标数据集检测的辅助数据集,主要作用在包含关系检测及多数据集逻辑检测中;

    • 新增支持多数据集检测的规则:

      • 包含关系检测:

        • 检测目标数据集及参考数据集的包含关系。确定目标数据集校验列的值是否均包含于参考数据集对应列中,以找出无父记录的子记录和值;

    • 逻辑检测:

      • 在逻辑检测的[高级查询]中,对多数据集进行了支持,可在撰写规则条件时使用不同的input区分、引用不同数据集;

  • 在数据质量模型被工作流引用时,可在其对应的QUALITY_MODEL节点替换目标数据集/参考数据集输入;

数据质量管理模型支持创建副本

入口:数据中心-数据质量管理-列表页

  • 单击待创建副本的数据质量模型右侧操作栏,选择[创建副本];

  • 填入副本数据质量模型名称并确定(与其他质量模型重名将会报错);

  • 副本质量模型创建成功后,自动进入质量模型编辑页面,以进行质量模型细节修改。目标数据集、参考数据集及各项规则配置与原质量模型一致;

数据质量模型支持导出导入

支持导出、导入数据质量模型,进行同平台、跨平台的模型迁移工作。

  • 模型导出:

    • 入口:数据质量模型详情页-右侧操作栏-导出

    • 单击[导出],将当前数据质量模型的相关数据集&检测规则配置统一打包为json文件并自动下载到本地;

  • 模型导入:

    • 从零创建质量模型

      • 入口:数据质量模型列表页-导入模型;

      • 上传对应数据质量模型json文件,并确认模型名称;

      • 为数据质量模型选择对应的目标数据集&参考数据集映射;

      • 质量模型导入成功,确认规则配置后即可保存;

    • 更新数据质量模型

      • 入口:数据质量模型详情页-右侧操作栏-导入

      • 同样上传对应数据质量模型json文件,并确认模型名称;

      • 为数据质量模型选择对应的目标数据集&参考数据集映射;(默认根据input序号进行匹配)

      • 质量模型导入更新成功,确认规则配置后即可保存更新项;

数据质量模型规则支持使用全局参数

对数据质量模型的逻辑检测类型规则,新增了全局参数的支持。(详见:4.7.1 参数与变量》

  • 支持通过${参数名}方式引用全局参数;

  • 支持规则:



规则类型(逻辑检测)

使用场景

条件判断

编辑语法

高级查询

编辑语法

增强上传数据字典时字段类型的自动映射能力

详见文档[支持通过创建数据结构方式创建数据集]:2021年07月重要功能更新》

工作流-Python节点区分Server日志及Python日志

新版本中,对工作流Python节点的日志进行了区分展示(区分Server日志及Python日志)。

增查询数据集及项目列表相关的API

详见:《8.2.3 数据集基础信息》


0 人点赞过