2021年09月重要功能更新
以下功能在2.0.0及之后的版本中均可使用
工作流/数据流的导入操作支持智能匹配
对于工作流和数据流(包括:普通数据流、DB数据流)进行跨环境迁移时,支持在导入时根据路径和名称信息进行关联资源的智能匹配(eg:数据连接、数据集、子工作流等)。
* 对于SmartETL从BI平台导入到开发平台,暂不支持智能匹配
支持智能匹配的关联资源如下所示:
工作流 | 数据连接 | SQL节点:获取数据、插入数据、删除数据、非查询 FILE节点:文件读取、文件输出 SCD节点:初始化-外部数据库、增量更新-外部数据库 |
数据集 | Dataset节点:从数据集获取数据、注册数据集、更新数据集 SCD节点:初始化-内部数据集、增量更新-内部数据集 | |
数据流 | Dataflow节点 | |
工作流 | Subprocess节点、Dependent节点 | |
数据质量模型 | Quality_Model节点 | |
任务节点 | Dependent节点 | |
资源文件 | Python节点、Shell节点、Spark节点 | |
数据流 | 数据连接 | 普通数据流:输出至数据库算子 DB数据流:从数据库输入算子、输出至数据库算子 |
数据集 | 输入数据集算子 输出数据集算子(注册数据集、更新数据集) |
进行工作流/数据流导入时,默认开启“智能匹配”选项,对于上表所示的关联资源:
如果在当前环境存在相同路径和名称的相关内容,则会在导入时进行自动匹配;
如果未匹配成功,则导入后相应节点的配置项为异常状态,需要人工配置后保存。
工作流/数据流支持查看历史记录
工作流、数据流支持查看过往的历史记录,并根据实际需要对历史记录进行恢复。
* 本期暂不支持DB数据流
入口:工作流定义/数据流定义详情页-右侧操作栏-历史记录
针对工作流/数据流,平台以每次[保存]作为记录的时机,将记录以下内容:
工作流
工作流层面(名称、描述、通知方式等暂不在记录范围内)
工作流设置(超时限制)
工作流参数
算子层面
算子基本设置、节点配置、运行选项
算子间依赖关系
布局变动
数据流(名称、描述等暂不在记录范围内)
数据流注释
算子层面
算子名称、配置
算子间依赖关系
布局变动
单击[历史记录]后,可展示最近2个月内当前工作流/数据流保存的所有变动记录(最少可支持展示最近10条记录),记录内容如下所示:
支持对历史记录进行重命名,用于记录一些重大变动信息;
支持对历史记录进行恢复(右上角),用于误操作时的记录回退等场景;
确认恢复后,被恢复的记录配置将会覆盖当前工作流/数据流各项配置,单击[保存]后变动生效,生成新的记录。
数据质量模型支持多数据集检测
数据质量模型支持添加多个数据集,以满足对目标数据集进行复杂的多数据集检测的场景。
为支持多数据集检测,做了如下优化:
数据集:分为目标数据集&参考数据集
目标数据集:作为质量模型的检测目标,各规则(除逻辑检测可自由撰写SQL语句)检测对象默认均为目标数据集;
参考数据集:作为支持目标数据集检测的辅助数据集,主要作用在包含关系检测及多数据集逻辑检测中;
新增支持多数据集检测的规则:
包含关系检测:
检测目标数据集及参考数据集的包含关系。确定目标数据集校验列的值是否均包含于参考数据集对应列中,以找出无父记录的子记录和值;
逻辑检测:
在逻辑检测的[高级查询]中,对多数据集进行了支持,可在撰写规则条件时使用不同的input区分、引用不同数据集;
在数据质量模型被工作流引用时,可在其对应的QUALITY_MODEL节点替换目标数据集/参考数据集输入;
数据质量管理模型支持创建副本
入口:数据中心-数据质量管理-列表页
单击待创建副本的数据质量模型右侧操作栏,选择[创建副本];
填入副本数据质量模型名称并确定(与其他质量模型重名将会报错);
副本质量模型创建成功后,自动进入质量模型编辑页面,以进行质量模型细节修改。目标数据集、参考数据集及各项规则配置与原质量模型一致;
数据质量模型支持导出导入
支持导出、导入数据质量模型,进行同平台、跨平台的模型迁移工作。
模型导出:
入口:数据质量模型详情页-右侧操作栏-导出
单击[导出],将当前数据质量模型的相关数据集&检测规则配置统一打包为json文件并自动下载到本地;
模型导入:
从零创建质量模型
入口:数据质量模型列表页-导入模型;
上传对应数据质量模型json文件,并确认模型名称;
为数据质量模型选择对应的目标数据集&参考数据集映射;
质量模型导入成功,确认规则配置后即可保存;
更新数据质量模型
入口:数据质量模型详情页-右侧操作栏-导入
同样上传对应数据质量模型json文件,并确认模型名称;
为数据质量模型选择对应的目标数据集&参考数据集映射;(默认根据input序号进行匹配)
质量模型导入更新成功,确认规则配置后即可保存更新项;
数据质量模型规则支持使用全局参数
对数据质量模型的逻辑检测类型规则,新增了全局参数的支持。(详见:《4.7.1 参数与变量》)
支持通过${参数名}方式引用全局参数;
支持规则:
规则类型(逻辑检测) | 使用场景 |
条件判断 | 编辑语法 |
高级查询 | 编辑语法 |
增强上传数据字典时字段类型的自动映射能力
详见文档[支持通过创建数据结构方式创建数据集]:《2021年07月重要功能更新》
工作流-Python节点区分Server日志及Python日志
新版本中,对工作流Python节点的日志进行了区分展示(区分Server日志及Python日志)。
新增查询数据集及项目列表相关的API