2022年6月重要功能更新
以下功能在2.8.0及之后的版本中均可使用
工作流支持条件分支 节点(Switch)
应用场景
数仓任务或算法任务的开发过程中,希望根据前置节点输出数据的质量情况或前置节点的执行情况来决定后的数据处理流程,需要一个能够构造出if逻辑的控制节点。
功能介绍
工作流中新增switch节点,可以对参数以及上游节点产生的动态变量进行判断定义分支逻辑以及不同逻辑条件时下游分支走向。
调度机制扩展支持事件调度
应用场景
在跨工作流依赖的场景下,存在两个问题:
【及时性】如果前序工作流提前运行完成,后序工作流必须要等到调度时间才能运行。
【准确性】前序工作流超时运行完成,后序工作流就会出现空跑或错过运行时间需要被手工执行的情况。
功能介绍
在工作流-调度设置中扩展支持事件调度,可在依赖设置中开启是否依赖事件输入进行判断,未开启依赖设置的输入源将不参与事件判断。
目前支持事件调度的输入源依赖有DeltaLake数据集和Hive表,其他数据库类型的表可根据实际项目需求进行扩展。
新增自企业信息定义设置功能
应用场景
数据开发平台在部分客户私有化部署落地后,客户希望针对平台中展示的企业及平台相关信息进行个性化设置,主要包括登录页的企业名称和平台名称、登陆后的企业名称、浏览器的标签页名称。
功能介绍
"管理中心"-"企业设置"中新增企业信息设置功能,包括企业名称、平台名称、标签页名称、logo。
工作流“插入数据”节点事务控制策略优化
应用场景
"工作流-SQL插入数据"的默认执行顺序为"前置SQL"->"插入数据"/"插入更新数据"->"后置SQL",在实际调度运行过程中,会由于网络或脏数据等情况导致未能正常运行完成,例如前置SQL运行失败,但是插入数据继续运行了,缺少整个应用过程中的事务机制最终导致目标库中的数据不一致。
功能介绍
针对目标是PG以及MySQL两个数据库的场景进行了后端任务执行的事务控制,将所有操作的多事务提交优化到一个事务中提交执行。
上传数据结构时支持自动匹配及同步配置
应用场景
当前项目上广泛使用创建数据结构功能创建数据集,常见场景包括:
1.表结构设计完成,需要使用数据字典批量建表;
2.由开发环境发布至生产环境,需要将开发环境表结构导入至生产环境进行批量建表;
目前创建数据结构功能仅支持手动选择字段映射,假设需要批量建立200+数据集,每个数据字典结构一致,在操作界面上依次进行表配置人工成本较高。
通过支持结构信息自动匹配及同步配置功能,降低人工配置数据集的工作量。
功能介绍
入口:数据中心-数据集-创建数据结构-通过数据字典创建
1.自动匹配
针对从平台导出/手动创建产生的标准格式数据字典,上传后,自动解析结构表头,根据关键词自动匹配填入:字段名、字段类型、字段长度、字段精度、注释所对应的列,并根据主键及分区配置,填入各表的主键字段及分区字段。
2.同步配置
若非平台导出的标准格式数据字典(如字段映射未被平台识别等),且待导入的各表数据结构格式一致,则可在单表映射配置完成后,单击“同步配置”,将文件解析配置及字段映射规范应用至其他所有表。
同步配置后,主键及分区字段将根据自动解析得到的主键列进行更新。
数据质量模型支持按目录管理
应用场景
目前数据质量模型界面是以卡片的形式平铺向外透出的,而当前一个项目内,质量模型数量可达上百个,由此衍生出分层及批量管理数据质量模型的需求。
功能介绍
入口:数据中心-数据质量管理
1.目录管理
支持为数据质量模型创建多级目录,整体结构同工作流/数据流列表页。
2.列表化展示
将卡片式展示更改为列表化展示,更适配批量管理的场景。
字段 | 相关交互 |
名称 | 单击数据质量模型名称,跳转至模型编辑页面 |
数据集 | 默认展示目标数据集,如存在参考数据集则单击...+进行查看 支持跳转至数据集详情页 |
关联工作流 | 如数据质量模型被引用至N个工作流,则其关联工作流显示为数量"N" 可用于判断数据质量模型是否已加入调度体系 |
操作 | 在原有[运行]、[运行记录]、[通知设置]、[运行设置]、[删除]的基础上,新增如下改动: 1.创建副本 创建副本时支持选择副本路径; 2.新增[移动至]功能 支持将数据质量模型移动至其他目录; |
3.数据质量模型搜索
支持按照名称、数据集(包括目标数据集&参考数据集)、创建者进行搜索,搜索时可选定搜索范围为所有数据质量模型/当前文件夹。
4.原创建/导入功能保持不变;
5.批量操作
支持批量对数据质量模型进行[通知设置]、[运行设置]、[移动至]、[删除]操作;
6.单击质量模型列表空白处,即可显示当前质量模型的路径信息;
工作流/数据流等支持显示子目录资源
应用场景
在使用工作流/数据流等批量导出,数据集结构批量导出等功能时,经常性会存在针对某个文件夹资源进行导出的情况,但当前仅能显示并操作本级目录下的资源,不支持一并选中子目录资源进行操作,通过显示子目录资源,支持对父目录下的所有资源进行灵活选择。
功能介绍
入口:工作流/数据流/数据集/数据质量模型列表页-目录管理
选中[显示子目录资源],右侧列表将显示已选择的父目录及其下所有子目录的所有资源。
显示子目录资源后,搜索时若选择[当前文件夹],将在父目录及其所有子目录的范围内进行资源搜索。
数据集-数据结构支持按照"注释"搜索
应用场景
部分项目使用字段名作为英文名,字段注释作为中文名
在数据结构寻找目标字段时,使用中文名/注释内容搜索效率更高
功能介绍
入口:数据集详情页-数据结构-搜索
数据集选择弹窗支持描述搜索
功能介绍
入口:涉及到数据集选择的所有功能
数据集支持按"创建者"进行搜索
功能介绍
入口:数据中心-数据集-搜索