2022年12月重要功能更新
以下功能在 V3.2.0及以上版本可使用
数据集导出支持Excel
数据开发平台的数据集字段若存在超长的数值类型(如身份证号),无论是STRING还是BIGINT类型,都会以科学技术法的方式导出到CSV中,无法还原真实的数据内容。因此,在原有CSV导出格式的基础上扩展支持Excel格式的导出,涉及的位置如下:
数据集列表页导出
数据集详情页导出
多数据集查询导出
工作流/数据流支持显示任务输入/输出数据量
应用场景
对工作流、数据流运行过程中的输入、输出数据量进行统计,辅助用户快速定位任务流中的数据问题(例如中间数据处理过程是否存在明显的数据膨胀、写入数据行数是否符合预期等),并通过周期性的输入、输出数据统计分析,判断数据开发及任务运行是否存在异常情况。
功能介绍
1.节点/数据流日志显示
运行完成后,在实例中查看节点日志
节点表现如下:
2.运维监控新增平台处理数据量统计
按照所选时间范围进行平台输入、输出数据的统计(仅限于从数据集/数据库输入,并输出至数据集/数据库的统计)
支持按天、按周、按月进行数据聚合,对比不同周期内数据的输入输出表现。
工作流实例支持更新节点配置后继续执行
需求背景
在任务流日常运行过程中,往往可能因为一些未覆盖的场景导致节点运行失败。如希望更改问题节点配置后运行,多数情况下需要从头开始运行该工作流,而重新运行已成功的节点将耗费大量时间。因而期望能够更新失败节点及其下游节点配置,并从失败处继续执行当前实例。
该功能主要适配于对节点配置、代码bug等进行问题修复的场景,暂不适配于需要通过更改参数取值、工作流结构等方可修复的场景。
功能介绍
入口:实例管理-工作流实例-从失败处继续执行
1.在实例运行失败后,如在工作流中已更改为正确的配置,可在实例处选择[从失败处继续执行],并勾选[更新失败节点及其下游配置]。
2.勾选并运行后,平台将进行结构校验及配置更新:
1)结构校验
工作流各节点依赖关系及调度关系需与实例保持一致;
工作流与实例相比无新增/删除/更名节点;
如结构校验不通过,将不会进行配置更新,仅支持基于原有实例配置从失败处继续执行。
2)配置更新
如结构校验通过,将进行实例配置更新:
失败节点及其下游节点将更新为最新工作流配置;
SUB_PROCESS、AI Flow等复合算子,失败节点及其下游节点配置同步进行更新;
SUB_PROCESS、AI Flow等复合算子参数不会同步进行更新;
已运行成功节点不会进行配置更新;
工作流参数、AI Flow参数不会进行配置更新;
3)基于已更新完成的配置,从失败处继续执行实例。
数据流关联数据节点支持多表关联
需求背景
1.在数仓开发过程中,多表关联的场景较为普遍,但目前只能通过多个两表关联算子或者SQL节点方式实现,开发效率较低。
2.目前Galaxy平台-SmartETL中关联数据节点支持多表关联,在多表关联的算子导入到数据流时,将会被翻译成SQL节点,不能实现平滑迁移,也对后续二次开发造成了一定的影响。
因而期望对多表关联的开发场景予以支持。
功能介绍
入口:数据流-关联数据
1.关联数据算子支持连接两个以上的输入;
2.单击左侧(图示1),新增数据集关联关系,单击右侧(图示2),新增数据集的关联列;
3.选择待关联数据集及其关联列;
4.选择输出列;
运行时,将根据关联顺序及关联方式,从第一组开始逐组进行数据关联。
数据连接新增ADLS Gen2
需求背景
Azure体系广泛应用于外企客户中,为更好地支持Azure生态,支持客户对接Azure上数据的需求,在数据连接中新增对ADLS Gen2的支持。
功能介绍
1.新增数据连接
入口:数据中心-数据连接-创建数据连接
选择ADLS Gen2数据源,按照提示填入账户信息,建立数据连接。
*Authority Host默认为中国区地址,如为其他国家/区域需注意进行默认地址替换。
2.通过ADLS Gen2读取/输出文件
入口:工作流-FILE-文件读取/文件输出
1)文件读取
选择已建立的ADLS Gen2数据连接
支持选择CSV/Excel进行文件获取及数据解析,解析规范及配置项同FTP/Amazon S3。
2)文件输出
选择输入,及待输出文件的ADLS Gen2数据连接
填入待输出文件的详细路径信息+文件名称(请输出.csv文件)
如在指定路径下不存在同名文件,则进行新建;
如在指定路径下存在同名文件,则进行覆盖;
表格列宽支持自定义调整
平台资源列表(如工作流、工作流实例、数据流、数据集等列表),均支持进行各列宽度自定义调整。
鼠标hover至列表表头,出现列分隔符:
拖动列分隔符,改动目标列宽度,如超出表格宽度,可左右滑动列表。