2022年8月重要功能更新
以下功能在2.10.0及之后的版本中均可使用
数据探查支持更多探查条件配置
应用场景
数仓建设中存在较多大宽表,如进行全部列探查,将耗费大量的系统资源及时间。
而在开发中,有时仅希望对部分重点列进行探查即可,以期减少不必要的系统资源浪费,快速获得核心字段探查结果。
功能介绍
入口:数据集-数据探查
新增“列设置”,可选择所有列/筛选列探查
选择”筛选列”,按照探查期望勾选重点列,单击“开始探查”,下方结果将显示勾选列的探查结果。
新增”缺失日期填充”,勾选后,探查时将针对时间类型数据,将缺失日期填充至横坐标,其频次默认为0,可用于评估数据的周期性特征。
未补充缺失日期:
补充后展示缺失日期:
工作流支持MongoDB的增量数据抽取模式
应用场景
目前工作流"SQL获取"节点针对MongoDB的数据获取不支持过滤条件设置,在行数和列数都非常大、或者网络带宽有限制的数据获取场景中,全量获取数据的效率是很低的,近1000w行数据需要十几个小时,因此需要具备增量抽取的能力。
功能介绍
在工作流-"SQL获取数据"节点中数据库选择MongoDB的情况下,支持筛选条件编辑。
由于MongoDB中的存储结构会存在复杂的多级嵌套情形,因此条件内容直接采用表达式的编辑方式。
工作流支持下线运行及调度告警
应用场景
1.工作流正常调度中,如果因用户误操作导致工作流下线,使工作流数天未调度,将影响正常的业务运转,而当前缺乏此类调度告警机制。
2.调试运行场景较为普遍,当前仅能在上线后运行,调试不通过则再次下线进行修改-->上线运行,调试操作步骤较为冗余,上下线感知弱。
功能介绍
1.支持调度告警
入口:工作流定义列表页-选择目标工作流-调度设置-调度告警
开启“调度告警”后,若调度状态开启且运行条件已满足,此时如因工作流下线等问题,导致调度发起失败,将在触发调度失败后,按通过工作流通知渠道,向用户推送告警信息。
2.工作流下线状态支持运行调试
入口:工作流定义编辑页
下线且无风险节点的状态下,单击”保存并运行”,将保存当前工作流,并按配置运行工作流,生成实例。
原“保存并上线”功能保持不变;
*为保证工作流配置与用户预期一致,在工作流列表页,如工作流状态为”下线”,仍不支持直接“运行”。
Maxcompute支持插入数据到分区表
功能介绍
入口:工作流定义详情页-SQL-插入数据-Maxcompute数据连接
当待写入的maxcompute目标表为分区表时,需完成分区方式选择。
如选择动态分区,将根据源表分区字段的值,自动选择分区写入数据,如分区不存在则自动创建;
如选择静态分区,需指定各级分区值信息,源表数据将统一写入至指定分区内,如分区不存在则自动进行创建;
*如进行字段映射设置,且选择分区方式为动态分区,则分区字段映射不能为空;
事件调度支持PG类型数据源
在平台支持基于DeltaLake数据集和Hive表的更新事件驱动下游工作流运行后,对PostgreSQL类型的数据源也进行了事件驱动拓展。
管理中心支持系统日志下载
应用场景
一、在支持团队(运维、测试和技术支持)与研发的问题处理交互过程中,一些关键性的平台服务日志无法从前台直接获取,需要登录到后台进行查看,存在一定不便利性。
二、在类似宁波银行的客群中,进入机房登陆服务器查看日志有非常严格的审批管理流程,流程等待降低了问题处理时效和客户体验。
功能介绍
在"管理中心"-"运维管理"中新增”运维日志"下载入口,日志类型有Universe、Spark Job Engine、Jupyter Notebook三种。其中,Universe平台服务日志,用于记录Web端与Server交互情况和平台任务运行情况;Spark Job Engine日志是基于Spark的服务系统日志,用于记录Spark计算任务提交与执行情况;Jupyter Notebook日志是算法可视化IDE服务日志,用于记录算法探索程序的交互和执行情况。
数据开发平层支持HDP大数据平台底座
近期部分渠道客户存在基于HDP(Hortonworks Data Platform)作为大数据平台的情况,因此会要求数据开发平台能够基于HDP大数据平台底座进行部署。数据开发平台自2.3.0起已经支持基于CDH的部署,自2.10.0支持了基于HDP的部署,逐步兼容各类Hadoop生态的商业化平台。
DeltaLake小文件存储优化
优化背景
一、目前DeltaLake存储的默认文件生成逻辑下,会有大量的小文件生成,小文件过多后,在Spark读取及查询过程中会产生大量的子任务,导致查询效率非常低。
二、在基于HDFS的存储方案下,大量小文件会带来管理节点的内存压力,严重降低HDFS元数据响应效率。
解决方案
在工作流/数据流发起的数据集注册/更新操作完成后,按照预设的文件控制大小阈值、文件个数限制进行repartition操作。