2022年8月重要功能更新

创建于 2022-10-28 / 最近更新于 2022-12-06 / 2202

字体： [默认] [大] [更大]

以下功能在2.10.0及之后的版本中均可使用

数据探查支持更多探查条件配置

应用场景

数仓建设中存在较多大宽表，如进行全部列探查，将耗费大量的系统资源及时间。

而在开发中，有时仅希望对部分重点列进行探查即可，以期减少不必要的系统资源浪费，快速获得核心字段探查结果。

功能介绍

入口：数据集-数据探查

新增“列设置”，可选择所有列/筛选列探查

选择”筛选列”，按照探查期望勾选重点列，单击“开始探查”，下方结果将显示勾选列的探查结果。

新增”缺失日期填充”，勾选后，探查时将针对时间类型数据，将缺失日期填充至横坐标，其频次默认为0，可用于评估数据的周期性特征。

未补充缺失日期：

补充后展示缺失日期：

工作流支持MongoDB的增量数据抽取模式

应用场景

目前工作流"SQL获取"节点针对MongoDB的数据获取不支持过滤条件设置，在行数和列数都非常大、或者网络带宽有限制的数据获取场景中，全量获取数据的效率是很低的，近1000w行数据需要十几个小时，因此需要具备增量抽取的能力。

功能介绍

在工作流-"SQL获取数据"节点中数据库选择MongoDB的情况下，支持筛选条件编辑。

由于MongoDB中的存储结构会存在复杂的多级嵌套情形，因此条件内容直接采用表达式的编辑方式。

工作流支持下线运行及调度告警

应用场景

1.工作流正常调度中，如果因用户误操作导致工作流下线，使工作流数天未调度，将影响正常的业务运转，而当前缺乏此类调度告警机制。

2.调试运行场景较为普遍，当前仅能在上线后运行，调试不通过则再次下线进行修改-->上线运行，调试操作步骤较为冗余，上下线感知弱。

功能介绍

1.支持调度告警

入口：工作流定义列表页-选择目标工作流-调度设置-调度告警

开启“调度告警”后，若调度状态开启且运行条件已满足，此时如因工作流下线等问题，导致调度发起失败，将在触发调度失败后，按通过工作流通知渠道，向用户推送告警信息。

2.工作流下线状态支持运行调试

入口：工作流定义编辑页

下线且无风险节点的状态下，单击”保存并运行”，将保存当前工作流，并按配置运行工作流，生成实例。

原“保存并上线”功能保持不变；

*为保证工作流配置与用户预期一致，在工作流列表页，如工作流状态为”下线”，仍不支持直接“运行”。

Maxcompute支持插入数据到分区表

功能介绍

入口：工作流定义详情页-SQL-插入数据-Maxcompute数据连接

当待写入的maxcompute目标表为分区表时，需完成分区方式选择。

如选择动态分区，将根据源表分区字段的值，自动选择分区写入数据，如分区不存在则自动创建；

如选择静态分区，需指定各级分区值信息，源表数据将统一写入至指定分区内，如分区不存在则自动进行创建；

*如进行字段映射设置，且选择分区方式为动态分区，则分区字段映射不能为空；

事件调度支持PG类型数据源

在平台支持基于DeltaLake数据集和Hive表的更新事件驱动下游工作流运行后，对PostgreSQL类型的数据源也进行了事件驱动拓展。

管理中心支持系统日志下载

应用场景

一、在支持团队(运维、测试和技术支持)与研发的问题处理交互过程中，一些关键性的平台服务日志无法从前台直接获取，需要登录到后台进行查看，存在一定不便利性。

二、在类似宁波银行的客群中，进入机房登陆服务器查看日志有非常严格的审批管理流程，流程等待降低了问题处理时效和客户体验。

功能介绍

在"管理中心"-"运维管理"中新增”运维日志"下载入口，日志类型有Universe、Spark Job Engine、Jupyter Notebook三种。其中，Universe平台服务日志，用于记录Web端与Server交互情况和平台任务运行情况；Spark Job Engine日志是基于Spark的服务系统日志，用于记录Spark计算任务提交与执行情况；Jupyter Notebook日志是算法可视化IDE服务日志，用于记录算法探索程序的交互和执行情况。

数据开发平层支持HDP大数据平台底座

近期部分渠道客户存在基于HDP(Hortonworks Data Platform)作为大数据平台的情况，因此会要求数据开发平台能够基于HDP大数据平台底座进行部署。数据开发平台自2.3.0起已经支持基于CDH的部署，自2.10.0支持了基于HDP的部署，逐步兼容各类Hadoop生态的商业化平台。

DeltaLake小文件存储优化

优化背景

一、目前DeltaLake存储的默认文件生成逻辑下，会有大量的小文件生成，小文件过多后，在Spark读取及查询过程中会产生大量的子任务，导致查询效率非常低。

二、在基于HDFS的存储方案下，大量小文件会带来管理节点的内存压力，严重降低HDFS元数据响应效率。

解决方案

在工作流/数据流发起的数据集注册/更新操作完成后，按照预设的文件控制大小阈值、文件个数限制进行repartition操作。

0 人点赞过