Universe 帮助中心

2022年8月重要功能更新

创建于 2022-10-28 / 最近更新于 2022-12-06 / 1385
字体: [默认] [大] [更大]

以下功能在2.10.0及之后的版本中均可使用

数据探查支持更多探查条件配置

  • 应用场景

数仓建设中存在较多大宽表,如进行全部列探查,将耗费大量的系统资源及时间。

而在开发中,有时仅希望对部分重点列进行探查即可以期减少不必要的系统资源浪费,快速获得核心字段探查结果。

  • 功能介绍

入口:数据集-数据探查

  • 新增“列设置”,可选择所有列/筛选列探查

选择”筛选列”,按照探查期望勾选重点列,单击“开始探查”,下方结果将显示勾选列的探查结果。

  • 新增”缺失日期填充”,勾选后,探查时将针对时间类型数据,将缺失日期填充至横坐标,其频次默认为0,可用于评估数据的周期性特征。

未补充缺失日期:

补充后展示缺失日期:

工作流支持MongoDB的增量数据抽取模式

  • 应用场景

目前工作流"SQL获取"节点针对MongoDB的数据获取不支持过滤条件设置,在行数和列数都非常大、或者网络带宽有限制的数据获取场景中,全量获取数据的效率是很低的,近1000w行数据需要十几个小时,因此需要具备增量抽取的能力。

  • 功能介绍

在工作流-"SQL获取数据"节点中数据库选择MongoDB的情况下,支持筛选条件编辑。

由于MongoDB中的存储结构会存在复杂的多级嵌套情形,因此条件内容直接采用表达式的编辑方式。

工作流支持下线运行及调度告警

  • 应用场景

1.工作流正常调度中,如果因用户误操作导致工作流下线,使工作流数天未调度,将影响正常的业务运转,而当前缺乏此类调度告警机制。

2.调试运行场景较为普遍,当前仅能在上线后运行,调试不通过则再次下线进行修改-->上线运行,调试操作步骤较为冗余,上下线感知弱。

  • 功能介绍

1.支持调度告警

入口:工作流定义列表页-选择目标工作流-调度设置-调度告警

开启“调度告警”后,若调度状态开启且运行条件已满足,此时如因工作流下线等问题,导致调度发起失败,将在触发调度失败后,按通过工作流通知渠道,向用户推送告警信息。

2.工作流下线状态支持运行调试

入口:工作流定义编辑页

下线且无风险节点的状态下,单击”保存并运行”,将保存当前工作流,并按配置运行工作流,生成实例。

原“保存并上线”功能保持不变;

*为保证工作流配置与用户预期一致,在工作流列表页,如工作流状态为”下线”,仍不支持直接“运行”。

Maxcompute支持插入数据到分区表

  • 功能介绍

入口:工作流定义详情页-SQL-插入数据-Maxcompute数据连接

当待写入的maxcompute目标表为分区表时,需完成分区方式选择。

如选择动态分区,将根据源表分区字段的值,自动选择分区写入数据,如分区不存在则自动创建;

如选择静态分区,需指定各级分区值信息,源表数据将统一写入至指定分区内,如分区不存在则自动进行创建;

*如进行字段映射设置,且选择分区方式为动态分区,则分区字段映射不能为空;

事件调度支持PG类型数据源

在平台支持基于DeltaLake数据集和Hive表的更新事件驱动下游工作流运行后,对PostgreSQL类型的数据源也进行了事件驱动拓展。

管理中心支持系统日志下载

  • 应用场景

一、在支持团队(运维、测试和技术支持)与研发的问题处理交互过程中,一些关键性的平台服务日志无法从前台直接获取,需要登录到后台进行查看,存在一定不便利性。

二、在类似宁波银行的客群中,进入机房登陆服务器查看日志有非常严格的审批管理流程,流程等待降低了问题处理时效和客户体验。

  • 功能介绍

在"管理中心"-"运维管理"中新增”运维日志"下载入口,日志类型有Universe、Spark Job Engine、Jupyter Notebook三种。其中,Universe平台服务日志,用于记录Web端与Server交互情况和平台任务运行情况;Spark Job Engine日志是基于Spark的服务系统日志,用于记录Spark计算任务提交与执行情况;Jupyter Notebook日志是算法可视化IDE服务日志,用于记录算法探索程序的交互和执行情况。

数据开发平层支持HDP大数据平台底座

近期部分渠道客户存在基于HDP(Hortonworks Data Platform)作为大数据平台的情况,因此会要求数据开发平台能够基于HDP大数据平台底座进行部署。数据开发平台自2.3.0起已经支持基于CDH的部署,自2.10.0支持了基于HDP的部署,逐步兼容各类Hadoop生态的商业化平台。

DeltaLake小文件存储优化

  • 优化背景

一、目前DeltaLake存储的默认文件生成逻辑下,会有大量的小文件生成,小文件过多后,在Spark读取及查询过程中会产生大量的子任务,导致查询效率非常低。

二、在基于HDFS的存储方案下,大量小文件会带来管理节点的内存压力,严重降低HDFS元数据响应效率。

  • 解决方案

工作流/数据流发起的数据集注册/更新操作完成后,按照预设的文件控制大小阈值、文件个数限制进行repartition操作


0 人点赞过