2021年12月重要功能更新
以下功能在2.3.0及之后的版本中均可使用
数据集新增数据探查功能
功能背景
在数仓、AI工程等数据开发工作的起始阶段,希望对依赖数据的整体情况有个大概的了解,比如商品类别有哪些以及数量分布、数值型指标的区间分布及数量,用于指导数据清洗任务的构建。
功能介绍
功能入口:数据集 - 数据探查
支持批量导出数据结构
入口:数据中心-数据集-批量选择
批量勾选需要导出的表,选择[导出数据结构]功能,进行一键导出,单表单sheet页的方式进行存储。
同时,导出的数据结构中新增了字段是否为主键/分区的信息,便于用户全面了解数据结构。
数据集新增更新者属性
入口:数据中心-数据集-列表
支持展示最近一次修改过数据集的人员信息,用于辅助进行数据集改动相关问题排查;
手动触发工作流/数据流运行更新:记录启动对应工作流/数据流运行操作并完成更新的人员用户名;
通过数据清理完成数据集更新:记录执行数据清理操作并完成更新的人员用户名;
通过修改主键/分区信息等完成数据集更新:记录执行主键/分区修改人员用户名;
通过定时调度(而非手动运行)方式完成数据集更新,记录默认系统名称“system”;
新增登录失败时账号锁定安全策略
为保障账号安全,防止暴力突破登录账号从而导致数据资产丢失等情况,平台新增登录失败时,进行账号锁定的策略:
在登录失败次数超过平台时,首先启用登录验证码;
若登录失败次数超过平台最大阈值,将进行账号锁定,超过限定时长后方可继续登录。(当前默认为10分钟)
支持通过数据集快速检索数据质量模型
入口:数据中心-数据质量模型
支持通过搜索数据质量模型所引用的目标数据集/参考数据集进行目标质量模型检索,提升搜索效率。
数据开发平层支持CDH大数据平台底座
银行类及其他大型客户会有已自建Hadoop大数据平台的情况,因此会要求数据开发平台能够基于已有大数据平台底座进行部署。数据开发平台自2.3.0版本起已经支持基于CDH的部署,充分利用已有CDH大数据平台的存储和算力进行数仓构建。
实时数据相关
功能背景
在实时同步的功能基础上扩展了对Oracle源端的支持;并优化了运行监控的实例管理方案,多次提交执行的情况下生成多条历史记录,方便用户看到历史实例运行时的任务配置以及分历史实例查看每一次单次运行的独立日志。
实时同步的整体背景及功能介绍见:《2021年11月重要功能更新》
功能介绍
实时同步数据源端支持Oracle
实时同步监控分实例管理