2022年10月重要功能更新
以下功能在3.0.0及之后的版本中均可使用
Universe-lab Code Plugin支持在线上传/更新
应用场景
目前Ulab的Code Plugin的部署需要到服务器上上传文件再重启k8s对应的pod,需要开发用户登录服务器进行操作,另外,在银行类以及其他无法直接访问的客户环境中操作就更加不便。因此对Code Plugin的配置方式进行了优化,支持在线化的文件上传更新及Code Plugin配置工作。
功能介绍
功能入口:"管理中心"-"资源中心"-"AI插件管理"
添加插件
选择插件文件后,平台会自动校验json文件中定义的插件是否存在,存在则覆盖已注册的插件,不存在则新建。
承上操作,点击下一步,确认插件相关名称和参数信息是否准确。
基于Parquet文件数据创建数据集的API接口
应用场景
在一些客户交付场景中,存在自研应用生成的数据需要导入到Universe数据集中做后续的ETL或者BI分析场景,因此需要提供对应的API接口供自研程序调用完成数据导入工作。
API接口说明
Hive数据连接配置支持Kerberos认证方式
应用场景
在数据存储是Hive且开启了Kerberos安全配置的数仓项目中,数据开发平台在创建Hive数据连接的过程中需要具备配置Kerberos相关认证信息的能力,以保证工作流基于Hive读取和写入数据的连通可用。
功能介绍
在数据连接创建和编辑时候,认证方式选择"Kerberos认证",对应认证信息需联系Hive运维管理员创建获取。
支持将工作流及其关联资源整体导出导入
应用场景
为解决开发者在进行增量任务发布及迁移时需耗费大量人力时间的问题,平台支持基于工作流资源血缘进行整体导入导出。在导出工作流时,平台将其关联的各类复合算子及所依赖的各类数据资源共同打包,并在待发布环境中导入,自动完成数据资源及开发流程的发布过程。
功能介绍
入口:工作流导出/批量导出-关联资源导出
1.单击[关联资源导出],导出工作流zip包
2.在目标环境执行导入
入口:工作流列表页-导入工作流
在弹窗内导入工作流zip包,单击“确定”执行导入
3.选择各类资源公共路径
公共路径主要是适配于源路径与目标路径不一致的场景,例如:希望将根目录-dev下的内容导入到根目录-master下(dev/master下子目录结构是一致的)
源公共路径:当前工作流关联的3个数据集,假设它们的路径是:
根目录-dev-ods-xxx
根目录-dev-dwd-xxx
根目录-dev-ads-xxx
则平台解析得到了公共路径为:根目录-dev
将根目录-dev在目标公共路径下替换为根目录-master,则导入时各数据集对应的路径将会更改为:
根目录-master-ods-xxx
根目录-master-dwd-xxx
根目录-master-ads-xxx
如未选择目标公共路径,则默认会按照各资源的源路径进行导入;
4.映射配置及确认
选择文件解析方案后,平台会进入到资源映射的确认界面,支持进行数据连接映射信息的更改:
在资源从a环境迁移至b环境时,其对应的数据连接名称不一定完全一致,在此处支持对工作流中所引用的数据连接信息进行映射,配置映射后,导入流各节点的引用对象将替换为其映射目标,如未选择映射,导入后各节点需手动完成配置。
例如工作流-获取数据节点A,插入数据节点B,引用的数据连接均为:postgres-回归
在导入过程中,我可以将postgres-回归所对应的各节点,均替换为postgres-测试
体现为导入后,工作流-获取数据节点A,插入数据节点B,引用的数据连接均为:postgres-测试
5.导入列表确认
如对待导入的工作流/数据集/数据流/数据质量模型,希望能查看导入策略是否符合预期,可进入到“导入列表”进行查看。如已熟知平台导入逻辑,希望直接执行导入,则可直接点击“导入”,而不查看“导入列表”。
平台的资源导入策略如下:
1.数据集:在已替换公共路径的资源中寻找是否存在同名+同路径数据集:
若不存在,导入时将在对应路径下(路径不存在将新建)新建该数据集;
若存在,导入时默认跳过该数据集;
2.工作流/数据流/数据质量模型:
在已替换公共路径的资源中寻找是否存在同名+同路径资源:
若不存在,导入时将在对应路径下(路径不存在将新建)新建该资源;
若存在,导入时将覆盖该资源结构;
6.导入状态查看与资源导入控制
单击“导入”后,该任务需要一定的执行时间,由于为异步执行,在此期间用户可以进行其他任务的开发,如需查看导入动态,可在工作流定义列表上方进行查看
单击“查看详情”,进入导入状态界面
如某资源导入失败,则会呈现为“导入失败”的状态,且在下方展示具体失败的资源信息,可对该资源选择是“重试”还是“跳过”
如为“重试”,则继续尝试执行导入;
如为“跳过”,将会跳过该资源,继续其他资源的导入;
导入成功界面显示如下所示:
平台对重点操作支持审计
应用场景
随着平台更广泛应用于大型企业,其对数据安全及审计要求将会更为严格。与此同时,平台缺乏审计方面的能力,如发生问题,对重点操作做追溯时只能依靠人工进行操作日志排查,效率低且浪费资源。
在上述情况下,提升平台审计能力,能更好地约束并警醒相关人员,减少不合规行为的出现频率,并在事故发生后,提供问题追溯的必要信息,减少研发侧的参与成本。
功能介绍
入口:管理中心-运维管理-审计日志
1.快捷检索
支持按照操 作者/操作对象、操作时间进行列表结果筛选。
2.审计配置
支持选择日志保留时长,平台默认设置日志保留30天,最大保存天数为360天。
3.日志详情
当前平台支持三类日志的展示,分别是:
用户操作:基于项目显示用户在某项目内对工作流、数据流、数据集、数据质量模型等资源的编辑类操作。
平台管理:主要记录管理员对项目及用户的各类增删、权限变更等编辑类操作。
系统设置:主要记录管理员在系统配置层面(如企业设置、许可证管理等)进行的编辑类重点操作。
4.支持审计日志下载,默认下载内容与列表查询结果一致。
注册数据集支持保留数据注释
功能介绍
在使用工作流-注册数据集、数据流-注册数据集节点时,将对比覆盖前后数据集的schema:
若覆盖前后字段名称一致,则保留字段原有的注释内容;(字段类型不一致,名称一致,仍保留原有注释内容)
若字段名与覆盖前不一致,则注释内容为空。
算子存在多输入时,编辑弹框区分显示各输入schema
功能介绍