智能 ETL(Smart ETL)数据集组合
创建于 2022-10-28 / 最近更新于 2024-08-21 / 6203
字体:
[默认]
[大]
[更大]
本文将为您介绍Smart ETL的数据集组合的功能说明与具体操作。
1. 行拼接
1.1. 功能说明
同类型的业务数据,可能来自不同的下属公司、门店,即便在同一组织,也存在不同数据源的数据集。例如超市有多种支付方式:现金、银联、移动支付等,导致决策者、IT部门在末端获取的数据集来源众多。行拼接则可以把同业务不同来源的数据拼接在一起。
在实际应用中,首先通过列编辑中的“选择列”操作符,对一批数据进行规范化处理,并以此作为规范化的数据集为保留版。其他同业务数据通过“行拼接”操作符,整合成更加规范全面的数据集。
举例:
如上图所示为两个来源不同的数据集,但是字段完全相同。
如图在进行行拼接时,可以选择保留列的情况,如保留所有列、仅保留公共列或者保存任意数据集的所有列。
得到拼接结果后,可以在左上区域内,点击某一数据集下的数字查看对应数据集保留了哪些字段。
1.2. 节点数设置
在ETL的创建中,提供针对ETL的 行拼接 的节点数量配置功能。规范ETL的创建,能够避免因操作不当引起的系统运行异常问题。
具体操作:管理中心 > 运维管理 > 参数配置,ETL参数配置 > 最大支持“行拼接”节点数 。(可配置范围:1-50。新客:默认10,已使用客户:默认无限制)。当创建时如果超出限制,则会进行提示。
2. 关联数据
功能说明: 关联数据 可以通俗理解为“列拼接”,不同的是,关联数据需要找到双方数据集中相同的关联列进行拼接;并且拼接的形式也比较多样,最终呈现的数据集也可以自定义列,具体如下:
关联方式 | 特性描述 |
内连接 | 仅对关联列中交集进行连接 |
左连接 | 默认输出左表所有行,并将右表中关联匹配的列进行连接 |
全连接 | 对关联列中并集进行连接 |
举例:
如图两个数据集分别为零售信息和商品基础信息,对于商品基础信息而言商品编号为唯一主键。
我们想要对零售信息中的商品按照商品基础信息中的信息进行补全,因此选择以 商品编号 为关联字段进行左连接。
报错详见[message] = Reference 'id_1666072244947.truck_id' is ambiguous, could be id_1666072244947.truck_id, id_1666072244947.truck_id.; line 1 pos 0 。
3. 批量更换ETL数据集
在进行数据开发过程中,当我们需要将数据集替换成新的数据集时,ETL支持批量更换ETL中的数据集,就如数据集卡片一样轻松批量操作,充分提效。
在非直连数据集的详情页,找到关联创建Tab页,选择右侧的切换数据集,可以多选ETL进行切换(多选上限200);
选择数据集进行切换,仍需要在切换后检查ETL节点字段名的一致性,并可以进行人工修正;
切换后会返回成功或失败通知,可跳转到切换后的数据集详情页查看。
如后续使用其他数据处理算子,详情参考 新手入门 。