跳到主要内容
版本:6.0.0

智能 ETL(Smart ETL)数据集组合

本文将为您介绍Smart ETL的数据集组合的功能说明与具体操作。

1. 行拼接

智能 ETL(Smart ETL)数据集组合1.png

1.1 功能说明

同类型的业务数据,可能来自不同的下属公司、门店,即便在同一组织,也存在不同数据源的数据集。例如超市有多种支付方式:现金、银联、移动支付等,导致决策者、IT部门在末端获取的数据集来源众多。行拼接则可以把同业务不同来源的数据拼接在一起。

在实际应用中,首先通过列编辑中的“选择列”操作符,对一批数据进行规范化处理,并以此作为规范化的数据集为保留版。其他同业务数据通过“行拼接”操作符,整合成更加规范全面的数据集。

举例:

智能 ETL(Smart ETL)数据集组合2.png

智能 ETL(Smart ETL)数据集组合3.png

如上图所示为两个来源不同的数据集,但是字段完全相同。

智能 ETL(Smart ETL)数据集组合4.png

如图在进行行拼接时,可以选择保留列的情况,如保留所有列、仅保留公共列或者保存任意数据集的所有列。

得到拼接结果后,可以在左上区域内,点击某一数据集下的数字查看对应数据集保留了哪些字段。

1.2 节点数设置

在ETL的创建中,提供针对ETL的“行拼接”的节点数量配置功能。规范ETL的创建,能够避免因操作不当引起的系统运行异常问题。

具体操作:管理员设置-运维管理-参数配置,ETL参数配置-最大支持“行拼接”节点数。(可配置范围:1-50。新客:默认10,已使用客户:默认无限制)。当创建时如果超出限制,则会进行提示。

智能 ETL(Smart ETL)数据集组合5.png

智能 ETL(Smart ETL)数据集组合6.png

2. 关联数据

智能 ETL(Smart ETL)数据集组合7.png

功能说明:“关联数据”可以通俗理解为“列拼接”,不同的是,关联数据需要找到双方数据集中相同的关联列进行拼接;并且拼接的形式也比较多样,最终呈现的数据集也可以自定义列,具体如下:

关联方式特性描述
内连接仅对关联列中交集进行连接
左连接默认输出左表所有行,并将右表中关联匹配的列进行连接
全连接对关联列中并集进行连接

举例:

智能 ETL(Smart ETL)数据集组合8.png

智能 ETL(Smart ETL)数据集组合9.png

如图两个数据集分别为零售信息和商品基础信息,对于商品基础信息而言商品编号为唯一主键。

智能 ETL(Smart ETL)数据集组合10.png

我们想要对零售信息中的商品按照商品基础信息中的信息进行补全,因此选择以“商品编号”为关联字段进行左连接。

报错详见 [message] = Reference 'id_1666072244947.truck_id' is ambiguous, could be id_1666072244947.truck_id, id_1666072244947.truck_id.; line 1 pos 0

3. 批量更换ETL数据集

在进行数据开发过程中,当我们需要将数据集替换成新的数据集时,ETL支持批量更换ETL中的数据集,就如数据集卡片一样轻松批量操作,充分提效。

  • 在非直连数据集的详情页,找到关联创建Tab页,选择右侧的切换数据集,可以多选ETL进行切换(多选上限200);

  • 选择数据集进行切换,仍需要在切换后检查ETL节点字段名的一致性,并可以进行人工修正;

  • 切换后会返回成功或失败通知,可跳转到切换后的数据集详情页查看。

智能 ETL(Smart ETL)数据集组合11.png智能 ETL(Smart ETL)数据集组合12.png智能 ETL(Smart ETL)数据集组合13.png