跳到主要内容
版本:6.3.0

智能 ETL(Smart ETL)数据集组合

本文将为您介绍Smart ETL的数据集组合的功能说明与具体操作。

1. 行拼接

image.png

1.1. 功能说明

同类型的业务数据,可能来自不同的下属公司、门店,即便在同一组织,也存在不同数据源的数据集。例如超市有多种支付方式:现金、银联、移动支付等,导致决策者、IT部门在末端获取的数据集来源众多。行拼接则可以把同业务不同来源的数据拼接在一起。

 

在实际应用中,首先通过列编辑中的“选择列”操作符,对一批数据进行规范化处理,并以此作为规范化的数据集为保留版。其他同业务数据通过“行拼接”操作符,整合成更加规范全面的数据集。

举例:

image.png

image.png

如上图所示为两个来源不同的数据集,但是字段完全相同。

image.png

如图在进行行拼接时,可以选择保留列的情况,如保留所有列、仅保留公共列或者保存任意数据集的所有列。

得到拼接结果后,可以在左上区域内,点击某一数据集下的数字查看对应数据集保留了哪些字段。

1.2. 节点数设置

在ETL的创建中,提供针对ETL的 行拼接 的节点数量配置功能。规范ETL的创建,能够避免因操作不当引起的系统运行异常问题。

 

具体操作:管理员设置 > 运维管理 > 参数配置ETL参数配置 > 最大支持“行拼接”节点数 。(可配置范围:1-50。新客:默认10,已使用客户:默认无限制)。当创建时如果超出限制,则会进行提示。

image.png

image.png

2. 关联数据

image.png

功能说明: 关联数据 可以通俗理解为“列拼接”,不同的是,关联数据需要找到双方数据集中相同的关联列进行拼接;并且拼接的形式也比较多样,最终呈现的数据集也可以自定义列,具体如下:

关联方式特性描述
内连接仅对关联列中交集进行连接
左连接默认输出左表所有行,并将右表中关联匹配的列进行连接
全连接对关联列中并集进行连接

举例:

image.png

image.png

如图两个数据集分别为零售信息和商品基础信息,对于商品基础信息而言商品编号为唯一主键。

image.png

我们想要对零售信息中的商品按照商品基础信息中的信息进行补全,因此选择以 商品编号 为关联字段进行左连接。

报错详见[message] = Reference 'id_1666072244947.truck_id' is ambiguous, could be id_1666072244947.truck_id, id_1666072244947.truck_id.; line 1 pos 0 。

3. 批量更换ETL数据集

在进行数据开发过程中,当我们需要将数据集替换成新的数据集时,ETL支持批量更换ETL中的数据集,就如数据集卡片一样轻松批量操作,充分提效。

  • 在非直连数据集的详情页,找到关联创建Tab页,选择右侧的切换数据集,可以多选ETL进行切换(多选上限200);

  • 选择数据集进行切换,仍需要在切换后检查ETL节点字段名的一致性,并可以进行人工修正;

  • 切换后会返回成功或失败通知,可跳转到切换后的数据集详情页查看。

image.png

image.png

image.png

如后续使用其他数据处理算子,详情参考 新手入门 。