跳到主要内容
版本:7.0.0

ETL全关联操作相关问题处理

场景描述

     当我们在ETL里使用全关联的时候,经常会出现两张数据表中,不同数据列的字段名相同,这种情况下我们如果选择全部字段,则会出现重复提示;但如果只勾选左表或右表字段,则又会造成数据丢失。本文就以下问题详细介绍下ETL中全关联的详细操作。

1. 重复字段名的规避

      关联节点,勾选字段时,对重名字段暂时进行重命名。

图片.png

2. 重复字段名中数据的合并

      新建计算列,使用函数 coalesce([expr1], [expr2], ...) 来返回第一个非 null 值的值,从而实现多列数据合并。

图片.png

图片.png

3. null值处理

      关联过程中会产生大量null值,建议使用“Null值替换”节点把数值字段替换为0,文本字段替换为空字符串。需要按照某种逻辑替换null值的情况,可以参考文档 空值处理  来新建计算列替换。

图片.png

4. 输出数据集

      通过“选择列”节点来选择最终要输出的字段,同时可以重命名和对字段列进行排序。最终效果如下图。