ETL全关联操作相关问题处理
场景描述
当我们在ETL里使用全关联的时候,经常会出现两张数据表中,不同数据列的字段名相同,这种情况下我们如果选择全部字段,则会出现重复提示;但如果只勾选左表或右表字段,则又会造成数据丢失。本文就以下问题详细介绍下ETL中全关联的详细操作。
1. 重复字段名的规避
关联节点,勾选字段时,对重名字段暂时进行重命名。
2. 重复字段名中数据的合并
新建计算列,使用函数 coalesce([expr1], [expr2], ...) 来返回第一个非 null 值的值,从而实现多列数据合并。
3. null值处理
关联过程中会产生大量null值,建议使用“Null值替换”节点把数值字段替换为0,文本字段替换为空字符串。需要按照某种逻辑替换null值的情况,可以参考文档 空值处理 来新建计算列替换。
4. 输出数据集
通过“选择列”节点来选择最终要输出的字段,同时可以重命名和对字段列进行排序。最终效果如下图。