选择列
1. 概述
接入的数据集常会出现一些规范化程度较低的数据,存在字段冗余、不规范的情况。此时用户可以使用选择列算子,保留有效字段,得到更清晰有效的数据集。
通过选择列,可以减少需要处理和传输的数据量,使用户可以专注于关键列的数据,在大规模数据处理场景下尤为重要。
2. 使用指导
-
将ETL算子区的 选择列 算子拖入右侧画布编辑区;
-
点击 选择列 算子 ,按需勾选需要的列(支持搜索);
-
鼠标移动到 已勾选的字段上,为列名称重命名,可选;
-
配置完成后,预览数据结果。
2.1. 详细说明
下文将26列数据 保留至5列 为例进行介绍。案例原始效果如下:
-
将ETL算子区的 选择列 算子拖入右侧画布编辑区,连接上游节点;
-
点击 选择列 算子,左侧区域变为当前算子配置区,根据业务需要重新命名(可选);
- 按需勾选需要的列,并为旧列重命名;
-
勾选省份、城市、区县、销售金额、销售数量;
-
将销售金额改为“销售总额”。
- 配置完成后,预览数据结果。