跳到主要内容
版本:7.0.0

选择列

1. 概述

接入的数据集常会出现一些规范化程度较低的数据,存在字段冗余、不规范的情况。此时用户可以使用选择列算子,保留有效字段,得到更清晰有效的数据集。

通过选择列,可以减少需要处理和传输的数据量,使用户可以专注于关键列的数据,在大规模数据处理场景下尤为重要。

image.png

2. 使用指导

  1. 将ETL算子区的 选择列 算子拖入右侧画布编辑区;

  2. 点击 选择列 算子 ,按需勾选需要的列(支持搜索);

  3. 鼠标移动到 已勾选的字段上,为列名称重命名,可选;

  4. 配置完成后,预览数据结果。

image.png

2.1. 详细说明

下文将26列数据 保留至5列 为例进行介绍。案例原始效果如下:

image.png

  1. 将ETL算子区的 选择列 算子拖入右侧画布编辑区,连接上游节点;

  2. 点击 选择列 算子,左侧区域变为当前算子配置区,根据业务需要重新命名(可选);

image.png 

  1. 按需勾选需要的列,并为旧列重命名;
  • 勾选省份、城市、区县、销售金额、销售数量;

  • 将销售金额改为“销售总额”。

image.png

  1. 配置完成后,预览数据结果。

image.png