跳到主要内容
版本:7.4.0

数据去重

概述

数据去重是指在数据处理的过程中,检测并移除数据集中的重复记录,确保在结果数据中每条记录都是唯一的。通过对单列或多列进行去重转换,避免因重复记录导致数据分析误差和结果不准确。

如在电商订单处理场景中,订单系统中可能存在由于系统问题或用户误操作而导致的订单重复记录。此时通过去重操作,确保每个订单号只出现一次,避免对销售统计和库存管理产生误导。

image.png

使用指导

操作步骤

  1. 将ETL算子区的「数据去重」算子拖入右侧画布编辑区;

  2. 点击「数据去重」算子 ,点击「添加」;

  3. 勾选「去重主键(去重列)」,支持多选;

  4. 点击「确定」,并预览数据结果。

image.png

详细说明

下文以 商品名称去重 为例进行介绍。

前置条件:上游节点为 含重复数据的产品演示数据集。

image.png

  1. 将ETL算子区的「数据去重」算子拖入右侧画布编辑区,与上游节点连线;

    image.png

  2. 点击「数据去重」算子,左侧区域变为当前算子配置区。点击「添加」,勾选目标字段进行去重;

    image.png

    说明

    通常使用输入数据集的主键作为去重列。主键:表中的一个或多个字段,它的值用于唯一地标识表中的某一条记录。若去重列字段选择「省份」,则有如下效果:

省份城市商品分类商品名称零售价
山西省忻州市日用品类植物洗发水500ML12.5
四川省成都市日用品类画画纸100张12.5
河南省商丘市日用品类英语习题册大全12.5
  1. 点击「确定」,配置完成后预览处理后的数据效果,已成功去重。

    image.png

如后续使用其他数据处理算子,详情参考新手入门