数据去重
1. 概述
数据去重是指在数据处理的过程中,检测并移除数据集中的重复记录,确保在结果数据中每条记录都是唯一的。通过对单列或多列进行去重转换,避免因重复记录导致数据分析误差和结果不准确。
如在电商订单处理场景中,订单系统中可能存在由于系统问题或用户误操作而导致的订单重复记录。此时通过去重操作,确保每个订单号只出现一次,避免对销售统计和库存管理产生误导。
2. 使用指导
2.1. 操作步骤
-
将ETL算子区的 数据去重 算子拖入右侧画布编辑区;
-
点击 数据去重 算子 ,点击 添加 ;
-
勾选去重主键(去重列),支持多选;
-
点击 确定 ,并预览数据结果。
2.2. 详细说明
下文以 商品名称去重 为例进行介绍。
前置条件:上游节点为 含重复数据的产品演示数据集。
- 将ETL算子区的 数据去重 算子拖入右侧画布编辑区,与上游节点连线;
- 点击 数据去重 算子,左侧区域变为当前算子配置区。点击 添加 ,勾选目标字段进行去重;
注意:通常使用输入数据集的主键作为去重列。主键:表中的一个或多个字段,它的值用于唯一地标识表中的某一条记录。若去重列字段选择“省份”,则有如下效果:
省份 | 城市 | 商品分类 | 商品名称 | 零售价 |
山西省 | 忻州市 | 日用品类 | 植物洗发水500ML | 12.5 |
四川省 | 成都市 | 日用品类 | 画画纸100张 | 12.5 |
河南省 | 商丘市 | 日用品类 | 英语习题册大全 | 12.5 |
- 点击 确定,配置完成后预览处理后的数据效果,已成功去重。
如后续使用其他数据处理算子,详情参考 新手入门 。