筛选数据行
1.功能说明
通过定义筛选条件,实现对数据集的精准过滤,以满足不同业务需求。支持添加多条过滤规则、筛除Null值,并可设置筛选的触发条件等。
在实际业务场景中,源数据存在大量的脏数据,或者分析数据只需要部分数据时,可以通过 筛选数据行 算子来实现。
使用场景 | 业务举例 |
---|---|
过滤无效数据 | 电商平台订单数据清洗: 在处理电商订单数据时,可能存在由于系统错误或恶意攻击导致的异常订单。通过筛选数据行,可以排除无效的订单记录,确保后续分析基于有效的订单数据 |
提取数据子集 | 区销售数据提取: 对于全国范围的销售数据,可能只关心某个特定地区的业绩。通过筛选数据行,可以提取该地区的销售数据,用于详细分析和报告 季度财务报告数据提取: 在财务数据处理中,提取特定季度的数据用于生成季度财务报告。通过筛选数据行,可以选择某季度的数据 |
2.操作步骤
-
将数据流算子区的 筛选数据行 算子拖入右侧画布编辑区;
-
点击 筛选数据行 算子 ,添加 过滤规则(支持多条);
-
过滤规则配置时,选择字段、筛选类型及相关配置、筛除Null值,并点击 确定 ;
-
配置 过滤条件的触发规则;
-
点击 确定 ,并预览数据结果。
支持四种数据类型的筛选,分别为:文本筛选、数值筛选、日期筛选、布尔筛选,不同的筛选类别分别支持不同的筛选器类型。
筛选类别 | 支持筛选器类型 |
---|---|
文本筛选 | 选择、范围、条件 |
数值筛选 | 选择、范围 |
日期筛选 | 选择、范围 |
布尔筛选 | 条件 |
筛选器类型 | 说明 |
---|---|
选择 | 使用条件默认为“等于”对数据进行筛选,输入对比值(某数值、关键文本、特定日期),找到符合条件的数据行 |
范围 | 使用条件如“大于”、“区间”“等于Null值”对数据进行筛选。输入对比值(某数值),找到符合条件的数据行 |
条件 | 使用条件如“等于”、“包含”、“以…开始”对数据进行筛选,输入对比值(关键文本),找到符合条件的数据行 |
其外,在范围筛选器和条件筛选器中,过滤规则不仅可以设定为针对固定值的逻辑条件筛选,还可以在列和列之间设置逻辑条件筛选。
例如,要过滤出“用户下单当天就成功发货的订单数据”,可选择「订单日期」等于「发货日期」(比较列)。
注意:当添加多个筛选条件时,支持设置触发条件为 满足所有规则 或 满足任意规则 。
3.具体案例
下文以配置一个 华东区域销售分析 为例进行介绍。
-
添加过滤规则。
上游节点为全国范围的销售数据。
- 将ETL算子区的 筛选数据行 算子拖入右侧画布编辑区,在上游节点后连线;
- 点击 筛选数据行 算子,左侧区域变为当前算子配置区,根据业务需要重新命名,如“华东区销售分析”;
- 点击 添加 ,打开过滤。
- 规则编辑器弹窗。
-
配置过滤规则编辑器:
- 选择字段:区域
- 类型:条件
- 运算符:包含
- 比较项:固定值
- 输入比较值:华东
- 筛除Null值:勾选
-
预览数据结果:
点击 确定 ,并预览数据结果。