分组聚合
1. 概述
分组聚合是指通过对某维度或某几类维度的数值处理,将多行数据按照维度,聚合至一行。当选择多个维度时,按照颗粒度最小的维度,进行聚合。
例如零售行业统计销售情况时,需要将商品分类相同的数据合并在一起,并计算对应的销售总金额。
2. 使用指导
2.1. 操作步骤
-
将ETL算子区的 分组聚合 算子拖入右侧画布编辑区;
-
点击 分组聚合 算子,并将字段拖入维度栏、数值栏;
-
点击拖入的字段,按需设置字段别名,并选择聚合方式;
-
在当前节点处,点击 预览 确认数据结果。
2.2. 详细说明
下文以配置一个 区域营业额 为例进行介绍。
将相同店铺区域的营业额数据分别合并在一起,一线市场营业额、二线市场营业额和其他营业额,聚合前预览:
-
将ETL算子区的 分组聚合 算子拖入右侧画布编辑区,连接上游节点;
-
点击 分组聚合 算子,左侧区域变为当前算子配置区,根据业务需要重新命名,例如“区域营业额”;
- 将店铺区域拖入维度栏,点击该字段,并按需设置字段别名:
注意:数值栏字段默认聚合方式是文本类型为计数,数值类型为求和。
- 将营业额拖入数值栏,点击该字段,选择聚合方式为求和,可按需设置字段别名:
报错详见 ETL分组聚合节点提示丢失字段,但实际上并没有丢失该字段 。
报错详见 类型不匹配字段 。
其中我们支持7种聚合方式,包括但不限于求和、最小值、最大值等。
聚合方式 | 用途 | 使用场景 | 例子 |
求和 | 将指定维度下的度量值相加,计算总和 | 度量值可累加的情况 | 每月销售总额、每日网站访问量 |
最小值 | 获取指定维度下度量值的最小值 | 度量值有最小值概念的情况 | 每个产品的最低销售价格、每月最低温度 |
最大值 | 获取指定维度下度量值的最大值 | 度量值有最大值概念的情况 | 每个产品的最高销售价格、每月最高温度 |
平均值 | 计算指定维度下度量值的平均值 | 度量值可以求平均的情况 | 每月平均销售额、每周平均用户登录次数 |
计数 | 统计指定维度下的数据记录数量 | 需要知道某个维度下有多少个数据记录的情况 | 需要知道某个维度下有多少个数据记录的情况 |
去重计数 | 统计指定维度下去重后的数据记录数量 | 需要知道某个维度下不同数值的数量的情况 | 每月不同产品的销售数量、每个地区的不同客户数量 |
无处理 | - | - | - |
- 点击 预览 ,预览数据结果,以确保分组聚合后的数据符合预期,不包含错误或异常值。
如后续使用其他数据处理算子,详情参考 新手入门 。