跳到主要内容
版本:7.0.0

分组聚合

1. 概述

分组聚合是指通过对某维度或某几类维度的数值处理,将多行数据按照维度,聚合至一行。当选择多个维度时,按照颗粒度最小的维度,进行聚合。

例如零售行业统计销售情况时,需要将商品分类相同的数据合并在一起,并计算对应的销售总金额。

image.png

2. 使用指导

2.1. 操作步骤

  1. 将ETL算子区的 分组聚合 算子拖入右侧画布编辑区;

  2. 点击 分组聚合 算子,并将字段拖入维度栏、数值栏;

  3. 点击拖入的字段,按需设置字段别名,并选择聚合方式;

  4. 在当前节点处,点击 预览 确认数据结果。

image.png

2.2. 详细说明

下文以配置一个 区域营业额 为例进行介绍。

将相同店铺区域的营业额数据分别合并在一起,一线市场营业额、二线市场营业额和其他营业额,聚合前预览:

image.png

  1. 将ETL算子区的 分组聚合 算子拖入右侧画布编辑区,连接上游节点;

  2. 点击 分组聚合 算子,左侧区域变为当前算子配置区,根据业务需要重新命名,例如“区域营业额”;

image.png

  1. 将店铺区域拖入维度栏,点击该字段,并按需设置字段别名:

注意:数值栏字段默认聚合方式是文本类型为计数,数值类型为求和。

image.png

  1. 将营业额拖入数值栏,点击该字段,选择聚合方式为求和,可按需设置字段别名:

image.png

报错详见 ETL分组聚合节点提示丢失字段,但实际上并没有丢失该字段 。

报错详见 类型不匹配字段 。

其中我们支持7种聚合方式,包括但不限于求和、最小值、最大值等。

聚合方式用途使用场景例子
求和将指定维度下的度量值相加,计算总和度量值可累加的情况每月销售总额、每日网站访问量
最小值获取指定维度下度量值的最小值度量值有最小值概念的情况每个产品的最低销售价格、每月最低温度
最大值获取指定维度下度量值的最大值度量值有最大值概念的情况每个产品的最高销售价格、每月最高温度
平均值计算指定维度下度量值的平均值度量值可以求平均的情况每月平均销售额、每周平均用户登录次数
计数统计指定维度下的数据记录数量需要知道某个维度下有多少个数据记录的情况需要知道某个维度下有多少个数据记录的情况
去重计数统计指定维度下去重后的数据记录数量需要知道某个维度下不同数值的数量的情况每月不同产品的销售数量、每个地区的不同客户数量
无处理---
  1. 点击 预览 ,预览数据结果,以确保分组聚合后的数据符合预期,不包含错误或异常值。

image.png

如后续使用其他数据处理算子,详情参考 新手入门 。