做一个简单的数据处理
创建于 2023-12-01 / 最近更新于 2024-09-05 / 4930
字体:
[默认]
[大]
[更大]
1. 概述
2. 实现思路
数据中心 > 数据集 和 智能ETL 案例_门店销售统计
数据中心 > 数据集
智能ETL
输入数据集
输出数据集
3. 示例步骤
智能ETL +新建ETL
ETL_门店销售统计 根目录 案例_门店销售统计 ;
输入数据集 输入数据集
关联数据 输入数据集 关联数据
2. 将3个数据集按照以下规则进行左外连接:
· 3.0零售明细信息/商品编码 = 1.0商品资料信息/商品编码。
· 3.0零售明细信息/门店编码 = 2.0门店资料信息/门店编码。
注意:内连接、左连接和全连接的区别 :
全连接:对关联列中交集行进行连接,并与未匹配的行一并输出;
左外连接:默认输出左表所有行,并将右表中关联匹配的列进行连接(以左表为基准,右表向左表靠拢合并)。
当源数据存在大量脏数据,或只需要部分分析数据时,可以通过“筛选数据行”操作符来实现。
实际业务中,“物料”、“咖啡”相关的数据不计入门店消费,需要剔除这部分数据。
1. 在ETL编辑区域中,找到并拖入“筛选数据行”算子;
添加 不等于 不等于
对现有数据集中存在的列维度进行扩展或合并计算,可以增加分析需要的新指标等。
接下来我们根据现有字段计算出“金额”并将其纳入到数据表中,作为我们后续可视化分析的新指标。
添加计算列 添加计算字段 数值
将处理后的数据作为数据集输出。
最后我们将销售明细数据表输出,可用于后续的数据分析与可视化。
输出数据集 销售明细数据表 根目录 案例_门店销售统计
在ETL列表页点击进入ETL的详情界面,选择 更新设置 调度状态
更新设置, 调度状态
调度状态
勾选的数据集更新后触发条件
任务优先级超时设置
确定更新设置
保存并退出 ,
更新设置
在ETL详情页面,点击访问者管理
4. 更多
10 人点赞过