智能 ETL(Smart ETL)高级计算
1. 数据勘查
功能说明:在 Smart ETL(后文统一简称为 ETL)开发过程中,要时常查看数据集的统计信息,如:数据行数、某个字段的唯一值个数、Null 值个数等,对于这些信息往往需要进行“筛选数据行”、“分组聚合”等多种操作进行人工配置,为简化处理流程,观远数据近期在 ETL 中新增“数据探查”操作,可一次性输出数据集统计信息,提高数据处理效率。
具体操作:进入ETL编辑界面,左侧操作栏中在“高级计算”分类下方找到 数据探查 ,拖入编辑界面,将相关的数据处理操作符连接到 数据探查 ,点击后进行设置。
勾选需要统计的数据集信息,表级别支持统计数据集的行列数;字段级别,首先选择需要统计的字段,支持统计一个字段的 Null 值个数、唯一值个数、枚举值(最多展示200个枚举值);点击编辑区域下方 查询 ,查看数据集统计信息。
2. SQL输入
SQL输入 算子,能够帮助习惯使用SQL语句的数据分析人员能够通过SQL输出数据集,缩短了配置流程。
为了帮助ETL访问者更加清晰明了地查看详细信息,ETL中的 SQL输入 、 新建计算字段 算子的字段表达式内容支持外部展示。
功能说明:使用SQL对数据进行查询、提取与融合。
配置说明:拖入 SQL输入 算子至画布中,选中该节点,然后点击 编辑 按钮。可按照相关示例引入函数、填写字段名称,点击 确定 按钮即可。
同时,在选择字段加入SQL编辑器时,支持一次性选取多个字段(“shift”支持连续多选,“cmd”支持跳跃多选)。
具体操作:在 字段栏 中,点击第一个输入字段后,按下shift键再选另外一个,会将多个字段填入查询框,并自动补齐字段间分隔符,cmd同理。
3. 关联性挖掘
关联性挖掘 算子,能够帮助数据分析人员快速实现关联挖掘算法,找到数据内不同项目间有高关联性的项目。(此功能为付费模块,默认不开放,如需体验或购买,请联系观远数据商务人员)
4. 智能对标
智能对标 算子,能够让用户指定分类主体、指定相关分类特征以及相邻主体数量后,可自动获取该每个主体(门店)的对比项(对比门店),以列表形式展示。(此功能为付费模块,默认不开放,如需体验或购买,请联系观远数据商务人员)
如后续使用其他数据处理算子,详情参考 新手入门 。
5.智能归因
功能说明
关键指标归因往往是多维度、有交叉、有下钻、有指标拆解、有目标达成差距分析以及关联指标显著性分析的综合归因,为实现这类复杂场景归因分析,观远提供SmartETL智能归因算子进行归因计算,再使用SmartETL进行数据的进一步加工整合,提供面向于前端数据产品的ADS层数据。
归因原则遵循:
- 原子化:聚焦于两份数据对比的基础原子归因能力,不去考虑原始数据过滤,同比、环比、目标对比、横向对比等对比数据的来源问题(这些问题由SmartETL里面其他算子能力提供)。
- 标准化:提供标准的维度拆解归因与指标拆解归因能力,计算过程黑盒化,用户只需要理解归因链路,得到标准的归因结果输出,无需关心计算过程。
- 批处理:相对于前端的即席归因,SmartETL归因算子需要提供归因批处理能力,把不同期、不同颗粒度的数据一次性完成归因分析,物化为归因结果数据。
配置说明
拖入「智能归因」 算子至画布中,单击该节点,在界面左侧配置智能归因。
配置项 | 说明 |
---|---|
对比字段、当期值条件、基期值条件 | 选择对比字段,按照选择的字段输入当前值和上期值的条件 |
归因指标类型 | 本次归因需要分析和监控的关键指标。 |
指标公式 | 单击「编辑」,选择函数以及字段,为主指标配置一个计算公式 |
遍历维度 | 选择遍历维度,可多选 |
归因维度 | 支持三种维度的归因,不能包含遍历维度 |
效果预览
选中需要查看的归因结果数据集,点击下方「预览」查看归因结果。