视图数据集
1. 概述
1.1. 功能说明
视图数据集,旧称动态数据集,是指观远数据提供的基于 Spark SQL 的可参数化执行的动态数据集。可将非直连数据集进行动态关联与计算,提供更灵活的数据分析方式。是一种通过 Spark SQL ,解决即席分析场景下的复杂分析问题的查询计算功能。
通过视图数据集,用户可以将 1 个或多个非直连数据集(实时数据集除外),通过 Spark SQL 对数据集进行重新整合,创建新的数据集。借助 Spark SQL 丰富的数据处理函数,可以帮助用户完成复杂的关联查询、数据预处理等。此外,还可以在 Spark SQL 查询语句中添加动态参数,完成动态计算需求。
1.2. 应用场景
连锁零售企业的PSD计算
PSD 计算时,分子销售额是在日期、门店、SKU 维度上的,统计是销售金额表上聚合计算得到的;而分母稼动天数则是在日期、门店维度上的,统计时需要在门店稼动表上进行聚合计算,它在商品(SKU)维度是不需要累加的。如果选择任何在原表上直接关联的方式,要么数据量急剧膨胀,要么会出现聚合出来的结果不准确的情况。只有将两张表的聚合结果再关联后计算 PSD,才是最简单最准确的方式。观远数据的视图数据集,支持多数据集自动关联。通过自定义SQL,将参数注入到 SQL 里面,在两张原始表上做层级聚合,并将结果集关联后计算 PSD 值。
其他场景
计算企业相关经营数据的百分比的同环比;
分析动态时间范围内消费者的消费频次分布问题。
2. 使用指导
2.1. 创建视图数据集
功能入口:数据准备 > 数据集 > 新建数据集 > 应用 > 视图数据集。
2.2. 选择数据表
进入视图数据集的配置页面,点击添加数据集,可选择 1 个或多个数据表。
注意:为保证计算性能,请尽量选择 2 个以内数据集。
2.3. 输入动态查询的SQL
选定相关数据集后,用户在输入“动态查询SQL”时,按需选取左侧“数据集字段”和“动态参数(非必选)”实现动态参数场景的灵活传参及查询动作,SQL 编写完成后,点击“预览”按钮进行数据准确性确认。
注意:
视图数据集适用于有动态参数场景,若您的SQL中未包含动态参数,建议使用ETL进行数据加工,强行使用视图数据集会导致卡片查询出现不可预估的性能损耗。
为方便理解视图的业务含义,可对视图名称设置别名。
有时用户会给数据集的某些字段设置字段别名,若希望在数据集字段中隐藏这些字段别名,点击“仅显示原始字段名”,即可实现字段别名的隐藏。
2.4. 填写数据集信息
数据预览成功之后,指定数据集名称及存储位置,按需添加数据集描述,点击“确认新建”即可完成数据集创建。
2.5. 创建完成数据集
视图数据集创建成功后,可在对应的文件夹目录下找到该数据集。点击数据集进入数据详情页,可查看该数据集的概览、相关联的卡片和模型结构,并对各个界面中的配置项进行修改操作。
2.6. 设置预览超时上限
用户可在管理中心设置视图数据集的预览超时上限,可通过引导用户在推荐场景下使用视图数据集,降低性能损耗。
在 管理中心 > 运维管理 > 参数配置 中,支持设置视图数据集预览超时上限,默认 60 s。
设置后,对历史已经创建的视图数据集不产生影响。
3. 实践案例
更多案例详见《用视图数据集统计人流量 》、《视图数据集使用方法及案例分享》、《用视图数据集实现动态显示前后N个排名 》。