观远 BI

视图数据集

创建于 2024-07-20 / 最近更新于 2024-11-12 / 816
字体: [默认] [大] [更大]

1. 概述

1.1. 功能说明

视图数据集,旧称动态数据集,是指观远数据提供的基于 Spark SQL 的可参数化执行的动态数据集。可将非直连数据集进行动态关联与计算,提供更灵活的数据分析方式。是一种通过 Spark SQL ,解决即席分析场景下的复杂分析问题的查询计算功能。

通过视图数据集,用户可以将 1 个或多个非直连数据集(实时数据集除外),通过 Spark SQL 对数据集进行重新整合,创建新的数据集。借助 Spark SQL 丰富的数据处理函数,可以帮助用户完成复杂的关联查询、数据预处理等。此外,还可以在 Spark SQL 查询语句中添加动态参数,完成动态计算需求。

1.2. 应用场景

  1. 连锁零售企业的PSD计算

PSD 计算时,分子销售额是在日期、门店、SKU 维度上的,统计是销售金额表上聚合计算得到的;而分母稼动天数则是在日期、门店维度上的,统计时需要在门店稼动表上进行聚合计算,它在商品(SKU)维度是不需要累加的。如果选择任何在原表上直接关联的方式,要么数据量急剧膨胀,要么会出现聚合出来的结果不准确的情况。只有将两张表的聚合结果再关联后计算 PSD,才是最简单最准确的方式。观远数据的视图数据集,支持多数据集自动关联。通过自定义SQL,将参数注入到 SQL 里面,在两张原始表上做层级聚合,并将结果集关联后计算 PSD 值。

  1. 其他场景

  • 计算企业相关经营数据的百分比的同环比;

  • 分析动态时间范围内消费者的消费频次分布问题。

2. 使用指导

2.1. 创建视图数据集

功能入口:数据准备 > 数据集 >  新建数据集 > 应用 > 视图数据集。

image.png

2.2. 选择数据表

进入视图数据集的配置页面,点击添加数据集,可选择 1 个或多个数据表。

注意:为保证计算性能,请尽量选择 2 个以内数据集。

image (2).png

2.3. 输入动态查询的SQL

选定相关数据集后,用户在输入“动态查询SQL”时,按需选取左侧“数据集字段”和“动态参数(非必选)”实现动态参数场景的灵活传参及查询动作,SQL 编写完成后,点击“预览”按钮进行数据准确性确认。

注意:
视图数据集适用于有动态参数场景,若您的SQL中未包含动态参数,建议使用ETL进行数据加工,强行使用视图数据集会导致卡片查询出现不可预估的性能损耗。

image (3).png


为方便理解视图的业务含义,可对视图名称设置别名。

image (4).png


有时用户会给数据集的某些字段设置字段别名,若希望在数据集字段中隐藏这些字段别名,点击“仅显示原始字段名”,即可实现字段别名的隐藏。

4.png

2.4. 填写数据集信息

数据预览成功之后,指定数据集名称及存储位置,按需添加数据集描述,点击“确认新建”即可完成数据集创建。

image.png

2.5. 创建完成数据集

视图数据集创建成功后,可在对应的文件夹目录下找到该数据集。点击数据集进入数据详情页,可查看该数据集的概览、相关联的卡片和模型结构,并对各个界面中的配置项进行修改操作。

6.png

2.6. 设置预览超时上限

用户可在管理中心设置视图数据集的预览超时上限,可通过引导用户在推荐场景下使用视图数据集,降低性能损耗。

管理中心 > 运维管理 > 参数配置 中,支持设置视图数据集预览超时上限,默认 60 s。

7.png

设置后,对历史已经创建的视图数据集不产生影响。

image.png3. 实践案例

更多案例详见《用视图数据集统计人流量 》《视图数据集使用方法及案例分享》《用视图数据集实现动态显示前后N个排名 》


1 人点赞过