跳到主要内容
版本:5.9.0

实时数据集

1. 实时数据集概述

实时数据集(也称“实时数据引擎”),是指观远数据提供的一种实时数据接入及融合方式。观远数据的实时数据采用 Lambda 架构,采取批处理数据与实时数据的分开处理,并能支持多数据源的实时融合,实现分钟级的实时数据更新。

温馨提示:此产品模块为增值模块,如需购买,请联系观远数据商务人员或客户成功经理(通常是贵公司当前的服务交流负责人)。

2. 实时数据集使用步骤

进入数据中心,点击右上角“新建数据集”,选择“实时数据集”,即可打开“实时数据初始化”弹窗,开始操作。

实时数据集1.png

2.1 新建实时数据集

实时数据集构建,需要事先明确实时数据的更新周期和指标维度。在“实时数据初始化”弹窗中,输入新数据集名称,并设置数据更新周期和指标维度。

  • 数据更新周期:分为5分钟、10分钟、15分钟、20分钟、30分钟、1小时六种。

  • 指标维度:不允许重名,创建以后将不可进行增删操作。时间维度将自动生成,此处无需添加。例如,需要做到每五分钟更新连锁门店营业及客流数据,则选择更新周期为“5分钟”,指标维度为门店ID。

实时数据集2.png

2.2 实时数据建模

完成“实时数据集初始化”后,进入实时数据集建模界面。

实时数据集3.png

2.2.1 添加实时数据源

实时数据集的数据来源,主要分为实时部分与静态部分(历史数据或主维度字段的辅助字段),分别对应配置界面左侧的实时数据源与静态数据。

实时数据源,主要用来提供实时指标数据,因此一般需要连接外部数据库。在“实时数据源”一栏,点击添加,可选择相应的数据库连接器。

实时数据集4.jpg

选好后,进入下一步,选择数据表。您可以选择一张具有实时数据的数据表,也可以自行定义SQL查询语句,获得一个 View Table:

实时数据集5.png

预览数据,并给该实时数据表命名后,可点击下一步,配置关联关系。在这里需要关联的是实时数据表中与初始化数据集时定义的维度字段一致的那个字段。例如,将实时数据集中的“shopId”与先前定义的“门店ID”做关联。

实时数据集6.png

最后点击“完成”,一个实时数据源即添加完成。您可以基于实际情况,添加多个实时数据源进来。

2.2.2 创建动态指标

实时数据源添加后,即可基于实时数据源创建动态指标(实时指标),点击“动态指标”的“+新建”按钮,打开“动态指标编辑器”。

实时数据集7.jpg

在“动态指标编辑器”中,为动态指标输入名称,指定指标类型,指定数据类型、聚合方式、数据来源、关联的时间字段。同一个实时数据源,可以为多个动态指标所用,一个动态指标也可以同时来自于不同的数据源。

2.2.3 添加静态数据及静态字段

实时数据集中,有一些数据并非需要实时更新,例如门店基础信息、门店当天的目标营业额等。这些信息您可以在非直连数据集中按T+1的方式更新,然后添加为实时数据集的静态数据来源。

例如,您可以添加“门店信息表”数据集为静态数据,关联“store_id”到实时数据集“门店ID”,并添加该数据集上若干字段为实时数据集的静态字段。

实时数据集8.png

2.2.4 设置更新时间

在配置界面的右上角,您可以输入更新开始与结束区间。例如,由于零售行业一般白天营业时间才有业务数据,而晚上系统要做T+1的批量数据处理,为了平衡计算资源,减轻系统的压力,您可以根据实际需要来设置一个合理的更新时间区间。

2.3 实时数据集高级功能

2.3.1 对比指标支持自定义同环比

功能简介:除标准周期的日周月季年同环比以外,实时数据集的对比指标新增了自定义同环比功能,支持更加灵活的同环比实时分析场景。

创建入口:动态指标编辑器——新建“对比指标”——“自定义”对比类型——选择“对比日期”。

实时数据集9.png

效果预览:

实时数据集10.png

2.3.2 支持累计指标的创建

功能简介:实时数据集可添加本周/本月/本季度/本年到昨天的累计指标,结合当日实时指标的求和运算,可以进行本周/本月/本季度/本年累计到此时的实时分析。

创建入口:动态指标编辑器——新建累计指标——选择累计周期。

实时数据集11.png

效果预览:

实时数据集11.png

2.3.3 创建后的编辑功能

功能简介:在实时数据集创建完毕后,仍可以进行修改与调整。具体如图所示:

实时数据集13.png

2.4 使用实时数据集进行数据分析

实时数据集的使用方式,跟一般的数据集使用方式一样,可以用来创建各种图表类型,但目前暂不支持 Smart ETL。实际数据处理时,您仅能对当天的数据进行聚合分析处理,而历史数据则可以放在静态数据中做统一处理。关于实时数据的更多详细信息可以咨询您的观远顾问。

3. 实时数据集应用场景

3.1 门店客流数据分析

客流统计直接反应了门店的人气程度,关系着门店的经营状况,对于门店的经营来说,是比较重要的数据指标。客流统计就是记录门店某个时段的人流数,掌握门店流量的情况。这项数据可作为商家对门店的经营策略进行调整的依据,通过人员重新安排和营销活动的调整,提高门店的客流量。观远数据的实时数据集(实时数据引擎),可以让企业快速接通门店客流数据,对过店/进店客流区分统计,并且生成可视化报表、趋势报表。

3.2 商品销售数据分析

大量零售消费企业需要及时掌握商品销售的数据情况,监控产品的市场反馈,从而有针对性地调整售卖策略,观远数据的实时数据集(实时数据引擎),能够帮助企业追踪销售指标值,查看销售达成率与变化情况。当数据出现异动,即可及时掌握问题,分析原因。

实时数据集14.jpg

3.3 大促活动分析

目前对于大量的电商品牌和有线上销售渠道的企业来说,大促活动逐渐常态化。观远数据的实时数据集(实时数据引擎),能够帮助企业在大促活动期间,及时关注促销活动前中后的数据情况,从而让企业能够及时洞察问题,合理分配资源与放大活动运营效果。

实时数据集15.jpg

4. 名词解释

Lambda架构:

Lambda架构,是指2012年Storm的作者Nathan Marz提出的Lambda数据处理框架。Lambda架构的目标是设计出一个能满足实时大数据系统关键特性的架构,包括有:高容错、低延时和可扩展等。Lambda架构整合离线计算和实时计算,融合不可变性(Immunability),读写分离和复杂性隔离等一系列架构原则,可集成Hadoop,Kafka,Storm,Spark,Hbase等各类大数据组件。