观远 BI

转为高性能查询表

创建于 2022-10-28 / 最近更新于 2024-03-07 / 3667
字体: [默认] [大] [更大]

温馨提示:此产品模块为增值模块,如需试用体验请联系观远数据商务人员或客户成功经理(通常是贵公司当前的服务交流负责人)。



1. 高性能查询表概述

高性能查询表,是观远数据提供的一种数据计算与存储的加速服务。将Guan-Index数据集、文件数据集、ETL输出数据集转换为高性能查询表,可以实现数据分析与查询加速,达到亿级数据秒级计算的效果。观远数据的高性能查询表将ClickHouse的加速能力与BI平台完美融合,基于Clickhouse的计算和存储技术,为用户实现极佳的即席查询体验。

2. 高性能查询表应用场景

2.1 海量业务数据聚合查询与分析

在诸多行业中,存在大数据量、大宽表、高并发的数据分析情况,例如在以零售、消费品为代表的行业中,存在海量库存数据聚合分析与查询、海量订单数据分析、海量商品数据分析等场景。此类情况对BI运行的响应速度与性能提出了极高的要求,观远数据的高性能查询表可以满足业务人员在此类场景中持续的探索式自助分析、即席查询、动态分析的需求,提升分析与查询工作效率,保持连贯的分析思路,打造沉浸式分析体验,深挖数据价值,高效洞悉业务。

2.2 总部管理层经营主题分析

对于企业的总部管理者而言,通常需要对多条业务线、多个业务板块,进行层层下钻分析,而想要洞穿业务实况,往往需要基于海量明细数据,构建一系列管理看板。在观远数据BI平台中,使用高性能查询表,构建亿级明细宽表制作总部管理层系列看板,可以让管理者轻松实现多维分析下钻探索,深入经营主题分析,实现精细化管理,对生意知其然,知其所以然。

2.3 终端执行层高并发查询与分析

高性能查询表还可以结合平台中的行列权限设置、数据集预警与移动轻应用,在保证数据安全和交互体验的同时,发挥高并发的极快响应能力,例如在零售行业中,可以通过结合移动轻应用实现千人千面的单店单客管理,确保门店一线员工的使用体验,提高大家的使用意愿,增强一线团队的运营能力,助力企业整体数字化运营。

3. 高性能查询表使用步骤

3.1 部署与配置

由于高性能查询表是利用了ClickHouse的OLAP分析能力,因此除了部署BI系统主服务外,还需要部署ClickHouse。一般建议ClickHouse进行独立部署,配置不低于8核64G内存,磁盘空间不少于300G。具体部署与配置将由观远数据工作人员为您完成,详情请咨询观远数据工作人员。

3.2 使用说明

3.2.1 数据集发布为高性能查询表

使用ClickHouse进行查询加速的数据集我们都称之为“高性能查询表”。所有Guan-Index数据集、文件数据集、ETL输出数据集都可以支持“高性能查询表”的加速功能。

进入数据集详情页,点击“高级选项”页签,用户可以在这里将普通的数据集切换为“高性能查询表”模式。这样数据就会被导入ClickHouse内,卡片端进行数据查询计算时就会直连ClickHouse进行加速查询。

在配置“高性能查询表”模式时,用户需要设置加速字段:设置加速字段是为了数据在ClickHouse内存储时能更好地分片,合理的分区可以大量减少数据查询时的全表扫描。

一般建议使用日期字段来做分区,分区方式建议设置为“月”或者“日”。使用日期字段做分区,可以有效地控制分区数量,不至于把分区做得过粗或者过细。如果没有日期字段,也可以谨慎选择其他字段进行分析,此时请务必控制分区字段的枚举数量,请勿选择类似订单ID之类的流水号,或者数值类字段作为加速字段。

image.png

配置完分区字段后,点击“确认”即可开始模式切换。数据集数据量大的时候,数据导入到ClickHouse可能需要花费一定的时间,请耐心等候。经观远数据内部测试,1000万行*20列的数据集导入ClickHouse耗时约2min。数据集更新也会触发ClickHouse内的数据重新导入,建议“高性能查询表”的更新频率不超过一天一次。

以下为配置了查询加速功能的ETL输出数据集,从表面来看它似乎与一般的ETL输出数据集并无二异。但我们在使用它创建卡片时,则是利用ClickHouse来作为查询引擎,能够提供飞一般的急速体验。

高性能查询表2.png

3.2.2 使用高性能查询表构建可视化分析

使用高性能查询表创建卡片时,需要遵守ClickHouse的SQL语法。目前ClickHouse已支持窗口函数。

同时,若需要在高性能查询表上应用行列权限,那么行列权限的表示也需要使用ClickHouse的SQL语法进行编写,例如用户属性中门店的内容为当前用户所管辖的门店编号,并以逗号分割,则行列权限可设置为:

has(splitByChar(',',[CURRENT_USER.门店]),[店铺编号])

3.3 使用建议

(1)“高性能查询表”适用的数据量一般为单表1000万行以上,可大大加速卡片端数据查询的效率,但在功能层面会有所限制,如不能使用窗口函数。数据量小于1000万行的数据集,本身基于Spark计算已经能提供较好的响应体验,一般不建议使用“高性能查询表”。

(2)建议尽量不在细粒度的维度上进行聚合运算,若明确知道查询的就是明细数据,那么直接使用“明细表”来查询将获得更好的性能体验。

(3)建议查询时带上分区字段相关的筛选条件,这样查询效率将大幅提升,与此同时,分区字段也请基于常用的查询筛选条件进行设计。

(4)建议在下述环境条件下运行极速引擎:

运行的软件环境:

  • Windows操作系统下,建议使用Chrome或Firefox浏览器;

  • iOS操作系统下,建议使用Safari浏览器;

运行的硬件环境:

  • CPU:Intel处理器八核1.9GHz或同等及以上处理能力;

  • 内存:RAM64GB或以上;

  • 硬盘:300GB或以上。

4. 高性能查询表优势

4.1 极致的查询性能

高性能查询表以分布式计算,来实现高扩展性能,特别适合海量数据下的OLAP查询,适合在大宽表上做任意维度的数据聚合、切片(筛选),也可做明细数据的查询。相比直接使用Spark作为计算引擎,可提供更好的即席查询体验。

4.2 简单的使用方式

通过界面化的方式,简单点选,即可配置分区字段,进行模式切换。整体使用过程零代码、低门槛,无须具备技术背景。支持完善的SQL,功能简单,操作灵活强大。

4.3 高效的存储方案

高效的数据压缩技术,提供10倍压缩比,提升了单机存储能力和计算能力,满足高并发、高吞吐的数据查询与分析场景。


10 人点赞过