跳到主要内容
版本:6.0.0

Trino 数据接入

1. 概述

Trino是一种分布式 SQL 查询引擎,旨在查询分布在一个或多个异构数据源上的大型数据集。它通过在整个集群的服务器上分配处理任务来实现横向扩展,基于这种架构,Trino查询引擎可以在集群内的计算节点并行处理海量数据的SQL查询。观远数据针对 Trino 专门开发了数据连接器,本文将介绍如何连接 Trino 数据库。

2. 准备工作

在连接数据库之前,请收集以下信息:

  • 数据库的版本(版本要求: Trino ≥ 358);

  • 数据库所在服务器的 IP 地址和端口号;

  • 数据库的名称;

  • 数据库的用户名和密码;

  • 需要连接的数据库方式;

  • schema名字(可选)。

3. 连接步骤

3.1 创建数据连接账户

登录观远BI ,点击「数据中心>数据账户」,点击「新建数据账户」,在添加账户弹窗中,账户平台框选择「Trino」,如下图所示:

3.2 创建数据集

3.2.1 选择连接器

点击「数据中心>数据集」,点击“+新建数据集”,选择“数据库”。在“选择连接器”中选中“Trino”,点击下一步。

3.2.2 选择数据表

下拉选择已有数据账户,选择数据表。用户还可以根据自己的需要在中间“SQL 查询”区域填写查询语句。

输入框下方有“时间宏”供您选择,为数据更新与动态分析设置时间要求。观远数据的动态时间宏,可以帮助您根据当前日期生成动态SQL,高效实现定时刷新数据与增量更新。例如我们可以输入这样的SQL语句:

更多使用方式可查看《动态时间宏》。点击“时间宏”下方的“添加参数”功能,可以使用参数来实现数据分析维度的切换。更多使用方式可查看《全局参数》

数据预览成功后,可进入到下一步。

3.2.3 数据连接及更新设置

观远数据支持“直连数据库”与“Guan-Index”两种数据库连接方式。点击数据库连接方式的选择框,选择“直连数据库”或“Guan-Index”,并进行相关设置。

1.png

方式一: 直连数据库

直连数据库,是指选择“直连数据库”时,卡片数据将直接从数据库获得。用户需要设置“缓存有效周期”和“支持实时卡片数据”。

  • “缓存有效周期”即“数据更新周期”,作用是定时更新与该数据集相关的所有卡片、卡片数据集、ETL、JOIN等数据。

  • “支持实时卡片数据”是指建在该数据集上的卡片,可支持更短周期的数据更新,当前默认为1分钟。

2.png

如果开通了“24h定时更新任务密度图功能”,功能开启后,缓存有效周期选择每天/每周/每月,则会展示定时更新任务密度图(如需使用该功能,请联系观远人员协助开启)。

3.png

方式二: Guan-Index

Guan-Index,是指数据被抽取到观远服务器后将构建物理数据集,支持增量更新。具体使用步骤如下:

  • 首先,当您选择Guan-Index模式时,在上一步的“数据库查询”中,不能选择“添加参数”。

  • 其次,若您要对数据集进行增量更新或未来有设置增量更新的可能,可以通过点击选择“去重主键”,对未来需要增量更新的字段进行设置。

  • 再次,如点击“增量更新”,您可以填写SQL来设置增量更新的条件,通常与时间宏参数配合进行。

  • 最后,设置数据更新周期,即可进入“下一步”。

4.png

3.2.4 确认数据表信息

在确认数据表信息阶段,观远数据支持确定数据集名称与保存位置、支持字段重命名。

信息一:确定数据集名称与保存位置

为您的数据集提供一个方便辨识的名字,以及指定保存位置。点击确认后,数据集创建成功,可以在“数据中心”-“数据集”中找到它。需要注意的是,若创建的是Guan-Index数据集,您可能需要等待一段时间,等数据抽取完成后可以在“数据中心”看到正确的数据集信息。

信息二:支持字段重命名

当字段名需要修改时,点击字段名右侧的小箭头,即可打开下拉框,修改字段名。

3.3 使用数据集

在数据集创建完后,可以直接使用数据集制作可视化图表等操作,您还可以对数据集进行其他设置操作,具体操作可查看《数据集》相关文档。