跳到主要内容
版本:6.5.0

Hive 数据接入

1. 概述

Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。Hive十分适合对数据仓库进行统计分析。观远数据针对 Hive 专门开发了数据连接器,本文将介绍如何连接 Hive 数据库。

2. 准备工作

在连接数据库之前,请收集以下信息:

  • 数据库的版本(版本要求:Hive ≥ 2.1);

  • 数据库所在服务器的 IP 地址和端口号;

  • 数据库的名称;

  • 数据库的用户名和密码;

  • 需要连接的数据库方式。

3. 连接步骤

3.1 创建数据连接账户

登录观远BI ,点击「数据中心>数据账户」,点击「新建数据账户」,在添加账户弹窗中,账户平台框选择「Hive」,如下图所示:

3.2 创建数据集

选择连接器

点击「数据中心>数据集」,点击“+新建数据集”,选择“数据库”。在“选择连接器”中选中“Hive”,点击下一步。

选择数据表

下拉选择已有数据账户,选择数据表。用户还可以根据自己的需要在中间“SQL 查询”区域填写查询语句。

输入框下方有“时间宏”供您选择,为数据更新与动态分析设置时间要求。观远数据的动态时间宏,可以帮助您根据当前日期生成动态SQL,高效实现定时刷新数据与增量更新。例如我们可以输入这样的SQL语句:

更多使用方式可查看《动态时间宏》。点击“时间宏”下方的“添加参数”功能,可以使用参数来实现数据分析维度的切换。更多使用方式可查看《全局参数》

数据预览成功后,可进入到下一步。

报错详见/guandata-store/table_cache/guanbi/XXX doesn't exist

数据连接及更新设置

观远数据支持“直连数据库”与“Guan-Index”两种数据库连接方式。点击数据库连接方式的选择框,选择“直连数据库”或“Guan-Index”,并进行相关设置。

1.png

方式一: 直连数据库

直连数据库,是指选择“直连数据库”时,卡片数据将直接从数据库获得。用户需要设置“缓存有效周期”和“支持实时卡片数据”。

  • “缓存有效周期”即“数据更新周期”,作用是定时更新与该数据集相关的所有卡片、卡片数据集、ETL、JOIN等数据。

  • “支持实时卡片数据”是指建在该数据集上的卡片,可支持更短周期的数据更新,当前默认为1分钟。

2.png

如果开通了“24h定时更新任务密度图功能”,功能开启后,缓存有效周期选择每天/每周/每月,则会展示定时更新任务密度图(如需使用该功能,请联系观远人员协助开启)。

3.png

方式二: Guan-Index

Guan-Index,是指数据被抽取到观远服务器后将构建物理数据集,支持增量更新。具体使用步骤如下:

  • 首先,当您选择Guan-Index模式时,在上一步的“数据库查询”中,不能选择“添加参数”。

  • 其次,若您要对数据集进行增量更新或未来有设置增量更新的可能,可以通过点击选择“去重主键”,对未来需要增量更新的字段进行设置。

  • 再次,如点击“增量更新”,您可以填写SQL来设置增量更新的条件,通常与时间宏参数配合进行。

  • 最后,设置数据更新周期,即可进入“下一步”。

4.png

确认数据表信息

在确认数据表信息阶段,观远数据支持确定数据集名称与保存位置、支持字段重命名。

信息一:确定数据集名称与保存位置

为您的数据集提供一个方便辨识的名字,以及指定保存位置。点击确认后,数据集创建成功,可以在“数据中心”-“数据集”中找到它。需要注意的是,若创建的是Guan-Index数据集,您可能需要等待一段时间,等数据抽取完成后可以在“数据中心”看到正确的数据集信息。

信息二:支持字段重命名

当字段名需要修改时,点击字段名右侧的小箭头,即可打开下拉框,修改字段名。

信息三:字段名称显示为字段注释

若勾选“字段名称显示为字段注释”,字段名称将自动同步成数据库中已设置的字段注释。当企业的IT部门构建应用层宽表时,通常在数仓或者数据库环境会将宽表的数据集字段中文名称标注在表结构的comments中。当BI在对接宽表时,可通过此功能直接将原表comments中的字段注释直接覆盖成字段名称,减少手动修改的重复工作。

3.3 使用数据集

在数据集创建完后,可以直接使用数据集制作可视化图表等操作,您还可以对数据集进行其他设置操作,具体操作可查看《数据集》相关文档。