MaxCompute 数据接入
1. 概述
从MaxCompute接入数据,是指观远数据支持您将MaxCompute项目数据接入Guandata。观远数据已实现与MaxCompute的查询加速模式的对接,该模式对于中小规模数据量的查询做了大幅优化,查询响应时间提升到秒级,更好支持了 BI 场景。 能够帮助企业的业务人员和数据分析师提高自助式分析工作的效率,帮助企业管理人员开启智能决策。本文为您介绍如何连接MaxCompute,实现高效地可视化数据分析。
2. 应用价值
2.1 MaxCompute介绍
MaxCompute(之前称为 ODPS),是阿里巴巴通用计算平台提供的一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案,现在已更名为 MaxCompute,MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
2.2 连接MaxCompute查询加速模式价值
-
当您已使用MaxCompute,可以选择观远数据作为交互分析与报表展示的工具,实现查询效率的提升;
-
作为观远数据的客户,您不仅可以直接将MaxCompute的数据接入观远数据做分析与展示,还能够实现数据查询效率的大幅度提升。对接MaxCompute 的查询加速模式来提升查询速度,将原将执行时间为分钟级的中小数据量查询作业缩减至秒级,优化基于 MaxCompute 数据源的 BI 场景体验。 具体而言:
-
低延时,查询速度更快。可以对中、小数据量查询作业进行加速优化,将执行时间为分钟级的查询作业缩减至秒级,同时完全兼容原 MaxCompute 的查询功能。
-
自动识别支持自动识别查询作业大小,优先快速返回查询结果或通过批处理返回结果,为分析不同规模或复杂度的查询作业提供保障。
-
查询加速模式使用独立的资源池,不占用配额组,可以自动识别查询作业,缓解排队压力,优化使用体验。
-
3. 操作说明
3.1 前提条件
在执行操作前,请确认您已满足如下条件:
-
已创建MaxCompute项目。更多创建MaxCompute项目操作,请参见创建MaxCompute项目。
-
已获取可访问MaxCompute项目的AccessKey ID和AccessKey Secret。您可以进入AccessKey管理页面获取AccessKey ID和AccessKey Secret。
-
已开通Guandata服务(本文中Guandata示例版本为4.0.0)。
3.2 操作流程
Guandata连接MaxCompute的操作流程如下:
步骤一:选择MaxCompute连接器
在“数据中心”点击“新建数据集”按钮,点击“数据库”,然后选择“MaxCompute”,点击“下一步”。
步骤二:选择数据表
(1)首先选择账户,如果没有则需要新建账户。
参数 | 说明 |
显示名称 | 新建账户的名称,用于在系统中区分不同账户。 |
登录ID | 具备目标MaxCompute项目访问权限的AccessKey ID。您可以进入AccessKey管理页面获取AccessKey ID。 |
登录Key | AccessKey ID对应的AccessKey Secret。您可以进入AccessKey管理页面获取AccessKey Secret。 |
项目名 | MaxCompute项目名称。 |
endPoint | MaxCompute项目所属区域的Endpoint。各地域的Endpoint信息,请参见Endpoint。 |
SQL版本 | Guandata支持MaxCompute的1.0数据类型、2.0数据类型,可根据需要选择合适的数据类型版本,请参见数据类型版本说明。 |
MCQA | 可以选择是否开启MCQA查询加速,MCQA默认为no关闭状态,可以全量抽取数据。参见MCQA。目前MCQA加速功能仅支持抽取100万行数据,后续版本会开放全量。 |
(2)选择创建好的账户,会在下方显示账户中的所有的数据表,选择要使用的数据表,在右侧可以自定义SQL查询语句,然后点击“预览”查看数据,完成之后点击下一步。
步骤三:数据连接及更新设置
(1)数据库连接方式有直连数据库和Guan-Index两种方式:
-
选择直连数据库,卡片数据将直接从数据库获得;
-
选择Guan-Index,我们会为您在观远服务器构建数据集。Guan-Index可支持增量更新。
(2)缓存有效周期即更新方式有手动更新、每天、每周、每月。
(3)可选择可以支持实时卡片数据。
步骤四:确认数据表信息
(1)输入数据集名称,选择保存位置。
(2)可选字段名称显示为字段注释,勾选后字段名称将自动同步成数据库中已设置的字段注释。
(3)确认创建。