跳到主要内容
版本:6.0.0

从ADLS Gen2接入数据

1. 概述

Azure Data Lake Storage Gen2 是微软 Azure 全新一代的大数据存储产品,专为企业级数据湖类应用所构建,继承了 Azure Blob Storage 易于使用、成本低廉的特点,同时又加入了目录层次结构、细粒度权限控制等企业级特性。观远数据为更好地支持 Azure 生态,支持客户对接 Azure 上数据的需求,在数据连接中针对 ADLS Gen2 专门开发了数据连接器,本文将介绍如何从ADLS Gen2接入数据。

2. 连接步骤

2.1 创建数据连接账户

登录观远BI ,点击「数据中心>数据账户」,点击「新建数据账户」,在添加账户弹窗中,账户平台框选择「ADLS Gen2」,如下图所示:

4.png

2.2 创建数据集

2.2.1 选择连接器

进入数据中心-数据集-新建数据集-远程文件

1.jpg

选择 ADLS Gen2 连接器

5.png

2.2.2 选择数据表

选择账户:下拉选择已有的数据账户,或新建账户。

填写文件路径:在ADLS Gen2文件的概述栏属性目录下复制URL地址填写至此,仅支持Excel、CSV文件。

选择数据表类型:仅支持Excel、CSV文件。

6.png

2.2.3 数据连接及更新设置

数据连接方式:仅支持Guan-Index

去重主键(选填):可选内容为第一个文件的字段列表

数据更新周期:与数据库保持一致:手动、每天、每周、每月。可以通过“文件名+时间宏”进行数据抽取。如:测试文件-{{{yesterday}}}.csv

  • 提供快捷时间宏输入;

  • 系统将按照数据更新周期进行数据的更新;

  • 默认更新规则:符合该文件+时间宏的数据全部更新到数据集中,不支持其他比较操作;

7.jpg

2.2.4 确认数据表信息

输入数据集名称,并选择保存路径,也可修改字段类型,点击“确认新建”即完成ADLS Gen2数据集的创建。

8.jpg

2.3 数据追加

数据追加更新操作沿用类似数据库的更新操作,从对应数据集账户的ADLS Gen2服务器上选择数据进行数据追加或者数据替换:

  • 选择覆盖旧数据,会将数据集原始数据清空,并且将选择的新文件更新到BI系统中;

  • 选择追加新数据,会把选择结果添加到原有数据集中;

9.png