从ADLS Gen2接入数据
1. 概述
Azure Data Lake Storage Gen2 是微软 Azure 全新一代的大数据存储产品,专为企业级数据湖类应用所构建,继承了 Azure Blob Storage 易于使用、成本低廉的特点,同时又加入了目录层次结构、细粒度权限控制等企业级特性。观远数据为更好地支持 Azure 生态,支持客户对接 Azure 上数据的需求,在数据连接中针对 ADLS Gen2 专门开发了数据连接器,本文将介绍如何从ADLS Gen2接入数据。
2. 连接步骤
2.1 创建数据连接账户
登录观远BI ,点击「数据中心>数据账户」,点击「新建数据账户」,在添加账户弹窗中,账户平台框选择「ADLS Gen2」,如下图所示:
2.2 创建数据集
2.2.1 选择连接器
进入数据中心-数据集-新建数据集-远程文件
选择 ADLS Gen2 连接器
2.2.2 选择数据表
选择账户:下拉选择已有的数据账户,或新建账户。
填写文件路径:在ADLS Gen2文件的概述栏属性目录下复制URL地址填写至此,仅支持Excel、CSV文件。
选择数据表类型:仅支持Excel、CSV文件。
2.2.3 数据连接及更新设置
数据连接方式:仅支持Guan-Index
去重主键(选填):可选内容为第一个文件的字段列表
数据更新周期:与数据库保持一致:手动、每天、每周、每月。可以通过“文件名+时间宏”进行数据抽取。如:测试文件-{{{yesterday}}}.csv
-
提供快捷时间宏输入;
-
系统将按照数据更新周期进行数据的更新;
-
默认更新规则:符合该文件+时间宏的数据全部更新到数据集中,不支持其他比较操作;
2.2.4 确认数据表信息
输入数据集名称,并选择保存路径,也可修改字段类型,点击“确认新建”即完成ADLS Gen2数据集的创建。
2.3 数据追加
数据追加更新操作沿用类似数据库的更新操作,从对应数据集账户的ADLS Gen2服务器上选择数据进行数据追加或者数据替换:
-
选择覆盖旧数据,会将数据集原始数据清空,并且将选择的新文件更新到BI系统中;
-
选择追加新数据,会把选择结果添加到原有数据集中;