跳到主要内容
版本:6.6.0

远程文件

1. 概述

1.1. 功能说明

观远BI支持接入 FTP/SFTP 文件和 ADLS Gen2文件 的数据。

  • FTP/SFTP:从FTP/SFTP数据集接入数据,是指观远BI支持通过 FTP/SFTP 文件的存储服务,主动获取数据到BI。例如用户可以将第三方平台下载、电商渠道经营等数据,统一的存放在 FTP 服务器中,并通过 BI 进行统一的接入,接入后可以进行数据 ETL 处理以及进一步分析。

  • ADLS Gen2:Azure Data Lake Storage Gen2 是微软 Azure 全新一代的大数据存储产品,专为企业级数据湖类应用所构建,继承了 Azure Blob Storage 易于使用、成本低廉的特点,同时又加入了目录层次结构、细粒度权限控制等企业级特性。观远BI为更好地支持 Azure 生态,支持客户对接 Azure 上数据的需求,在数据连接中针对 ADLS Gen2 专门开发了数据连接器,

1.2. 前提条件

接入远程文件时,需要选择数据账户。

已创建数据账户的用户可忽略此步。未创建数据账号的用户可前往《数据账户》查看更多 。

2. 使用指导

FTP/SFTP 和 ADLS Gen2 文件接入流程除 选择数据表 外基本一致,可按照下方的配置说明完成接入。

操作步骤

  1. 进入“数据准备”页面,点击左侧导航“数据集”模块;

  2. 点击 “新建数据集”按钮,选择 文件 > 远程文件;

  3. 选择 FTP/SFTP 或 ADLS Gen2 连接器,按需配置相关项;

  4. 确认数据表信息正确无误后,点击确认新建,完成接入。

2.1. 选择连接器

功能入口:数据准备 > 数据集 >  新建数据集  > 远程文件 > FTP/SFTP 或 ADLS Gen2 连接器。

2.gif

2.2. 选择数据表

FTP/SFTP

1. 选择账户

  • 选择对应的数据获取账户;

  • 新建账户;

image.png

2. 选择数据表类型

  • 支持 Excel、CSV 文件;(单选)

  • 支持 zip 文件的选择,选择后,在上传时仅取解压缩之后对应的文件类型;

3. 选择文件

  • 仅支持浏览数据账户下对应目录内的文件;

  • 选中后文件将自动进入到右侧选中框;

  • 取消选中之后,文件将从右侧选中框中移除;

  • 点击选中框右上角“清除”会清空所有文件。 image.png

注意:
1. 若选择多个文件,处理逻辑使用 Excel/CSV 文件数据集的处理规则
2. 选择多个文件时将会以选择的第一个文件作为表头,其余文件仅保留于第一个文件有对应字段的数据;
3. 进行数据预览时,仅预览第一个文件;
4. Excel 和 CSV 均不超过 500 M。

4.  数据范围配置(可选)

  • 设置表头:用户可设置数据集表头位置,系统仅抽取表头至末端非空行的数据,默认为第 1 行;

  • 选取列数据:单击“自定义”可以指定列范围,用户可以指定列范围,系统仅抽取指定范围内数据,默认为第 A 列到表头的末端非空列。

  • 当上传多个 sheet 页,而其又有相同的表头和列数据范围时,可使用“同步配置”功能,系统会将当前配置方案同步至其余所有数据集。

5.png

注意:系统以 sheet 页为单位自动创建数据集。

5.  新建字段(选填)

当用户从业务系统下载文件时,文件名会自动带上当日时间戳,现用户在接入 SFTP/FTP 数据集时,通过创建“新建字段”,可同步将时间戳同落在数据集中,从而获取到该条明细数据属于某一具体日期的关键信息。

  • 支持命名一个新字段,目前仅支持选择 String 类型,用文件名填充;

  • 在数据集增量更新情况下,会将增量文件名更新为增量值。

6.png

ADLS Gen2

1. 选择账户

下拉选择已有的数据账户。若没有数据账户,则点击新建账户,填写 URL、Client Id、Client Secret、Tenant Id 等一系列目标参数,并点击“测试连接”。

7.png

2. 填写文件路径

在 ADLS Gen2 文件的概述栏属性目录下复制 URL 地址填写至此,仅支持 Excel、CSV 文件。

3. 选择数据表类型:

仅支持 Excel、CSV 文件。

4. 预览

完成上述操作后,点击“预览”,数据预览确认无误后,可点击下一步。

8.png

2.3. 设置更新方式

FTP/SFTP

1. 数据连接方式:仅支持 抽取。

9.png

2. 去重主键(选填):可选内容为第一个文件的字段列表。

3. 增量更新:支持增量或全量更新,不勾选时为全量更新。增量更新时更新文件选择,可以通过文件名+时间宏进行。例如:测试文件-{{{yesterday}}}.csv

  • 提供快捷时间宏输入;

  • 系统将按照数据更新周期进行数据的更新;

  • 默认更新规则:符合该文件+时间宏的数据全部更新到数据集中,不支持其他比较操作。

10.png

更新类型说明
全量更新不勾选增量更新时:每次更新将替换已创建数据集的所有数据;全量更新的数据来源是初次上传的所有文件数据集;若出现 FTP 服务中,对应文件已经丢失,则在数据集详情页中有报错提示,文件不存在。
增量更新须完成文件名的输入之后才允许进行下一步:在左侧文件框中,仅允许单选:可以选择某一文件夹,也可选择某一具体文件。选择文件夹/文件之后,都会把文件夹路径带出;显示文件夹路径:数据更新从哪个目录下获取;(默认路径是数据账户中配置的目录路径)文件名:数据更新获取哪个数据;添加参数:支持全局参数;详见《全局参数》。增量更新 CSV 文件时,与第一步创建时一样,需要进行文件编码和分隔符的选择,默认为 UTF-8,逗号“,”。

4. 数据更新周期:与数据库保持一致:手动、每天、每周、每月。

5. 调度状态:开启调度时,将根据数据更新周期配置自动触发数据集更新; 关闭调度后,系统将停止自动更新。

11.png

注意:手动及URL触发等不受调度状态影响。

6. 任务优先级:根据业务需求和紧急性,为当前调度任务设置不同的运行优先级。目前任务优先级包括“最高”、“高”、“中等”、“低”或“最低”五个等级,“最高”优先级意味着在所有任务中最先执行。

ADLS Gen2

除了有关“增量更新”的部分配置,ADLS Gen2 的更新方式配置项和 FTP/SFTP 基本一致,详情请参阅上文。

配置ADLS Gen2 的更新方式时,点击“增量更新”后,用户需填写文件路径,在ADLS Gen2文件的概述栏属性目录下,截取URL中的文件路径部分,并填写到对应输入框。仅支持CSV和Excel文件。

12.png

2.4. 确认数据表信息

输入数据集名称以及保存路径,也可修改字段类型,点击确认新建即完成当前数据集的创建。

13.png

3. 注意事项

对于FTP/SFTP文件:

  • 首次上传时,最多允许一次性上传 10 个文件,首次上传最多 200 个字段。如果历史有很多文件需要上传,需要通过「更新数据」中的追加新数据的方式上传;

  • 在增量更新时:

    • 能匹配上的直接写入;

    • 新增的字段舍弃;

    • 缺失的字段值为空。