远程文件
1. 概述
1.1. 功能说明
观远BI支持接入 FTP/SFTP 文件和 ADLS Gen2文件 的数据。
-
FTP/SFTP:从FTP/SFTP数据集接入数据,是指观远BI支持通过 FTP/SFTP 文件的存储服务,主动获取数据到BI。例如用户可以将第三方平台下载、电商渠道经营等数据,统一的存放在 FTP 服务器中,并通过 BI 进行统一的接入,接入后可以进行数据 ETL 处理以及进一步分析。
-
ADLS Gen2:Azure Data Lake Storage Gen2 是微软 Azure 全新一代的大数据存储产品,专为企业级数据湖类应用所构建,继承了 Azure Blob Storage 易于使用、成本低廉的特点,同时又加入了目录层次结构、细粒度权限控制等企业级特性。观远BI为更好地支持 Azure 生态,支持客户对接 Azure 上数据的需求,在数据连接中针对 ADLS Gen2 专门开发了数据连接器,
1.2. 前提条件
接入远程文件时,需要选择数据账户。
已创建数据账户的用户可忽略此步。未创建数据账号的用户可前往《数据账户》查看更多 。
2. 使用指导
FTP/SFTP 和 ADLS Gen2 文件接入流程除 选择数据表 外基本一致,可按照下方的配置说明完成接入。
操作步骤
-
进入“数据准备”页面,点击左侧导航“数据集”模块;
-
点击 “新建数据集”按钮,选择 文件 > 远程文件;
-
选择 FTP/SFTP 或 ADLS Gen2 连接器,按需配置相关项;
-
确认数据表信息正确无误后,点击确认新建,完成接入。
2.1. 选择连接器
功能入口:数据准备 > 数据集 > 新建数据集 > 远程文件 > FTP/SFTP 或 ADLS Gen2 连接器。
2.2. 选择数据表
FTP/SFTP
1. 选择账户
-
选择对应的数据获取账户;
-
新建账户;
2. 选择数据表类型
-
支持 Excel、CSV 文件;(单选)
-
支持 zip 文件的选择,选择后,在上传时仅取解压缩之后对应的文件类型;
3. 选择文件
-
仅支持浏览数据账户下对应目录内的文件;
-
选中后文件将自动进入到右侧选中框;
-
取消选中之后,文件将从右侧选中框中移除;
-
点击选中框右上角“清除”会清空所有文件。
注意:
1. 若选择多个文件,处理逻辑使用 Excel/CSV 文件数据集的处理规则
2. 选择多个文件时将会以选择的第一个文件作为表头,其余文件仅保留于第一个文件有对应字段的数据;
3. 进行数据预览时,仅预览第一个文件;
4. Excel 和 CSV 均不超过 500 M。
4. 数据范围配置(可选)
-
设置表头:用户可设置数据集表头位置,系统仅抽取表头至末端非空行的数据,默认为第 1 行;
-
选取列数据:单击“自定义”可以指定列范围,用户可以指定列范围,系统仅抽取指定范围内数据,默认为第 A 列到表头的末端非空列。
-
当上传多个 sheet 页,而其又有相同的表头和列数据范围时,可使用“同步配置”功能,系统会将当前配置方案同步至其余所有数据集。
注意:系统以 sheet 页为单位自动创建数据集。
5. 新建字段(选填)
当用户从业务系统下载文件时,文件名会自动带上当日时间戳,现用户在接入 SFTP/FTP 数据集时,通过创建“新建字段”,可同步将时间戳同落在数据集中,从而获取到该条明细数据属于某一具体日期的关键信息。
-
支持命名一个新字段,目前仅支持选择 String 类型,用文件名填充;
-
在数据集增量更新情况下,会将增量文件名更新为增量值。
ADLS Gen2
1. 选择账户
下拉选择已有的数据账户。若没有数据账户,则点击新建账户,填写 URL、Client Id、Client Secret、Tenant Id 等一系列目标参数,并点击“测试连接”。
2. 填写文件路径
在 ADLS Gen2 文件的概述栏属性目录下复制 URL 地址填写至此,仅支持 Excel、CSV 文件。
3. 选择数据表类型:
仅支持 Excel、CSV 文件。
4. 预览
完成上述操作后,点击“预览”,数据预览确认无误后,可点击下一步。
2.3. 设置更新方式
FTP/SFTP
1. 数据连接方式:仅支持 抽取。
2. 去重主键(选填):可选内容为第一个文件的字段列表。
3. 增量更新:支持增量或全量更新,不勾选时为全量更新。增量更新时更新文件选择,可以通过文件名+时间宏进行。例如:测试文件-{{{yesterday}}}.csv
-
提供快捷时间宏输入;
-
系统将按照数据更新周期进行数据的更新;
-
默认更新规则:符合该文件+时间宏的数据全部更新到数据集中,不支持其他比较操作。
更新类型 | 说明 |
全量更新 | 不勾选增量更新时:每次更新将替换已创建数据集的所有数据;全量更新的数据来源是初次上传的所有文件数据集;若出现 FTP 服务中,对应文件已经丢失,则在数据集详情页中有报错提示,文件不存在。 |
增量更新 | 须完成文件名的输入之后才允许进行下一步:在左侧文件框中,仅允许单选:可以选择某一文件夹,也可选择某一具体文件。选择文件夹/文件之后,都会把文件夹路径带出;显示文件夹路径:数据更新从哪个目录下获取;(默认路径是数据账户中配置的目录路径)文件名:数据更新获取哪个数据;添加参数:支持全局参数;详见《全局参数》。增量更新 CSV 文件时,与第一步创建时一样,需要进行文件编码和分隔符的选择,默认为 UTF-8,逗号“,”。 |
4. 数据更新周期:与数据库保持一致:手动、每天、每周、每月。
5. 调度状态:开启调度时,将根据数据更新周期配置自动触发数据集更新; 关闭调度后,系统将停止自动更新。
注意:手动及URL触发等不受调度状态影响。
6. 任务优先级:根据业务需求和紧急性,为当前调度任务设置不同的运行优先级。目前任务优先级包括“最高”、“高”、“中等”、“低”或“最低”五个等级,“最高”优先级意味着在所有任务中最先执行。
ADLS Gen2
除了有关“增量更新”的部分配置,ADLS Gen2 的更新方式配置项和 FTP/SFTP 基本一致,详情请参阅上文。
配置ADLS Gen2 的更新方式时,点击“增量更新”后,用户需填写文件路径,在ADLS Gen2文件的概述栏属性目录下,截取URL中的文件路径部分,并填写到对应输入框。仅支持CSV和Excel文件。
2.4. 确认数据表信息
输入数据集名称以及保存路径,也可修改字段类型,点击确认新建即完成当前数据集的创建。
3. 注意事项
对于FTP/SFTP文件:
-
首次上传时,最多允许一次性上传 10 个文件,首次上传最多 200 个字段。如果历史有很多文件需要上传,需要通过「更新数据」中的追加新数据的方式上传;
-
在增量更新时:
-
能匹配上的直接写入;
-
新增的字段舍弃;
-
缺失的字段值为空。
-