远程文件
1. 概述
1.1. 功能说明
观远BI支持接入 FTP/SFTP 文件和 ADLS Gen2文件 的数据。
FTP/SFTP:从FTP/SFTP数据集接入数据,是指观远BI支持通过 FTP/SFTP 文件的存储服务,主动获取数据到BI。例如用户可以将第三方平台下载、电商渠道经营等数据,统一的存放在 FTP 服务器中,并通过 BI 进行统一的接入,接入后可以进行数据 ETL 处理以及进一步分析。
ADLS Gen2:Azure Data Lake Storage Gen2 是微软 Azure 全新一代的大数据存储产品,专为企业级数据湖类应用所构建,继承了 Azure Blob Storage 易于使用、成本低廉的特点,同时又加入了目录层次结构、细粒度权限控制等企业级特性。观远BI为更好地支持 Azure 生态,支持客户对接 Azure 上数据的需求,在数据连接中针对 ADLS Gen2 专门开发了数据连接器,
1.2. 前提条件
接入远程文件时,需要选择数据账户。
已创建数据账户的用户可忽略此步。未创建数据账号的用户可前往《数据账户》查看更多 。
2. 使用指导
FTP/SFTP 和 ADLS Gen2 文件接入流程除 选择数据表 外基本一致,可按照下方的配置说明完成接入。
操作步骤
进入“数据准备”页面,点击左侧导航“数据集”模块;
点击 “新建数据集”按钮,选择 文件 > 远程文件;
选择 FTP/SFTP 或 ADLS Gen2 连接器,按需配置相关项;
确认数据表信息正确无误后,点击确认新建,完成接入。
2.1. 选择连接器
功能入口:数据准备 > 数据集 > 新建数据集 > 远程文件 > FTP/SFTP 或 ADLS Gen2 连接器。
2.2. 选择数据表
FTP/SFTP
1. 选择账户
选择对应的数据获取账户;
新建账户;
2. 选择数据表类型
支持 Excel、CSV 文件;(单选)
支持 zip 文件的选择,选择后,在上传时仅取解压缩之后对应的文件类型;
3. 选择文件
仅支持浏览数据账户下对应目录内的文件;
选中后文件将自动进入到右侧选中框;
取消选中之后,文件将从右侧选中框中移除;
点击选中框右上角“清除”会清空所有文件。
注意:
1. 若选择多个文件,处理逻辑使用 Excel/CSV 文件数据集的处理规则
2. 选择多个文件时将会以选择的第一个文件作为表头,其余文件仅保留于第一个文件有对应字段的数据;
3. 进行数据预览时,仅预览第一个文件;
4. Excel 和 CSV 均不超过 500 M。
4. 数据范围配置(可选)
设置表头:用户可设置数据集表头位置,系统仅抽取表头至末端非空行的数据,默认为第 1 行;
选取列数据:单击“自定义”可以指定列范围,用户可以指定列范围,系统仅抽取指定范围内数据,默认为第 A 列到表头的末端非空列。
当上传多个 sheet 页,而其又有相同的表头和列数据范围时,可使用“同步配置”功能,系统会将当前配置方案同步至其余所有数据集。
注意:系统以 sheet 页为单位自动创建数据集。
5. 新建字段(选填)
当用户从业务系统下载文件时,文件名会自动带上当日时间戳,现用户在接入 SFTP/FTP 数据集时,通过创建“新建字段”,可同步将时间戳同落在数据集中,从而获取到该条明细数据属于某一具体日期的关键信息。
支持命名一个新字段,目前仅支持选择 String 类型,用文件名填充;
在数据集增量更新情况下,会将增量文件名更新为增量值。
ADLS Gen2
1. 选择账户
下拉选择已有的数据账户。若没有数据账户,则点击新建账户,填写 URL、Client Id、Client Secret、Tenant Id 等一系列目标参数,并点击“测试连接”。
2. 填写文件路径
在 ADLS Gen2 文件的概述栏属性目录下复制 URL 地址填写至此,仅支持 Excel、CSV 文件。
3. 选择数据表类型:
仅支持 Excel、CSV 文件。
4. 预览
完成上述操作后,点击“预览”,数据预览确认无误后,可点击下一步。
2.3. 设置更新方式
FTP/SFTP
1. 数据连接方式:仅支持 抽取。
2. 去重主键(选填):可选内容为第一个文件的字段列表。
3. 增量更新:支持增量或全量更新,不勾选时为全量更新。增量更新时更新文件选择,可以通过文件名+时间宏进行。例如:测试文件-{{{yesterday}}}.csv
提供快捷时间宏输入;
系统将按照数据更新周期进行数据的更新;
默认更新规则:符合该文件+时间宏的数据全部更新到数据集中,不支持其他比较操作。
更新类型 | 说明 |
全量更新 | 不勾选增量更新时:
|
增量更新 | 须完成文件名的输入之后才允许进行下一步:
|
4. 数据更新周期:与数据库保持一致:手动、每天、每周、每月。
5. 调度状态:开启调度时,将根据数据更新周期配置自动触发数据集更新; 关闭调度后,系统将停止自动更新。
注意:手动及URL触发等不受调度状态影响。
6. 任务优先级:根据业务需求和紧急性,为当前调度任务设置不同的运行优先级。目前任务优先级包括“最高”、“高”、“中等”、“低”或“最低”五个等级,“最高”优先级意味着在所有任务中最先执行。
ADLS Gen2
除了有关“增量更新”的部分配置,ADLS Gen2 的更新方式配置项和 FTP/SFTP 基本一致,详情请参阅上文。
配置ADLS Gen2 的更新方式时,点击“增量更新”后,用户需填写文件路径,在ADLS Gen2文件的概述栏属性目录下,截取URL中的文件路径部分,并填写到对应输入框。仅支持CSV和Excel文件。
2.4. 确认数据表信息
输入数据集名称以及保存路径,也可修改字段类型,点击确认新建即完成当前数据集的创建。
3. 注意事项
对于FTP/SFTP文件:
首次上传时,最多允许一次性上传 10 个文件,首次上传最多 200 个字段。如果历史有很多文件需要上传,需要通过「更新数据」中的追加新数据的方式上传;
在增量更新时:
能匹配上的直接写入;
新增的字段舍弃;
缺失的字段值为空。