从FTP服务器接入数据
1. 概述
从FTP/SFTP数据集接入数据,是指观远数据支持通过FTP/SFTP文件存储服务,从BI主动获取数据。用户可以将第三方平台下载、电商渠道经营等数据,统一的存放在FTP服务器中,沉淀数据资产,并通过BI进行统一的接入,接入后可以进行数据ETL处理以及进一步分析。
2. 数据集创建步骤
2.1 创建FTP_SFTP数据连接
进入数据中心-数据集-新建数据集-远程文件
选择FTP/SFTP连接器
2.2 创建FTP_SFTP数据集
Step1:选择数据表(参考文件数据集的创建),流程大致如下:
(1)点击创建数据集
-
选择对应的数据获取账户
-
新建账户
(2)选择文件类型
-
支持Excel、CSV文件;(单选)
-
支持zip文件的选择,选择后,在上传时仅取解压缩之后对应的文件类型;
(3)选择文件
-
仅支持浏览数据账户下对应目录内的文件
-
选中后文件将自动进入到右侧选中框
-
取消选中之后,文件将从右侧选中框中移除
-
点击选中框右上角“清除”会清空所有文件
注意:若选择多个文件,处理逻辑使用Excel/CSV文件数据集的处理规则:
-
选择多个文件时将会以选择的第一个文件作为表头,其余文件仅保留于第一个文件有对应字段的数据
-
进行数据预览时,仅预览第一个文件
-
Excel和CSV均不超过500M
(4)数据范围配置(可选)
-
设置表头:用户可设置数据集表头位置,系统仅抽取表头至末端非空行的数据,默认为第1行;
-
选取列数据:单击“自定义”可以指定列范围,用户可以指定列范围,系统仅抽取指定范围内数据,默认为第A列到表头的末端非空列;
注:系统以sheet页为单位自动创建数据集
- 当上传多个sheet页,而其又有相同的表头和列数据范围时,可使用“同步配置”功能,系统会将当前配置方案同步至其余所有数据集。
(5)新建字段(选填)
当用户从业务系统下载文件时,文件名会自动带上当日时间戳,现用户在接入SFTP/FTP数据集时,通过创建“新建字段”,可同步将时间戳同落在数据集中,从而获取到该条明细数据属于某一具体日期的关键信息。
-
支持命名一个新字段,目前仅支持选择String类型,用文件名填充
-
在数据集增量更新情况下,会将增量文件名更新为增量值
Step2:数据连接及更新设置
(1)数据连接方式:仅支持Guan-Index
(2)去重主键(选填):可选内容为第一个文件的字段列表
(3)更新设置:增量或全量
a. 全量更新(不勾选增量更新时)
-
每次更新将替换已创建数据集的所有数据
-
全量更新的数据来源是初次上传的所有文件数据集
-
若出现FTP服务中,对应文件已经丢失,则在数据集详情页中有报错提示,文件不存在。
b. 增量更新(须完成文件名的输入之后才允许进行下一步)
-
在左侧文件框中,仅允许单选:可以选择某一文件夹,也可选择某一具体文件。选择文件夹/文件之后,都会把文件夹路径带出;
-
显示文件夹路径:数据更新从哪个目录下获取;(默认路径是数据账户中配置的目录路径)
-
文件名:数据更新获取哪个数据;
-
添加参数:支持全局参数;详见《全局参数》
-
增量更新csv文件时,与第一步创建时一样,需要进行文件编码和分隔符的选择,默认为UTF-8,逗号“,”
c. 数据更新周期:与数据库保持一致:手动、每天、每周、每月。可以通过文件名+时间宏进行。如:测试文件-{{{yesterday}}}.csv
-
提供快捷时间宏输入;
-
系统将按照数据更新周期进行数据的更新;
-
默认更新规则:符合该文件+时间宏的数据全部更新到数据集中,不支持其他比较操作;
Step3:确认数据表信息
输入数据集名称以及保存路径,也可修改字段类型,点击确认新建即完成FTP数据集的创建。
2.3 数据追加
数据追加更新操作沿用类似数据库的更新操作,从对应数据集账户的FTP服务器上选择数据进行数据追加或者数据替换:
-
选择覆盖旧数据,会将数据集原始数据清空,并且将选择的新文件更新到BI系统中;
-
选择追加新数据,会把选择结果添加到原有数据集中;
2.4 说明
(1)首次上传时,最多允许一次性上传10个文件,首次上传最多200个字段。如果历史有很多文件需要上传,需要通过「更新数据」中的追加新数据的方式上传;
(2)在增量更新时:
-
能匹配上的直接写入;
-
新增的字段舍弃;
-
缺失的字段值为空。