跳到主要内容
版本:6.5.0

从FTP服务器接入数据

1. 概述

从FTP/SFTP数据集接入数据,是指观远数据支持通过FTP/SFTP文件存储服务,从BI主动获取数据。用户可以将第三方平台下载、电商渠道经营等数据,统一的存放在FTP服务器中,沉淀数据资产,并通过BI进行统一的接入,接入后可以进行数据ETL处理以及进一步分析。

2. 数据集创建步骤

2.1 创建FTP_SFTP数据连接

进入数据中心-数据集-新建数据集-远程文件

1.jpg

选择FTP/SFTP连接器

2.jpg

2.2 创建FTP_SFTP数据集

从FTP服务器接入数据2.png

Step1:选择数据表(参考文件数据集的创建),流程大致如下:

(1)点击创建数据集

  • 选择对应的数据获取账户

  • 新建账户

(2)选择文件类型

  • 支持Excel、CSV文件;(单选)

  • 支持zip文件的选择,选择后,在上传时仅取解压缩之后对应的文件类型;

(3)选择文件

  • 仅支持浏览数据账户下对应目录内的文件

  • 选中后文件将自动进入到右侧选中框

  • 取消选中之后,文件将从右侧选中框中移除

  • 点击选中框右上角“清除”会清空所有文件

p1.png

注意:若选择多个文件,处理逻辑使用Excel/CSV文件数据集的处理规则:

  • 选择多个文件时将会以选择的第一个文件作为表头,其余文件仅保留于第一个文件有对应字段的数据

  • 进行数据预览时,仅预览第一个文件

  • Excel和CSV均不超过500M

(4)数据范围配置(可选)

  • 设置表头:用户可设置数据集表头位置,系统仅抽取表头至末端非空行的数据,默认为第1行;

  • 选取列数据:单击“自定义”可以指定列范围,用户可以指定列范围,系统仅抽取指定范围内数据,默认为第A列到表头的末端非空列;

p2.png

注:系统以sheet页为单位自动创建数据集

  • 当上传多个sheet页,而其又有相同的表头和列数据范围时,可使用“同步配置”功能,系统会将当前配置方案同步至其余所有数据集。

(5)新建字段(选填)

当用户从业务系统下载文件时,文件名会自动带上当日时间戳,现用户在接入SFTP/FTP数据集时,通过创建“新建字段”,可同步将时间戳同落在数据集中,从而获取到该条明细数据属于某一具体日期的关键信息。

  • 支持命名一个新字段,目前仅支持选择String类型,用文件名填充

  • 在数据集增量更新情况下,会将增量文件名更新为增量值

2.png

Step2:数据连接及更新设置

(1)数据连接方式:仅支持Guan-Index

image.png

(2)去重主键(选填):可选内容为第一个文件的字段列表

(3)更新设置:增量或全量

a. 全量更新(不勾选增量更新时)

  • 每次更新将替换已创建数据集的所有数据

  • 全量更新的数据来源是初次上传的所有文件数据集

  • 若出现FTP服务中,对应文件已经丢失,则在数据集详情页中有报错提示,文件不存在。

b. 增量更新(须完成文件名的输入之后才允许进行下一步)

  • 在左侧文件框中,仅允许单选:可以选择某一文件夹,也可选择某一具体文件。选择文件夹/文件之后,都会把文件夹路径带出;

  • 显示文件夹路径:数据更新从哪个目录下获取;(默认路径是数据账户中配置的目录路径)

  • 文件名:数据更新获取哪个数据;

  • 添加参数:支持全局参数;详见《全局参数》

  • 增量更新csv文件时,与第一步创建时一样,需要进行文件编码和分隔符的选择,默认为UTF-8,逗号“,”

从FTP服务器接入数据4.png

c. 数据更新周期:与数据库保持一致:手动、每天、每周、每月。可以通过文件名+时间宏进行。如:测试文件-{{{yesterday}}}.csv

  • 提供快捷时间宏输入;

  • 系统将按照数据更新周期进行数据的更新;

  • 默认更新规则:符合该文件+时间宏的数据全部更新到数据集中,不支持其他比较操作;

Step3:确认数据表信息

输入数据集名称以及保存路径,也可修改字段类型,点击确认新建即完成FTP数据集的创建。

从FTP服务器接入数据5.png

2.3 数据追加

数据追加更新操作沿用类似数据库的更新操作,从对应数据集账户的FTP服务器上选择数据进行数据追加或者数据替换:

  • 选择覆盖旧数据,会将数据集原始数据清空,并且将选择的新文件更新到BI系统中;

  • 选择追加新数据,会把选择结果添加到原有数据集中;

从FTP服务器接入数据6.png

2.4 说明

(1)首次上传时,最多允许一次性上传10个文件,首次上传最多200个字段。如果历史有很多文件需要上传,需要通过「更新数据」中的追加新数据的方式上传;

(2)在增量更新时:

  • 能匹配上的直接写入;

  • 新增的字段舍弃;

  • 缺失的字段值为空。