观远 BI

从文件导入数据

创建于 2022-10-18 / 最近更新于 2023-12-29 / 8609
字体: [默认] [大] [更大]

1. 从文件导入数据概述

从文件导入数据,是指观远数据在数据处理中心中,支持从Excel、CSV等文件导入数据,进而进行数据处理的服务。

2. 从文件导入数据操作步骤

2.1 选择连接器

进入“数据中心”,点击右上角的“新建数据集”按钮,选择“文件”。目前支持的文件类型包括:Excel和CSV。其中CSV支持上传压缩包(zip文件),并支持自动解析。当txt文件满足CSV格式时,可以通过选择“CSV”进行上传。

2.2 开始上传数据

2.2.1 Excel类型文件

1.上传指定文件后,填写数据集名称、存储路径、描述信息并确认,存储路径默认为系统根目录。

2.选择是否启用数据脱敏标签,此功能可自动分析数据集并进行数据脱敏,具体可参考《数据脱敏》

p1.png

3.数据范围配置:

  • 设置表头:用户可设置数据集表头位置,系统仅抽取表头至末端非空行的数据,默认为第1行;

  • 选取列数据:单击“自定义”可以指定列范围,系统仅抽取指定范围内数据,默认为第A列到表头的末端非空列;

p2.png注:系统以sheet页为单位自动创建数据集

  • 当上传多个sheet页,而其又有相同的表头和列数据范围时,可使用“同步配置”功能,系统会将当前配置方案同步至其余所有数据集。

报错详见 empty.max

4.确认是否修改字段名称及类型:

  • 字段名称:单击字段位置,可以重命名字段;

  • 字段类型:单击字段类型旁的向下箭头,即可调整字段类型。

p3.png

注:在数据预览处可预览30行数据,数据导入后数据集字段名不可修改。

5.配置“去重主键”(可选)

在配置去重主键后,数据初始化过程将按照设定主键对数据做去重处理。

4.png

6.最后点击“确认新建”按钮完成Excel数据集的新建,在对应的文件夹目录下能找到对应数据集。

5.png


2.2.2 CSV类型文件

1.CSV类型文件具有和Excel类型文件相同的数据上传流程

2.确认解析结果:系统会对上传CSV文件进行自动解析并展示结果,用户可对解析结果进行更改

  • 文件编码:提供3种字符编码方式以解析文件,如UTF-8、UTF-16、GB18030等;

  • 分隔符:提供5种主流分隔符选项,此外也支持用户自定义分隔符;

  • 封闭字符和逃逸字符:支持用户自定义对应字符。

p5.png

2.3 追加/替换数据

点击文件夹目录下的某个数据集,即可进入数据集概览页面,点击右上角“追加数据”或“替换数据”,跟随页面提示操作,即可进行数据追加/替换。

追加/替换时,当上传数据集和原数据集字段不一致,允许自行关联字段,并上传数据;当上传的多个数据集表头一致,对同一个数据集,允许多文件一起追加/替换此数据集。

手工表追加数据和替换数据的区别?

追加时,支持字段去重。点击“开启主键去重”,可以选择需要去重的字段,当有字段重复时,数据将替换为新的数据。主键,是指表中的一个或多个字段,它的值用于唯一地标识表中的某一条记录,例如:会员编号、商品编号、销售单据编号等。

手工表追加数据,使用一模一样的数据集追加,且选择去重主键为何数据量会膨胀?

3. 从文件导入数据应用场景

3.1 业务发展迅速,Excel难以承载企业的数据量

当企业规模扩大,部门增加,业务发展迅速,在商品销售、供应链管理、财务管理等各方面积累了大量数据,尤其是当销售与供应链各个环节的数据量太大,Excel便难以支撑业务分析的需求,如底层宽表超过1亿,没法加载到Excel中分析等。将Excel等文件的数据导入观远数据一站式智能分析平台中,便可以改变难题,将散落各个部门的数据进行整合、清洗,形成企业的数据资产池。

3.2 不同部门的数据割裂,难以进行关联分析

企业管理层为了对公司生意有全局的掌控,需要将不同部门的数据统计进行融合与关联,找出全盘的增长点与问题点,从而调整经营策略。将各个部门的文件数据导入统一的数据分析平台,可以帮助管理层整合数据并进行数据透视,展开多维分析,从而进一步通过可视化看板进行维度组合、汇总计算、切片、钻取,洞察数据。

4. 名词解释

4.1 Excel

Excel,通常是指一种主流的电子表格文件。Excel软件,是指 Microsoft Excel,是 Microsoft 为使用 Windows 和 Apple Macintosh 操作系统的电脑编写的一款电子表格软件。

4.2 CSV

逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV 文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。建议使用WORDPAD 或是记事本来开启,再则先另存新档后用 Excel开启,也是方法之一。


31 人点赞过