从文件导入数据
1. 从文件导入数据概述
从文件导入数据,是指观远数据在数据处理中心中,支持从Excel、CSV等文件导入数据,进而进行数据处理的服务。
2. 从文件导入数据操作步骤
2.1 选择连接器
进入“数据中心”,点击右上角的“新建数据集”按钮,选择“文件”。目前支持的文件类型包括:Excel和CSV。其中CSV支持上传压缩包(zip文件),并支持自动解析。当txt文件满足CSV格式时,可以通过选择“CSV”进行上传。
2.2 开始上传数据
2.2.1 Excel类型文件
1.上传指定文件后,填写数据集名称、存储路径、描述信息并确认,存储路径默认为系统根目录。
2.选择是否启用数据脱敏标签,此功能可自动分析数据集并进行数据脱敏,具体可参考《数据脱敏》。
3.数据范围配置:
-
设置表头:用户可设置数据集表头位置,系统仅抽取表头至末端非空行的数据,默认为第1行;
-
选取列数据:单击“自定义”可以指定列范围,系统仅抽取指定范围内数据,默认为第A列到表头的末端非空列;
注:系统以sheet页为单位自动创建数据集
- 当上传多个sheet页,而其又有相同的表头和列数据范围时,可使用“同步配置”功能,系统会将当前配置方案同步至其余所有数据集。
报错详见 empty.max
4.确认是否修改字段名称及类型:
-
字段名称:单击字段位置,可以重命名字段;
-
字段类型:单击字段类型旁的向下箭头,即可调整字段类型。
注:在数据预览处可预览30行数据,数据导入后数据集字段名不可修改。
5.配置“去重主键”(可选)
在配置去重主键后,数据初始化过程将按照设定主键对数据做去重处理。
6.最后点击“确认新建”按钮完成Excel数据集的新建,在对应的文件夹目录下能找到对应数据集。
2.2.2 CSV类型文件
1.CSV类型文件具有和Excel类型文件相同的数据上传流程
2.确认解析结果:系统会对上传CSV文件进行自动解析并展示结果,用户可对解析结果进行更改
-
文件编码:提供3种字符编码方式以解析文件,如UTF-8、UTF-16、GB18030等;
-
分隔符:提供5种主流分隔符选项,此外也支持用户自定义分隔符;
-
封闭字符和逃逸字符:支持用户自定义对应字符。
2.3 追加/替换数据
点击文件夹目录下的某个数据集,即可进入数据集概览页面,点击右上角“追加数据”或“替换数据”,跟随页面提示操作,即可进行数据追加/替换。
追加/替换时,当上传数据集和原数据集字段不一致,允许自行关联字段,并上传数据;当上传的多个数据集表头一致,对同一个数据集,允许多文件一起追加/替换此数据集。
追加时,支持字段去重。点击“开启主键去重”,可以选择需要去重的字段,当有字段重复时,数据将替换为新的数据。主键,是指表中的一个或多个字段,它的值用于唯一地标识表中的某一条记录,例如:会员编号、商品编号、销售单据编号等。
手工表追加数据,使用一模一样的数据集追加,且选择去重主键为何数据量会膨胀?
3. 从文件导入数据应用场景
3.1 业务发展迅速,Excel难以承载企业的数据量
当企业规模扩大,部门增加,业务发展迅速,在商品销售、供应链管理、财务管理等各方面积累了大量数据,尤其是当销售与供应链各个环节的数据量太大,Excel便难以支撑业务分析的需求,如底层宽表超过1亿,没法加载到Excel中分析等。将Excel等文件的数据导入观远数据一站式智能分析平台中,便可以改变难题,将散落各个部门的数据进行整合、清洗,形成企业的数据资产池。
3.2 不同部门的数据割裂,难以进行关联分析
企业管理层为了对公司生意有全局的掌控,需要将不同部门的数据统计进行融合与关联,找出全盘的增长点与问题点,从而调整经营策略。将各个部门的文件数据导入统一的数据分析平台,可以帮助管理层整合数据并进行数据透视,展开多维分析,从而进一步通过可视化看板进行维度组合、汇总计算、切片、钻取,洞察数据。
4. 名词解释
4.1 Excel
Excel,通常是指一种主流的电子表格文件。Excel软件,是指 Microsoft Excel,是 Microsoft 为使用 Windows 和 Apple Macintosh 操作系统的电脑编写的一款电子表格软件。
4.2 CSV
逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV 文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。建议使用WORDPAD 或是记事本来开启,再则先另存新档后用 Excel开启,也是方法之一。