本地文件
1. 概述
1.1. 功能说明
从文件导入数据,是指观远数据在数据处理中心中,支持从 Excel、CSV 等文件导入数据,进而进行数据处理的服务。
1.2. 应用场景
业务发展迅速,Excel 难以承载企业的数据量
当企业规模扩大,部门增加,业务发展迅速,在商品销售、供应链管理、财务管理等各方面积累了大量数据,尤其是当销售与供应链各个环节的数据量太大,Excel便难以支撑业务分析的需求,如底层宽表超过1亿,没法加载到Excel中分析等。将Excel等文件的数据导入观远数据一站式智能分析平台中,便可以改变难题,将散落各个部门的数据进行整合、清洗,形成企业的数据资产池。
不同部门的数据割裂,难以进行关联分析
企业管理层为了对公司生意有全局的掌控,需要将不同部门的数据统计进行融合与关联,找出全盘的增长点与问题点,从而调整经营策略。将各个部门的文件数据导入统一的数据分析平台,可以帮助管理层整合数据并进行数据透视,展开多维分析,从而进一步通过可视化看板进行维度组合、汇总计算、切片、钻取,洞察数据。
2. 使用指导
操作步骤
进入“数据准备”页面,点击左侧导航“数据集”模块;
点击“新建数据集”,选择文件 > 本地文件;
选择对应的文件类型:Excel 或 CSV 文件;
成功上传数据后,进行文件数据管理。
2.1. 选择连接器
进入“数据准备”页面,点击左侧的“数据集”按钮,选择 新建数据集 > 文件 > 本地文件 。目前支持的文件类型包括:Excel和CSV。其中CSV支持上传压缩包(zip文件),并支持自动解析。当txt文件满足CSV格式时,可以通过选择“CSV”进行上传。
2.2. 选择数据表
本地文件支持上传 Excel 和 CSV 两种类型的文件。
注意:
1. 文件上传时的大小,系统有限制要求。
(1)CSV文件(可压缩成zip)文件大小不能超过100M;
(2)Excel文件大小不能超过100M, xls等老版本Excel文件大小不能超过5M。
2. 系统以sheet页为单位自动创建数据集。
2.3. 确认数据表信息
Excel类型文件
上传指定文件后,填写数据集名称、存储路径、描述信息并确认,存储路径默认为系统根目录。
支持对当前数据集标记为“敏感数据集”,开启后,敏感数据集不可直接用于创建卡片,需前往数据集详情-数据安全页配置敏感字段,详见《数据脱敏》。
若不清楚当前数据集的敏感字段情况,可点击“智能探查”按钮进行自动检测,系统会根据内置和用户自定义配置的探测模版识别敏感字段,详见《探测规则配置》。
允许用户通过配置格式从指定行和列上传数据。提前配置数据范围,使数据上传更加精准。
设置表头:用户可设置数据集表头位置,系统仅抽取表头至末端非空行的数据,默认为第1行;
选取列数据:默认从第A列~表头最后非空列上传,也支持自定义配置某列至某列区间的范围设置。
注意:当上传多个sheet页,而其又有相同的表头和列数据范围时,可使用“同步配置”功能,系统会将当前配置方案同步至其余所有数据集。
确认是否需要修改当前数据集的字段名称及类型。
字段名称:单击字段位置,可重命名字段;
字段类型:单击字段类型旁的向下箭头,可调整字段类型。
注意:
1. 在数据预览处可预览30行数据。
2. 切换字段类型时,会直接看到转换后的数据内容,当两者不匹配时显示 Null 值。
根据需要配置去重主键,数据初始化过程将按照设定主键对数据做去重处理。
CSV类型文件
CSV类型文件具有和Excel类型文件相同的数据上传流程,唯一区别在于 确认解析结果 。
确认解析结果:系统会对上传CSV文件进行自动解析并展示结果,用户可设置对应的解析参数,其中:
文件编码:提供3种字符编码方式以解析文件,如UTF-8、UTF-16、GB18030等。
分隔符:提供5种主流分隔符选项,此外也支持用户自定义分隔符。
封闭字符(包围符):封闭字符是用于标识文本或数据的开始和结束的字符或字符串。在编程和数据格式中,封闭字符帮助解析器和编译器理解数据的结构和边界。常见的封闭字符包括引号、括号、花括号等。
逃逸字符(转义字符):逃逸字符是用于在字符串中插入一些特殊字符,这些字符通常无法直接包含在字符串中。逃逸字符通常以反斜杠 (`\`) 开头,后跟一个或多个字符,表示一个特定的字符或操作。
2.4. 创建完成数据集
在以上步骤完成后,点击“确认新建”按钮完成Excel数据集的新建,可在对应的文件夹目录下能找到对应数据集。
2.5. 追加/替换数据
点击文件夹目录下的某个数据集,即可进入数据集概览页面,点击右上角“追加数据”或“替换数据”,跟随页面提示操作,即可进行数据追加/替换。
追加/替换时,当上传数据集和原数据集字段不一致,允许自行关联字段,并上传数据;当上传的多个数据集表头一致,对同一个数据集,允许多文件一起追加/替换此数据集。
追加时,支持字段去重。点击“开启主键去重”,可以选择需要去重的字段,当有字段重复时,数据将替换为新的数据。
主键,是指表中的一个或多个字段,它的值用于唯一地标识表中的某一条记录,例如:会员编号、商品编号、销售单据编号等。
手工表追加数据,使用一模一样的数据集追加,且选择去重主键为何数据量会膨胀?