输入数据集
1. 概述
数据数据集是ETL流程中的重要前置算子(流程起点),它为ETL流程的第一阶段(抽取)提供数据基础,为后续ETL的数据处理做准备。
支持多源异构数据的快速融合(多路输入),使得用户能够轻松整合来自不同数据源和不同结构的数据。
2. 使用指导
2.1. 操作步骤
-
将ETL算子区的 输入数据集 算子拖入右侧画布编辑区;
-
点击 输入数据集 算子,选择目标数据集;
-
点击 确定 ,上传数据集;
-
按需为输入数据集配置预览规则,可选;
-
后续可以加入其他算子节点,以形成一个数据处理的完整流程。
2.2. 详细说明
注意:输入数据集的来源包括文件数据、数据库数据集(不含直连数据库、视图数据集)以及其他Smart ETL中的输出数据集。
下文以上传一个Excel文件数据集为例进行介绍。
- 将ETL算子区的 输入数据集 算子拖入右侧画布编辑区;
- 点击 输入数据集 算子,输入数据集名称 模拟数据6 ,然后选择 平铺 。按需选择:平铺/目录;
- 选择 Excel 类型,找到 模拟数据6 数据集,然后点击 确定 。支持显示数据集的整个文件夹路径,以便用户更快地判断需要的数据集;
注意:当搜索时切换 平铺 和 目录 选项,已经输入的搜索词和设置的数据集类型筛选都将被清空。在目录搜索后,点击进入下一级文件夹,或返回到上一级文件夹时,搜索词和设置的数据集类型筛选也将被清空。
在 平铺 页面数据集信息仅展示不可编辑,若要编辑请进入数据中心进行操作。
搜索模式 | 说明 |
平铺搜索 | 根目录下的所有数据集变为同级,输入搜索内容,可直接找到对应数据集。窗口右侧也会展示选中数据集所在的文件夹路径等数据集详细信息。 |
目录搜索 | 当前目录下所有文件夹、数据集均变为同级,输入搜索内容可搜索出对应文件夹和数据集。点击进入下一级文件夹,搜索框内容将被清空,此时再进行搜索是检索当前文件夹下的所有文件夹、数据集。 |
- 数据集导入成功,左侧配置栏会显示对应数据集类型、储存路径、详细的字段信息等。如下图所示:
- 按需为输入数据集配置预览规则,可选。
-
全量数据
-
部分数据-限制数据行数
-
部分数据-设置过滤条件
注意:为提高ETL预览性能,建议选取部分数据。仅应用于预览数据,并非最终数据。
如后续使用其他数据处理算子,详情参考 新手入门 。