输入数据集
概述
数据数据集是ETL流程中的重要前置算子(流程起点),它为ETL流程的第一阶段(抽取)提供数据基础,为后续ETL的数据处理做准备。
支持多源异构数据的快速融合(多路输入),使得用户能够轻松整合来自不同数据源和不同结构的数据。
使用指导
操作步骤
-
将ETL算子区的「输入数据集」算子拖入右侧画布编辑区;
-
点击「输入数据集」算子,选择目标数据集;
-
点击「确定」,上传数据集;
-
按需为输入数据集配置预览规则,可选;
-
后续可以加入其他算子节点,以形成一个数据处理的完整流程。

详细说明
下文以上传一个Excel文件数据集为例进行介绍。
-
将ETL算子区的「输入数据集」算子拖入右侧画布编辑区;

-
点击 「输入数据集」 算子,输入数据集名称「模拟数据6e」,然后选择「平铺」。按需选择:平铺/目录;

-
选择Excel类型,找到 「模拟数据6」数据集,然后点击 「确定」 。支持显示数据集的整个文件夹路径,以便用户更快地判断需要的数据集;
说明当搜索时切换「平铺」和「目录」选项,已经输入的搜索词和设置的数据集类型筛选都将被清空。在目录搜索后,点击进入下一级文件夹,或返回到上一级文件夹时,搜索词和设置的数据集类型筛选也将被清空。
在 「平铺」页面数据集信息仅展示不可编辑,若要编辑请进入数据中心进行操作。
| 搜索模式 | 说明 |
| 平铺搜索 | 根目录下的所有数据集变为同级,输入搜索内容,可直接找到对应数据集。窗口右侧也会展示选中数据集所在的文件夹路径等数据集详细信息。 |
| 目录搜索 | 当前目录下所有文件夹、数据集均变为同级,输入搜索内容可搜索出对应文件夹和数据集。点击进入下一级文件夹,搜索框内容将被清空,此时再进行搜索是检索当前文件夹下的所有文件夹、数据集。 |
-
数据集导入成功,左侧配置栏会显示对应数据集类型、储存路径、详细的字段信息等。如下图所示:

-
按需为输入数据集配置预览规则,可选。
-
全量数据
-
部分数据-限制数据行数
-
部分数据-设置过滤条件
说明为提高ETL预览性能,建议选取部分数据。仅应用于预览数据,并非最终数据。

更换ETL数据集
单独更换ETL数据集
-
将ETL算子区的「输入数据集」算子拖入右侧画布编辑区;

-
点击导入成功的数据集,在左侧信息栏中点击「替换」,选择后点击「确定」即可更换数据集。
![[a68e0aeb159797ad1339d0452731ff07.png]]
批量更换ETL数据集
在进行数据开发过程中,当我们需要将数据集替换成新的数据集时,ETL支持批量更换ETL中的数据集,就如数据集卡片一样轻松批量操作,充分提效。
-
在非直连数据集的详情页,找到关联创建Tab页,选择右侧的切换数据集,可以多选ETL进行切换(多选上限200);
-
选择数据集进行切换,仍需要在切换后检查ETL节点字段名的一致性,并可以进行人工修正;
-
切换后会返回成功或失败通知,可跳转到切换后的数据集详情页查看。



如后续使用其他数据处理算子,详情参考新手入门。