输入数据集
数据数据集是ETL流程中的重要前置算子(流程起点),它为ETL流程的第一阶段(抽取)提供数据基础,为后续ETL的数据处理做准备。
支持多源异构数据的快速融合(多路输入),使得用户能够轻松整合来自不同数据源和不同结构的数据。
输入数据集
点击输入数据集算子,选择目标数据集;
点击确定上传数据集;
按需为输入数据集配置预览规则,可选;
后续可以加入其他算子节点,以形成一个数据处理的完整流程。
注意:输入数据集的来源包括文件数据、数据库数据集(不含直连数据库、视图数据集)以及其他Smart ETL中的输出数据集。
下文以上传一个Excel文件数据集为例进行介绍。
将ETL算子区的 输入数据集 算子拖入右侧画布编辑区;
输入数据集模拟数据6平铺
选择 Excel 类型,找到 模拟数据6 数据集,然后点击 确定
注意:当搜索时切换 平铺 和 目录 选项,已经输入的搜索词和设置的数据集类型筛选都将被清空。在目录搜索后,点击进入下一级文件夹,或返回到上一级文件夹时,搜索词和设置的数据集类型筛选也将被清空。
在 平铺页面数据集信息仅展示不可编辑,若要编辑请进入数据中心进行操作。
搜索模式 | 说明 |
平铺搜索 | 根目录下的所有数据集变为同级,输入搜索内容,可直接找到对应数据集。 窗口右侧也会展示选中数据集所在的文件夹路径等数据集详细信息。 |
目录搜索 | 当前目录下所有文件夹、数据集均变为同级,输入搜索内容可搜索出对应文件夹和数据集。 点击进入下一级文件夹,搜索框内容将被清空,此时再进行搜索是检索当前文件夹下的所有文件夹、数据集。 |
数据集导入成功,左侧配置栏会显示对应数据集类型、储存路径、详细的字段信息等。如下图所示:
按需为输入数据集配置预览规则,可选。
全量数据
部分数据-限制数据行数
部分数据-设置过滤条件
注意:为提高ETL预览性能,建议选取部分数据。仅应用于预览数据,并非最终数据。
如后续使用其他数据处理算子,详情参考