数据集算子概述
1. 概述
1.1. 功能说明
在一个完整的ETL任务中,输入节点和输出节点确保了从源到目的地的正确流动和处理,是构成ETL生命周期不可或缺的组成部分。
在观远Smart ETL中,我们将ETL的输入、输出算子统称为数据集类算子,包括 输入数据集 算子和 输出数据集 算子,分别代表原始数据集和结果数据集。
支持多源异构数据的快速融合(多路输入),数据流任意节点随时输出(多路输出)。
1.2. 使用限制
-
Smart ETL中需要1个及以上的 输入数据集 算子,同时至少需要1个 输入数据集 ,才能配置 输出数据集 。
-
输入数据集的来源包括文件数据、数据库数据集(不含直连数据库、视图数据集)以及其他Smart ETL中的输出数据集。
2. 使用说明
-
将ETL画布区的 输入数据集 算子拖入至右侧画布编辑区,点击该算子上传源数据;
-
拖拽其他算子进行数据处理操作,用连接线将各个算子进行连接;
-
数据处理完成后,将 输出数据集 算子拖至右侧画布编辑区;
-
点击 输出数据集 算子,命名并选择存储位置;
-
预览 输出数据集结果,确认无误后,在右上角按需保存或运行任务。
(若选择“保存运行并退出” 时,ETL成功运行后将自动生成输出数据集。)
3. 学习路径
您可以直接按以下内容进行学习:
算子名称 | 说明 |
输入数据集 | 为ETL流程的第一阶段(抽取)提供数据基础,为后续ETL的数据处理做准备,支持多源异构数据的快速融合(多路输入) |
输出数据集 | 是ETL处理后的结果数据,可用于后续的业务分析和报表分析,支持任意节点随时输出(多路输出) |