跳到主要内容
版本:6.3.0

数据集算子概述

1. 概述

1.1. 功能说明

在一个完整的ETL任务中,输入节点和输出节点确保了从源到目的地的正确流动和处理,是构成ETL生命周期不可或缺的组成部分。

在观远Smart ETL中,我们将ETL的输入、输出算子统称为数据集类算子,包括 输入数据集 算子和 输出数据集 算子,分别代表原始数据集和结果数据集。

支持多源异构数据的快速融合(多路输入),数据流任意节点随时输出(多路输出)。

image.png

1.2. 使用限制

  1. Smart ETL中需要1个及以上的 输入数据集 算子,同时至少需要1个 输入数据集 ,才能配置 输出数据集 

  2. 输入数据集的来源包括文件数据、数据库数据集(不含直连数据库、视图数据集)以及其他Smart ETL中的输出数据集。

2. 使用说明

  1. 将ETL画布区的 输入数据集 算子拖入至右侧画布编辑区,点击该算子上传源数据;

  2. 拖拽其他算子进行数据处理操作,用连接线将各个算子进行连接;

  3. 数据处理完成后,将 输出数据集 算子拖至右侧画布编辑区;

  4. 点击 输出数据集 算子,命名并选择存储位置

  5. 预览 输出数据集结果,确认无误后,在右上角按需保存或运行任务。

(若选择“保存运行并退出 时,ETL成功运行后将自动生成输出数据集。)

image.png

3. 学习路径

您可以直接按以下内容进行学习:

算子名称说明
输入数据集为ETL流程的第一阶段(抽取)提供数据基础,为后续ETL的数据处理做准备,支持多源异构数据的快速融合(多路输入)
输出数据集是ETL处理后的结果数据,可用于后续的业务分析和报表分析,支持任意节点随时输出(多路输出)