跳到主要内容
版本:7.4.0

数据集算子概述

概述

功能说明

在一个完整的ETL任务中,输入节点和输出节点确保了从源到目的地的正确流动和处理,是构成ETL生命周期不可或缺的组成部分。

在观远Smart ETL中,我们将ETL的输入、输出算子统称为数据集类算子,包括「输入数据集」算子和 「输出数据集」算子,分别代表原始数据集和结果数据集。

支持多源异构数据的快速融合(多路输入),数据流任意节点随时输出(多路输出)。

image.png|400

使用限制

  1. Smart ETL中需要1个及以上的「输入数据集」算子,同时至少需要1个 「输入数据集」算子,才能配置 「输出数据集」。

  2. 输入数据集的来源包括文件数据、数据库数据集(不含直连数据库、视图数据集)以及其他Smart ETL中的输出数据集。

使用说明

  1. 将ETL画布区的 「输入数据集」算子拖入至右侧画布编辑区,点击该算子上传源数据;

  2. 拖拽其他算子进行数据处理操作,用连接线将各个算子进行连接;

  3. 数据处理完成后,将 「输出数据集」算子拖至右侧画布编辑区;

  4. 点击「输出数据集」算子,命名并选择存储位置;

  5. 点击「预览」确认输出数据集结果,确认无误后,在右上角按需保存或运行任务。

    若选择「保存运行并退出」,ETL成功运行后将自动生成输出数据集。

image.png

学习路径

您可以直接按以下内容进行学习:

算子名称说明
输入数据集为ETL流程的第一阶段(抽取)提供数据基础,为后续ETL的数据处理做准备,支持多源异构数据的快速融合(多路输入)
输出数据集是ETL处理后的结果数据,可用于后续的业务分析和报表分析,支持任意节点随时输出(多路输出)