跳到主要内容
版本:7.4.0

输入数据集

概述

数据数据集是ETL流程中的重要前置算子(流程起点),它为ETL流程的第一阶段(抽取)提供数据基础,为后续ETL的数据处理做准备。

支持多源异构数据的快速融合(多路输入),使得用户能够轻松整合来自不同数据源和不同结构的数据。

使用指导

操作步骤

  1. 将ETL算子区的「输入数据集」算子拖入右侧画布编辑区;

  2. 点击「输入数据集」算子,选择目标数据集;

  3. 点击「确定」,上传数据集;

  4. 按需为输入数据集配置预览规则,可选;

  5. 后续可以加入其他算子节点,以形成一个数据处理的完整流程。

    image.png

详细说明

说明
输入数据集的来源包括文件数据、数据库数据集(不含直连数据库、视图数据集)以及其他Smart ETL中的输出数据集。

下文以上传一个Excel文件数据集为例进行介绍。

  1. 将ETL算子区的「输入数据集」算子拖入右侧画布编辑区;

    image.png

  2. 点击 「输入数据集」 算子,输入数据集名称「模拟数据6e」,然后选择「平铺」。按需选择:平铺/目录;

    image.png

  3. 选择Excel类型,找到 「模拟数据6」数据集,然后点击 「确定」 。支持显示数据集的整个文件夹路径,以便用户更快地判断需要的数据集;

    image.png

    说明

    当搜索时切换「平铺」和「目录」选项,已经输入的搜索词和设置的数据集类型筛选都将被清空。在目录搜索后,点击进入下一级文件夹,或返回到上一级文件夹时,搜索词和设置的数据集类型筛选也将被清空。

    在 「平铺」页面数据集信息仅展示不可编辑,若要编辑请进入数据中心进行操作。

搜索模式说明
平铺搜索根目录下的所有数据集变为同级,输入搜索内容,可直接找到对应数据集。窗口右侧也会展示选中数据集所在的文件夹路径等数据集详细信息。
目录搜索当前目录下所有文件夹、数据集均变为同级,输入搜索内容可搜索出对应文件夹和数据集。点击进入下一级文件夹,搜索框内容将被清空,此时再进行搜索是检索当前文件夹下的所有文件夹、数据集。
  1. 数据集导入成功,左侧配置栏会显示对应数据集类型、储存路径、详细的字段信息等。如下图所示: 

    image.png

  2. 按需为输入数据集配置预览规则,可选。

  • 全量数据

  • 部分数据-限制数据行数

  • 部分数据-设置过滤条件

    说明

    为提高ETL预览性能,建议选取部分数据。仅应用于预览数据,并非最终数据。

    image.png

更换ETL数据集

单独更换ETL数据集

  1. 将ETL算子区的「输入数据集」算子拖入右侧画布编辑区;

    image.png

  2. 点击导入成功的数据集,在左侧信息栏中点击「替换」,选择后点击「确定」即可更换数据集。

    ![[a68e0aeb159797ad1339d0452731ff07.png]]

批量更换ETL数据集

在进行数据开发过程中,当我们需要将数据集替换成新的数据集时,ETL支持批量更换ETL中的数据集,就如数据集卡片一样轻松批量操作,充分提效。

  • 在非直连数据集的详情页,找到关联创建Tab页,选择右侧的切换数据集,可以多选ETL进行切换(多选上限200);

  • 选择数据集进行切换,仍需要在切换后检查ETL节点字段名的一致性,并可以进行人工修正;

  • 切换后会返回成功或失败通知,可跳转到切换后的数据集详情页查看。

    image.png

    image.png

    image.png

如后续使用其他数据处理算子,详情参考新手入门