观远 BI

输入数据集

创建于 2023-12-01 / 最近更新于 2024-01-30 / 526
字体: [默认] [大] [更大]

1. 概述

数据数据集是ETL流程中的重要前置算子(流程起点),它为ETL流程的第一阶段(抽取)提供数据基础,为后续ETL的数据处理做准备。

支持多源异构数据的快速融合(多路输入),使得用户能够轻松整合来自不同数据源和不同结构的数据。

2. 使用指导

2.1. 操作步骤

  1. 将ETL算子区的 输入数据集 算子拖入右侧画布编辑区;

  2. 点击 输入数据集 算子选择目标数据集;

  3. 点击 确定 ,上传数据集

  4. 按需为输入数据集配置预览规则,可选

  5. 后续可以加入其他算子节点,以形成一个数据处理的完整流程。

image.png

2.2. 详细说明

注意:输入数据集的来源包括文件数据、数据库数据集(不含直连数据库、视图数据集、实时数据集)以及其他Smart ETL中的输出数据集。

下文以上传一个Excel文件数据集为例进行介绍。

  1. 将ETL算子区的 输入数据集 算子拖入右侧画布编辑区;

image.png

  1. 点击 输入数据集 算子,输入数据集名称 模拟数据6 ,然后选择 平铺 。按需选择:平铺/目录;

image.png

  1. 选择 Excel 类型,找到 模拟数据6 数据集,然后点击 确定 。支持显示数据集的整个文件夹路径,以便用户更快地判断需要的数据集

image.png

注意当搜索时切换 平铺  目录 选项,已经输入的搜索词和设置的数据集类型筛选都将被清空。在目录搜索后,点击进入下一级文件夹,或返回到上一级文件夹时,搜索词和设置的数据集类型筛选也将被清空。

 平铺 页面数据集信息仅展示不可编辑,若要编辑请进入数据中心进行操作。


搜索模式说明


平铺搜索

根目录下的所有数据集变为同级,输入搜索内容,可直接找到对应数据集。

窗口右侧也会展示选中数据集所在的文件夹路径等数据集详细信息。


目录搜索

当前目录下所有文件夹、数据集均变为同级,输入搜索内容可搜索出对应文件夹和数据集。

点击进入下一级文件夹,搜索框内容将被清空,此时再进行搜索是检索当前文件夹下的所有文件夹、数据集。

  1. 数据集导入成功,左侧配置栏会显示对应数据集类型、储存路径、详细的字段信息等。如下图所示: 

image.png

  1. 按需为输入数据集配置预览规则,可选。

  • 全量数据

  • 部分数据-限制数据行数

  • 部分数据-设置过滤条件

注意:为提高ETL预览性能,建议选取部分数据。仅应用于预览数据,并非最终数据。

image.png

如后续使用其他数据处理算子,详情参考 新手入门 。



0 人点赞过