智能 ETL(Smart ETL)输入_输出数据集
本文将为您介绍Smart ETL的输入数据集与输出数据集的功能说明与具体操作。
1. 输入数据集
功能说明:将数据集添加到当前Smart ETL的编辑区域中。
配置说明:Smart ETL中需要1个及以上的“输入数据集”操作符。
具体步骤:
a.拖拽“输入数据集”操作符至右侧操作编辑区。
b.单击“输入数据集”,从数据中心的数据集中进行选择,在选择数据集时,用户可以选择不同的搜索模式,既可以选择平铺搜索,也可以选择按目录搜索。同时,为了方便用户更快地判断是否为需要的数据集,在数据集详细信息展示中,也新增显示数据集的整个文件夹链路。
- 平铺搜索
此时,根目录下的所有数据集变为同级,输入搜索内容,可直接找到对应数据集。
窗口右侧也会展示选中数据集所在的文件夹路径等数据集详细信息。(注意:在该页面数据集信息仅展示不可编辑,若要编辑请进入数据中心进行操作)
- 目录搜索
此时,当前目录下所有文件夹、数据集均变为同级,输入搜索内容可搜索出对应文件夹和数据集。
点击进入下一级文件夹,搜索框内容将被清空,此时再进行搜索是在当前文件夹下的所有文件夹、数据集中进行检索。
注意:当搜索时切换“平铺”和“目录”选项,已经输入的搜索词和设置的数据集类型筛选都将被清空。
在目录搜索后,点击进入下一级文件夹,或返回到上一级文件夹时,搜索词和设置的数据集类型筛选也将被清空。
c.选择需要的数据集,点击右侧栏的“确定”,完成对“输入数据集”的导入。
d.在新建 ETL 时,在确认数据表信息时可以添加描述信息。
备注:输入数据集的来源包括文件数据、数据库数据集(不含直连数据库、视图数据集、实时数据集)以及其他Smart ETL中的输出数据集。
2. 输出数据集
功能说明:将处理后的数据作为数据集输出。
配置说明:Smart ETL中至少需要1个“输入数据集”,才能配置“输出数据集”。
具体步骤:
a.拖拽“输出数据集”操作符至右侧操作编辑区。
b.将相关的数据处理操作符连接到“输出数据集”。
c.点击“输出数据集”操作符,可以对输出数据集的名称、存放位置进行编辑。
d. 点击“输出数据集”操作符节上方“闪电”标识,可设置加速字段。系统会按照这些字段对数据集进行分片处理,从而提升这些数据集用于卡片查询时的速度。
输出数据集目前支持设置三个加速字段,设置好的加速字段可在左侧配置详情中查看。
e.在Smart ETL 页面,选择“保存运行并退出”即可得到转换后的数据集,该数据集即为ETL数据集。对于ETL数据集,管理员可在“管理员设置-系统设置-高级设置”中,设置“是否允许访问者按照ETL所有者权限预览数据集”等操作。
f.在 ETL 编辑页面,设置输入和输出数据集时,左侧配置栏会显示对应数据集的来源数据库、储存路径、详细的字段信息等。
备注:操作过程中需要保证连线为实线,虚线表示链路不通需要检查前面操作。