智能 ETL(Smart ETL)概述
1. Smart ETL概述
观远数据业内首创智能数据准备(Smart ETL,也称智能ETL、ETL),可达到专业级的数据处理效果,旨在让用户在数据分析、数据可视化制作前,能够对数据集进行易操作、低门槛、智能化的高效数据处理,使数据经过清洗、转换、装载后得到对终端业务人员更有效的数据集。
2. Smart ETL使用步骤
2.1 Smart ETL新建
进入数据中心的“智能ETL”界面,点击右上角的“+新建ETL”按钮,即可进入编辑界面。
Smart ETL 编辑页面概要如下图:
2.2 Smart ETL编辑操作
ETL操作界面左侧的“添加操作”分为5类:数据集、列编辑、数据编辑、数据集组合、高级计算。将左侧的操作项拖拽至空白面板区,即可快捷进行具体操作。至少需要一个“输入数据集”和一个“输出数据集”才能构成一个完整的ETL。
此外,点击右上角的“更新设置”,即可选择更新方式为“手动”、“定时”或“勾选的数据集更新后”
选择“手动”时,可以通过默认和自定义进行超时设置。
选择“定时”时,可以设置更新时间、任务优先级、超时设置。
选择“勾选的数据集更新后”时,可以设置触发条件、任务优先级、超时设置。
-
触发条件:可以选择“任何一个勾选的数据集更新后都会触发ETL”或者“所有勾选的数据集都更新后触发ETL”。
-
任务优先级:可以选择“最高”、“高”、“中等”、“低”或“最低”五个等级。如设置为“最高”,则会在所有ETL任务中最先执行,如所有任务均设置为“最高”,则按照任务提交时间执行。
-
勾选的数据集更新后:显示所有输入数据集,勾选/取消勾选后,点击“确定”按钮,可以更改当前数据流更新的触发条件。
2.3 Smart ETL 画布注释
为了方便用户理解复杂ETL的各个环节信息,降低维护成本与交接成本,您可以在Smart ETL层面增加注释信息:
-
支持在画布上添加/编辑注释便签
-
支持一键隐藏/显示注释
-
Smart ETL的导出导入包括注释信息
具体操作:
首先,进入“数据中心”-“智能ETL”,选择某个数据集,进入ETL编辑页面。
其次,点击右上角+号按钮,选择页面任意地方添加注释。
2.4 Smart ETL管理与维护
对Smart ETL的管理分为两块:
-
输出前管理:Smart ETL的编辑与设置,主要体现在编辑界面与详情界面;
-
输出与维护:运行后输出数据集以及后续的维护。
2.4.1 Smart ETL列表页操作
进入数据中心—智能ETL的目录列表页,可查看有对应权限的Smart ETL,列表中有简要的信息如:“输入/输出”的数量、“最近修改时间”、“最近运行时间”、“上次运行时长”以及编辑、运行等操作。
点击ETL所在行最右侧的“···”按钮,可以显示具体的操作项:查看运行记录、另存为、移动至、删除。
查看运行记录:可查看ETL的开始时间、完成时间、运行时长、CPU占用时长、运行状态、任务优先级、排队时长。
2.4.2 Smart ETL详情页面操作
首先,点击进入目标ETL的详情界面,可以看到两个页签:
- 数据集:显示所有的输入输出数据集,点击各数据集可以跳转其详情界面。
- ETL更新:更新方式有手动、定时、勾选的数据集更新后(具体操作与2.2的更新设置一致)。
选择“手动”时,可以通过默认和自定义进行超时设置。
选择“定时”时,可以设置更新时间、任务优先级、超时设置。
选择“勾选的数据集更新后”时,可以设置触发条件、任务优先级、超时设置。
其次,点击右上角的编辑按钮,即可进入该ETL的编辑页面进行操作。点击“···”按钮,即可使用操作项:运行、查看运行记录、查看资源血缘、另存为、移动或删除。
其中,点击“运行”,如果是初次运行会生成“输出数据集”,再次运行能按照现在的逻辑更新输出数据集。
2.4.3 Smart ETL运行与维护
Smart ETL保存后,需要运行才可以输出数据集;用户可以直接去ETL中找到对应的ETL处理流运行,也可进入详情界面再运行。点击右上角“···”操作项,即可选择运行,以及查看运行记录。
注意事项:
-
只有通过运行,才可以输出数据集;
-
在必要的时候,可手动更新输出数据集;
-
运行失败,则表明该ETL处理流存在问题,需要进一步做排查、完善;
-
自动运行可以使得从输入数据集到输出数据集的自动执行;
-
对运行记录的统计,可对后续的ETL维护工作提供帮助;
-
对于有多个输入数据源的ETL,若选择“勾选的数据集”来触发更新,建议选定最晚更新时间的输入数据源来进行触发。
2.4.4 Smart ETL所有者转移
a.Smart ETL单个转移
每个ETL代表了一个独立的数据加工流程,只能由其创建者维护,必要时可以将其转移给其他用户,但创建者本人则同时失去管理权限。
进入ETL详情页面,点击“所有者”右边的转移按钮,即可在“所有者转移”弹窗中选择用户。如想添加访问者,点击“访问者”右边的添加按钮,在“访问者管理”弹窗中选择用户即可。
注意事项:用户需要ETL输入数据集的使用权限才能正常使用ETL,如该用户缺少部分数据集的使用权限,界面会在选择该用户后给出提示。您可以一键为该用户添加使用权限,也可以选择“仅转移”。
b.Smart ETL批量转移
对于多个Smart ETL需要一次性转移或授权的情况,可在首页列表批量操作,大大节省重复操作的时间,提高工作效率。
进入Smart ETL列表页,勾选文档,顶部的快捷操作栏将出现访问者管理授权和所有者转移选项:
- “访问者授权”时支持添加用户和用户组为选中Smart ETL的新访问者。
- “所有者转移”时只支持选择某一用户为选中Smart ETL新的所有者,不允许选择用户组或只读用户。
3. Smart ETL应用场景
面对动辄几十亿行的库存数据,很多企业都会面对“留之累赘,弃之担忧”的尴尬。最常见的解决办法就是把每一天的全量快照数据都存下来,提供日期主键,然后开放给用户去查询。但这样实际上会保存很多不变的信息,对存储是极大的浪费;再者,设计不当还非常影响查询效率,拖垮数据库。举个例子:一家连锁药店企业,门店数3000,SKU数1000,如果存库存快照数据,每天就是300万,一年就是10个亿。如果要求能够查询5年的历史数据,那么就需要保存近50亿的历史快照数据。面对这类问题,观远数据的Smart ETL可以处理海量历史数据压缩存储与查询。既能满足反应数据的历史状态,又可以最大程度的节省存储空间,提高查询效率。
4. Smart ETL常见问题
若您在使用Smart ETL功能时遇到问题,建议前往《ETL常见问题》和《ETL常见报错》了解。
更多关于Smart ETL的使用帮助可前往观远数据视频教程网站和《ETL》查看。