跳到主要内容
版本:7.0.0

Smart ETL概述

1. 概述

1.1. 导读介绍

本章节将为您介绍观远Smart ETL是什么,讲解应用场景及功能模块,并提供新手友好的快速入门教程。

Smart ETL相关的视频课程,详见:

1.2. Smart ETL概述

智能ETL(Smart ETL)是观远数据面向业务可用提供的一款零代码·全拖拽式的自助式数据准备和数仓构建工具。智能ETL让用户在数据分析、数据可视化制作前,能够自助式对数据集进行易操作、低门槛、智能化的高效数据处理。基于强大的数据处理算子和节点,通过全拖拉拽式、配置化的方式对数据进行清洗、转换、加载等操作,对任意节点的实时预览纠错与输出等完成数据处理工作流的构建,帮助企业/部门完成轻型数仓的建设,不懂SQL的业务人员也可达到专业级的数据处理效果。   image.png

相较于传统的ETL工具,观远数据智能 ETL 在处理复杂数据、提升数据处理效率、数据质量、数据一致性等方面,具有更高的自动化、智能化、可视化和安全性等功能优势,有效满足企业数据处理需求。

  · 零代码式的可视化配置操作,将业务逻辑过程中的每一步细化呈现,所见即所得。

  · 智能ETL包含输入输出、列编辑、数据编辑、数据组合、高级计算等5大类,15+个常用算子。

  · 数据处理过程中可实时预览与保存,用户可随时确认处理结果,在线纠错,避免返工。

  · 针对复杂数据来源,提供35+ 数据接入类型,数据流任意节点也支持随时输出,充分发挥数据价值。

  · 基于Spark的大数据架构,智能ETL轻松应对海量数据分析场景,提供企业亿级数据处理场景的速度能力。

1.3. 应用场景

  · 数仓构建:

对于信息系统庞杂,并且暂时不具备统一集团信息化系统条件的中大型集团,将多源异构数据存储至同一个平台上,实现集团层面的数据“大一统”便于企业中心化高效管理和决策支持。如可从总账、报表、甚至凭证层级抽取财务数据、建立数据仓库。通过数据处理先将数据预处理至数仓,后续再对数仓数据进行深度挖掘。既不影响业务库运行,也能满足离线数仓对外服务。

  · 挖掘数据价值:

面对动辄几十亿行的库存数据,很多企业都会面对“留之累赘,弃之担忧”的尴尬。最常见的解决办法就是把每一天的全量快照数据都存下来,提供日期主键,然后开放给用户去查询。但这样实际上会保存很多不变的信息,对存储是极大的浪费;再者,设计不当还非常影响查询效率,拖垮数据库。

举个例子,一家连锁药店企业,门店数3000,SKU数1000,如果存库存快照数据,每天就是300万,一年就是10个亿。如果要求能够查询5年的历史数据,那么就需要保存近50亿的历史快照数据。面对这类问题,观远数据的Smart ETL可以处理海量历史数据压缩存储与查询。既能满足反应数据的历史状态,又可以最大程度的节省存储空间,提高查询效率。

  · 数据清洗和转换:

在实际的数据分析和决策过程中,数据往往存在不一致、重复、缺失等问题,需要利用ETL进行数据清洗和转换。通过 ETL的处理,可以得到高质量、一致性的数据,为后续的数据分析和决策提供可靠的基础。

1.4. 功能介绍

Smart ETL编辑界面分为5个主要区域,分别为:ETL算子区、画布编辑区、数据预览区等。

 

image.png

不同操作区域的描述说明如下:

操作区域
说明
ETL算子区该区域包含一系列预定义的ETL算子,包括数据集、列编辑、数据编辑、数据集组合等,涵盖数据清洗、转换、装载等各个方面。通过在 ETL 算子区选择合适的算子,并将它们拖放到画布编辑区,用户可以构建出一个完整的 ETL 流程,定义数据处理的各个步骤。
画布编辑区该区域是用户进行实际ETL流程设计和配置的地方。用户可以在画布上拖拽并连接不同的ETL算子,通过设置算子之间的连接关系和参数,用户可以直观地定义数据处理过程。
数据预览区该区域用于预览数据。在配置完ETL流程后,支持用户在各环节节点实时预览数据效果,在线确认数据处理流程的正确性。
更新设置区该区域用于进一步配置ETL的作业调度策略,支持配置更新方式(定时更新、数据集更新后更新)、任务优先级、超时限制等操作。
撤销恢复区支持用户通过撤销和恢复按钮来回退或前进到特定的操作状态(仅记录前后各30个操作步骤),方便用户在设计过程中灵活地进行修改和调整,提高操作的容错率。

2. 新手入门

为方便您系统性的掌握数据处理技能,我们为您梳理了以下的学习路径,您可以参考下方的入门实操案例,完成您的第一个ETL任务。具体学习路径如下:

核心路径

操作指导

说明

新建ETL任务

新建ETL任务

一个入门实操案例





使用ETL算子

数据集算子

包括输入、输出2类数据集算子,分别代表原始数据集和结果数据集

支持多源异构数据的快速融合(多路输入),数据流任意节点随时输出(多路输出)

列编辑算子

对现有数据集中存在的列维度进行扩展或合并计算、多列合并计算等

数据编辑算子

剔除掉源数据中的脏数据、或替换掉某些数据值等

数据集组合算子

将两个数据集中的共同关联列进行拼接,合并为一个数据全面的数据集

高级计算算子

对数据进行查询、提取与融合、一次性输出数据集统计信息等

此功能中SQL输入为免费算子,其余为付费增值模块,如需试用请联系商务



画布编辑算子

画布注释

帮助协作者理解复杂ETL环节,减少维护成本与交接难度

高亮相关路径

方便用户在ETL问题排查时,快速理清上下游节点关系

撤销恢复

方便用户通过撤销和恢复按钮来回退或前进到特定的操作状态






管理与维护

查看任务

查看ETL任务相关的详情信息,包括但不限于运行记录、最近修改时间、最近运行时间、运行时长等,以便于后期任务复盘

编辑任务

按需编辑ETL任务,如增减算子节点、变更处理逻辑等

调度配置

通过ETL任务调度,控制ETL任务的启动运行(启动时间、运行周期及触发条件)

删除任务

用户可以对不再需要的ETL任务进行清理操作

权限管理

设置ETL任务的资源权限,包括任务所有者和访问者

高级设置

支持为单个ETL任务配置精细化的运行参数,以确保该ETL正常高效的运行。例如,启用ETL中间结果缓存可显著提升任务的运行效率

3. 常见问题

若您在使用Smart ETL功能时遇到问题,建议前往 《ETL常见问题》 和 《ETL常见报错》 了解。

更多关于Smart ETL的使用帮助可前往 观远数据视频教程网站 查看。