Smart ETL概述
1. 概述
1.1. 导读介绍
本章节将为您介绍观远Smart ETL是什么,讲解应用场景及功能模块,并提供新手友好的快速入门教程。
Smart ETL相关的视频课程,详见:
1.2. Smart ETL概述
智能ETL(Smart ETL)是观远数据面向业务可用提供的一款零代码·全拖拽式的自助式数据准备和数仓构建工具。智能ETL让用户在数据分析、数据可视化制作前,能够自助式对数据集进行易操作、低门槛、智能化的高效数据处理。基于强大的数据处理算子和节点,通过全拖拉拽式、配置化的方式对数据进行清洗、转换、加载等操作,对任意节点的实时预览纠错与输出等完成数据处理工作流的构建,帮助企业/部门完成轻型数仓的建设,不懂SQL的业务人员也可达到专业级的数据处理效果。
相较于传统的ETL工具,观远数据智能 ETL 在处理复杂数据、提升数据处理效率、数据质量、数据一致性等方面,具有更高的自动化、智能化、可视化和安全性等功能优势,有效满足企业数据处理需求。
· 零代码式的可视化配置操作,将业务逻辑过程中的每一步细化呈现,所见即所得。
· 智能ETL包含输入输出、列编辑、数据编辑、数据组合、高级计算等5大类,15+个常用算子。
· 数据处理过程中可实时预览与保存,用户可随时确认处理结果,在线纠错,避免返工。
· 针对复杂数据来源,提供35+ 数据接入类型,数据流任意节点也支持随时输出,充分发挥数据价值。
· 基于Spark的大数据架构,智能ETL轻松应对海量数据分析场景,提供企业亿级数据处理场景的速度能力。
1.3. 应用场景
· 数仓构建:
对于信息系统庞杂,并且暂时不具备统一集团信息化系统条件的中大型集团,将多源异构数据存储至同一个平台上,实现集团层面的数据“大一统”便于企业中心化高效管理和决策支持。如可从总账、报表、甚至凭证层级抽取财务数据、建立数据仓库。通过数据处理先将数据预处理至数仓,后续再对数仓数据进行深度挖掘。既不影响业务库运行,也能满足离线数仓对外服务。
· 挖掘数据价值:
面对动辄几十亿行的库存数据,很多企业都会面对“留之累赘,弃之担忧”的尴尬。最常见的解决办法就是把每一天的全量快照数据都存下来,提供日期主键,然后开放给用户去查询。但这样实际上会保存很多不变的信息,对存储是极大的浪费;再者,设计不当还非常影响查询效率,拖垮数据库。
举个例子,一家连锁药店企业,门店数3000,SKU数1000,如果存库存快照数据,每天就是300万,一年就是10个亿。如果要求能够查询5年的历史数据,那么就需要保存近50亿的历史快照数据。面对这类问题,观远数据的Smart ETL可以处理海量历史数据压缩存储与查询。既能满足反应数据的历史状态,又可以最大程度的节省存储空间,提高查询效率。
· 数据清洗和转换:
在实际的数据分析和决策过程中,数据往往存在不一致、重复、缺失等问题,需要利用ETL进行数据清洗和转换。通过 ETL的处理,可以得到高质量、一致性的数据,为后续的数据分析和决策提供可靠的基础。
1.4. 功能介绍
Smart ETL编辑界面分为5个主要区域,分别为:ETL算子区、画布编辑区、数据预览区等。
不同操作区域的描述说明如下:
操作区域 | 说明 |
---|---|
ETL算子区 | 该区域包含一系列预定义的ETL算子,包括数据集、列编辑、数据编辑、数据集组合等,涵盖数据清洗、转换、装载等各个方面。通过在 ETL 算子区选择合适的算子,并将它们拖放到画布编辑区,用户可以构建出一个完整的 ETL 流程,定义数据处理的各个步骤。 |
画布编辑区 | 该区域是用户进行实际ETL流程设计和配置的地方。用户可以在画布上拖拽并连接不同的ETL算子,通过设置算子之间的连接关系和参数,用户可以直观地定义数据处理过程。 |
数据预览区 | 该区域用于预览数据。在配置完ETL流程后,支持用户在各环节节点实时预览数据效果,在线确认数据处理流程的正确性。 |
更新设置区 | 该区域用于进一步配置ETL的作业调度策略,支持配置更新方式(定时更新、数据集更新后更新)、任务优先级、超时限制等操作。 |
撤销恢复区 | 支持用户通过撤销和恢复按钮来回退或前进到特定的操作状态(仅记录前后各30个操作步骤),方便用户在设计过程中灵活地进行修改和调整,提高操作的容错率。 |
2. 新手入门
为方便您系统性的掌握数据处理技能,我们为您梳理了以下的学习路径,您可以参考下方的入门实操案例,完成您的第一个ETL任务。具体学习路径如下:
核心路径 | 操作指导 | 说明 |
新建ETL任务 | 一个入门实操案例 | |
使用ETL算子 | 包括输入、输出2类数据集算子,分别代表原始数据集和结果数据集 支持多源异构数据的快速融合(多路输入),数据流任意节点随时输出(多路输出) | |
对现有数据集中存在的列维度进行扩展或合并计算、多列合并计算等 | ||
剔除掉源数据中的脏数据、或替换掉某些数据值等 | ||
将两个数据集中的共同关联列进行拼接,合并为一个数据全面的数据集 | ||
对数据进行查询、提取与融合、一次性输出数据集统计信息等 此功能中SQL输入为免费算子,其余为付费增值模块,如需试用请联系商务 | ||
画布编辑算子 | 帮助协作者理解复杂ETL环节,减少维护成本与交接难度 | |
方便用户在ETL问题排查时,快速理清上下游节点关系 | ||
方便用户通过撤销和恢复按钮来回退或前进到特定的操作状态 | ||
管理与维护 | 查看ETL任务相关的详情信息,包括但不限于运行记录、最近修改时间、最近运行时间、运行时长等,以便于后期任务复盘 | |
按需编辑ETL任务,如增减算子节点、变更处理逻辑等 | ||
通过ETL任务调度,控制ETL任务的启动运行(启动时间、运行周期及触发条件) | ||
用户可以对不再需要的ETL任务进行清理操作 | ||
设置ETL任务的资源权限,包括任务所有者和访问者 | ||
支持为单个ETL任务配置精细化的运行参数,以确保该ETL正常高效的运行。例如,启用ETL中间结果缓存可显著提升任务的运行效率 |
3. 常见问题
若您在使用Smart ETL功能时遇到问题,建议前往 《ETL常见问题》 和 《ETL常见报错》 了解。
更多关于Smart ETL的使用帮助可前往 观远数据视频教程网站 查看。