观远 BI

Smart ETL概述

创建于 2023-12-01 / 最近更新于 2024-01-25 / 5798
字体: [默认] [大] [更大]

1. 概述

1.1. 导读介绍

本章节将为您介绍观远Smart ETL是什么,讲解应用场景及功能模块,并提供新手友好的快速入门教程。

1.2. Smart ETL概述

智能ETL(Smart ETL)是观远数据面向业务可用提供的一款零代码·全拖拽式的自助式数据准备和数仓构建工具。智能ETL让用户在数据分析、数据可视化制作前,能够自助式对数据集进行易操作、低门槛、智能化的高效数据处理。基于强大的数据处理算子和节点,通过全拖拉拽式、配置化的方式对数据进行清洗、转换、加载等操作,对任意节点的实时预览纠错与输出等完成数据处理工作流的构建,帮助企业/部门完成轻型数仓的建设,不懂SQL的业务人员也可达到专业级的数据处理效果。

 

image.png

 

相较于传统的ETL工具,观远数据智能 ETL 在处理复杂数据、提升数据处理效率、数据质量、数据一致性等方面,具有更高的自动化、智能化、可视化和安全性等功能优势,有效满足企业数据处理需求。

  · 零代码式的可视化配置操作,将业务逻辑过程中的每一步细化呈现,所见即所得。

  · 智能ETL包含输入输出、列编辑、数据编辑、数据组合、高级计算等5大类,15+个常用算子。

  · 数据处理过程中可实时预览与保存,用户可随时确认处理结果,在线纠错,避免返工。

  · 针对复杂数据来源,提供35+ 数据接入类型,数据流任意节点也支持随时输出,充分发挥数据价值。

  · 基于Spark的大数据架构,智能ETL轻松应对海量数据分析场景,提供企业亿级数据处理场景的速度能力。

1.3. 应用场景

  · 数仓构建:

对于信息系统庞杂,并且暂时不具备统一集团信息化系统条件的中大型集团,将多源异构数据存储至同一个平台上,实现集团层面的数据“大一统”便于企业中心化高效管理和决策支持。如可从总账、报表、甚至凭证层级抽取财务数据、建立数据仓库。通过数据处理先将数据预处理至数仓,后续再对数仓数据进行深度挖掘。既不影响业务库运行,也能满足离线数仓对外服务。

  · 挖掘数据价值:

面对动辄几十亿行的库存数据,很多企业都会面对“留之累赘,弃之担忧”的尴尬。最常见的解决办法就是把每一天的全量快照数据都存下来,提供日期主键,然后开放给用户去查询。但这样实际上会保存很多不变的信息,对存储是极大的浪费;再者,设计不当还非常影响查询效率,拖垮数据库。

举个例子,一家连锁药店企业,门店数3000,SKU数1000,如果存库存快照数据,每天就是300万,一年就是10个亿。如果要求能够查询5年的历史数据,那么就需要保存近50亿的历史快照数据。面对这类问题,观远数据的Smart ETL可以处理海量历史数据压缩存储与查询。既能满足反应数据的历史状态,又可以最大程度的节省存储空间,提高查询效率。

  · 数据清洗和转换:

在实际的数据分析和决策过程中,数据往往存在不一致、重复、缺失等问题,需要利用ETL进行数据清洗和转换。通过 ETL的处理,可以得到高质量、一致性的数据,为后续的数据分析和决策提供可靠的基础。

1.4. 功能介绍

Smart ETL编辑界面分为5个主要区域,分别为:ETL算子区、画布编辑区、数据预览区等

 

image.png

不同操作区域的描述说明如下:

操作区域

说明

ETL算子区

该区域包含一系列预定义的ETL算子,包括数据集、列编辑、数据编辑、数据集组合等,涵盖数据清洗、转换、装载等各个方面。通过在 ETL 算子区选择合适的算子,并将它们拖放到画布编辑区,用户可以构建出一个完整的 ETL 流程,定义数据处理的各个步骤。

画布编辑区

该区域是用户进行实际ETL流程设计和配置的地方。用户可以在画布上拖拽并连接不同的ETL算子,通过设置算子之间的连接关系和参数,用户可以直观地定义数据处理过程。

数据预览区

该区域用于预览数据。在配置完ETL流程后,支持用户在各环节节点实时预览数据效果,在线确认数据处理流程的正确性。

更新设置区

该区域用于进一步配置ETL的作业调度策略,支持配置更新方式(定时更新、数据集更新后更新)、任务优先级、超时限制等操作。

撤销恢复区

支持用户通过撤销和恢复按钮来回退或前进到特定的操作状态(仅记录前后各30个操作步骤),方便用户在设计过程中灵活地进行修改和调整,提高操作的容错率。

2. 新手入门

为方便您系统性的掌握数据处理技能,我们为您梳理了以下的学习路径,您可以参考下方的入门实操案例,完成您的第一个ETL任务。具体学习路径如下:


核心路径

操作指导

说明

新建ETL任务

新建ETL任务

一个入门实操案例





使用ETL算子

数据集算子

包括输入、输出2类数据集算子,分别代表原始数据集和结果数据集

支持多源异构数据的快速融合(多路输入),数据流任意节点随时输出(多路输出)

列编辑算子

对现有数据集中存在的列维度进行扩展或合并计算、多列合并计算等

数据编辑算子

剔除掉源数据中的脏数据、或替换掉某些数据值等

数据集组合算子

将两个数据集中的共同关联列进行拼接,合并为一个数据全面的数据集

高级计算算子

对数据进行查询、提取与融合、一次性输出数据集统计信息等

此功能中SQL输入为免费算子,其余为付费增值模块,如需试用请联系商务



画布编辑算子

画布注释

帮助协作者理解复杂ETL环节,减少维护成本与交接难度

高亮相关路径

方便用户在ETL问题排查时,快速理清上下游节点关系

撤销恢复

方便用户通过撤销和恢复按钮来回退或前进到特定的操作状态






管理与维护

查看任务

查看ETL任务相关的详情信息,包括但不限于运行记录、最近修改时间、最近运行时间、运行时长等,以便于后期任务复盘

编辑任务

按需编辑ETL任务,如增减算子节点、变更处理逻辑等

调度配置

通过ETL任务调度,控制ETL任务的启动运行(启动时间、运行周期及触发条件)

删除任务

用户可以对不再需要的ETL任务进行清理操作

权限管理

设置ETL任务的资源权限,包括任务所有者和访问者

高级设置

支持为单个ETL任务配置精细化的运行参数,以确保该ETL正常高效的运行。例如,启用ETL中间结果缓存可显著提升任务的运行效率

3. 常见问题

若您在使用Smart ETL功能时遇到问题,建议前往 《ETL常见问题》 和 《ETL常见报错》 了解。

更多关于Smart ETL的使用帮助可前往 观远数据视频教程网站 查看


14 人点赞过