概述
概述
Smart ETL 任务的维护和管理是确保数据处理流程正常运行、适应业务变化、提高数据质量和运行效率的关键。
也可以通过监控任务的执行情况,定期调整调度策略等方式解决系统稳定性问题。

功能入口
针对 ETL 的管理与维护,观远 BI 提供了两种入口:
-
列表管理入口: ETL 列表页支持对 ETL 任务进行统一管理,并以简洁的方式列出当前 ETL 任务的基本信息,并提供基本操作。

-
任务详情入口:ETL 详情页提供了更详细和任务全貌,并且允许用户深入管理单个任务的所有配置项和高级功能。

管理操作说明
普通用户非ETL所有者无法管理ETL,只有ETL所有者或者有管理员权限的用户才能管理ETL,在对ETL进行管理与维护操作前请确保获取到权限。
| 操作项 | 说明 |
|---|---|
| 编辑 | 修改和调整已创建的 ETL 任务的配置和参数,以适应业务需求的变化或优化 ETL 流程。 |
| 运行 | 手动启动或触发已创建的 ETL 任务,使其执行数据处理流程,通常用于验证任务配置和获取实时处理结果。 |
| 查看资源血缘 | 查看 ETL 任务执行所涉及的数据资源之间的关系,透过资源血缘,可以方便的看到每一个数据应用、分析看板、ETL、数据集等之间的关联。 |
| 查看运行记录 | 查看 ETL 任务的执行记录,包括 ETL 任务开始执行时间、完成时间、运行时长及状态等信息,用于监控任务的执行情况和排查问题。 |
| 另存为 | 复制并创建一个新的 ETL 任务,基于现有任务的配置进行修改,以便在保留原任务的同时,满足新的业务需求。 |
| 重命名 | 修改 ETL 任务的名称,用于更好地反映任务的用途、内容或业务场景。 |
| 移动至 | 将 ETL 任务从当前位置移动到指定的文件夹或目录,用于组织和管理任务的层次结构。 |
| 迁移 | 将 ETL 任务资源从当前环境迁移至其他环境。 |
| 删除 | 从 ETL 任务管理系统中删除已创建的任务,谨慎使用,因为删除操作会清除任务及其相关的配置和执行记录。 |
| 权限配置 | 支持对 ETL 任务的权限进行配置,包括所有者转移和访问者分配,保障数据的安全性和合规性。
|
| ETL 更新 | 为 ETL 任务制定不同的调度策略,控制 ETL 任务的启动运行(启动时间、运行周期及触发条件),以满足不同的数据处理需求。具体详见 ETL更新策略。 |
支持在 ETL 列表对多个 Smart ETL 任务批量操作,包括更新设置、权限配置(所有者转移、访问者授权)、移动或删除。这样将节省重复操作的时间,提高工作效率。

操作说明
ETL 编辑
点击右上角的「编辑」按钮,即可进入该 ETL 的编辑页面进行操作。

ETL 运行
手动启动或触发已创建的 ETL 任务,使其执行数据处理流程,通常用于验证任务配置和获取实时处理结果。
Smart ETL 保存后,需要运行才可以输出数据集,初次运行会生成「输出数据集」,再次运行能按照现在的逻辑更新输出数据集。
用户可以直接去 ETL 中找到对应的 ETL 处理流运行,也可进入详情界面再运行。点击「运行」后,ETL 运行时间变为「运行中」。
报错详见 Found duplicate column(s) ...


-
只有通过运行,才可以输出数据集;
-
在必要的时候,可手动更新输出数据集;
-
运行失败,则表明该 ETL 处理流存在问题,需要进一步做排查、完善;
-
自动运行可以使得从输入数据集到输出数据集的自动执行;
-
对于有多个输入数据源的 ETL,若选择「勾选的数据集」来触发更新,建议选定最晚更新时间的输入数据源来进行触发。
查看资源血缘
查看 ETL 任务执行所涉及的数据资源之间的关系,透过资源血缘,可以方便的看到每一个数据应用、分析看板、ETL、数据集等之间的关联,数据分析的流程走向尽在掌握,从而实现快速数据治理等工作,了解资源上下游依赖情况、资源删改风险评估等,在排查问题时,也可快速定位问题所在。具体详见 资源血缘


查看运行记录
提供当前 ETL 任务的运行状态与历史执行情况,任务的每一次运行情况均可溯源。包括 ETL 任务开始执行时间、完成时间、运行时长及状态等信息,统计运行记录,有助于监控任务的执行情况和排查问题。

若运行失败,则表明该 ETL 处理流存在问题,需要进一步做排查、完善。

另存为
复制并创建一个新的 ETL 任务,适用于需要频繁创建相似任务或快速适应新数据源的情况,避免从零开始创建任务,节省了配置时间。 另存为成功后,用户可基于现有任务的配置直接进行修改或替换数据集。

重命名
修改 ETL 任务的名称,用于更好地反映任务的用途、内容或业务场景。

移动至
将 ETL 任务从当前位置移动到指定的文件夹或目录,用于组织和管理任务的层次结构。

迁移
将 ETL 任务资源从当前环境迁移至其他环境。具体详见 资源迁移。
删除
用户可以对不再需要的 ETL 任务进行清理操作,适用于从未运行或使用等的闲置 ETL 任务,或属于占用 CPU 资源的僵尸 ETL 等情况。
在删除 ETL 任务之前,请先了解当前 ETL 任务的用途、影响和相关依赖关系,以免对系统造成不必要的影响。
并且需要谨慎操作,因为删除操作会清除任务及其相关的配置和执行记录,且操作不可逆(无法在回收站中找回)。

-
当 ETL 被高级调度引用时,可能会造成 ETL 任务删除失败。解决方法: 考虑前往高级调度模块,删除对应工作流中被引用的 ETL 任务。
-
当 ETL 输出数据集已存在时,可能会造成 ETL 任务删除失败。解决方法: 在不影响业务分析的前提下,考虑删除 ETL 输出数据集。
权限配置
-
将任务的所有权转移到另一个用户,所有者会具有当前任务的全部权限。

-
将当前 ETL 任务访问权限分配给其他用户或团队成员。这些权限可能包括查看任务、编辑任务、运行任务、查看运行记录等。

查看更多 ETL权限管理 。
-
「所有者转移」时不允许选择用户组或只读用户。
-
「所有者转移」和「访问者授权」支持批量操作。
入口: Smart ETL 列表中勾选 ETL 任务后,底部快捷栏中将出现批量操作项。

ETL 更新
为 ETL 任务制定不同的调度策略,控制 ETL 任务的启动运行(启动时间、运行周期及触发条件),以满足不同的数据处理需求。
具体详见 ETL更新策略