Galaxy 帮助中心

智能 ETL(Smart ETL)高级设置

创建于 2023-03-10 / 最近更新于 2023-04-27 / 580
字体: [默认] [大] [更大]

1. ETL高级设置概述

本文将为您介绍Smart ETL的高级设置的功能说明与具体操作。

2. ETL高级设置说明

操作路径:数据中心 - 智能ETL - ETL详情页 - 高级设置;

功能说明:可设置三个运行参数 ,下文将详细说明。

1.png

2.1 参数1:ETL缓存中间结果缓存

当ETL相对较复杂时(至少包含两个输出数据集且超过设置的复杂度阈值),通过启用该配置,系统会自动将中间运算结果进行缓存以加速整个ETL的运行效率。特殊情况下,可以在ETL粒度上停用该功能。

  • 复杂度的阈值设置页面路径:管理员设置 - 运维管理 - 参数配置 - ETL参数配置;

  • 默认推荐的复杂度阈值为100。设置过低,可能造成更多ETL运行过程中自动缓存中间结果。

2.png

2.2 参数2:BroadcastJoin 

在系统内,Spark为默认启用。但当两张关联表的数据量都较大时,其实并不适合启用Spark。

对此,您可以通过配置“BroadcastJoin”,将其禁用,从而降低风险。 

3.png

2.3 参数3:停用特定Spark优化规则 

ETL的计算引擎预置了部分Spark运行优化规则,如OptimizeRepartition、ColumnPruning等。非常特殊情况下,一些规则会使部分ETL运行异常,此时可以针对这些ETL进行配置,使其在运行中不采用预制的优化规则。

支持同时剔除、停用多个规则,不同规则之间采用英文逗号分割即可,如下所示。

CombineUnions,ConstantPropagation

若您在配置过程中遇到问题,可联系观远数据对接人员。


0 人点赞过