版本：6.0.0

ETL高级设置

1. ETL高级设置概述

本文将为您介绍Smart ETL的高级设置的功能说明与具体操作。

操作路径：数据中心 - 智能ETL - ETL详情页 - 高级设置；

功能说明：可设置四个运行参数，下文将详细说明。

当ETL相对较复杂时（至少包含两个输出数据集且超过设置的复杂度阈值），通过启用该配置，系统会自动将中间运算结果进行缓存以加速整个ETL的运行效率。特殊情况下，可以在ETL粒度上停用该功能。

在系统内，Spark为默认启用。但当两张关联表的数据量都较大时，其实并不适合启用Spark的 BroadcastJoin 功能。

对此，您可以通过配置“BroadcastJoin”选项，将其禁用，从而降低风险。针对特殊情况，是否启用，可以联系观远数据技术支持。

为某个ETL任务提供更灵活的精准控制。通过设置Spark运行超时时长，可以限制任务的执行时间，确保任务在合理的时间范围内完成，避免因任务执行时间过长导致延迟和资源浪费，从而提升数据分析与处理的效率。

ETL的计算引擎预置了部分Spark运行优化规则，如OptimizeRepartition、ColumnPruning等。非常特殊情况下，一些规则会使部分ETL运行异常，此时可以针对这些ETL进行配置，使其在运行中不采用预制的优化规则。

支持同时剔除、停用多个规则，不同规则之间采用英文逗号分割即可，如下所示。

CombineUnions,ConstantPropagation

若您在配置过程中遇到问题，可联系观远数据对接人员。