版本：7.2.0

ETL数据膨胀优化

【问题表现】

任务运行很慢，数据量越大执行时间就越长，可能会报错 job time out、OOM。
不恰当的关联使用导致数据膨胀超出数据限制，目前行数限制是50亿行，数据大小限制是200G。此时会报错：Job Cancelled due to numRows limit 、Job Cancelled due to data size limit。

【触发场景】

不恰当的关联方式，例如全关联、或者交叉关联（笛卡尔积）；
不恰当的关联字段导致的数据膨胀；
不恰当的聚合操作例如 collect_list、collect_set、median，计算时需要把全量中间数据都保留下来，在配合其他聚合用法时，可能会产生数据膨胀；

【解决方案】

一、不恰当的关联方式

尽量使用左关联，非必要避免使用全关联。
非必要避免使用交叉关联（ETL不直接支持，必要情况下间接实现请参考 ETL补齐数据方法）。交叉关联的数据量是笛卡尔积的形式，比如两张表的数据分别是20w、5w那么full join出来的数据就是100亿（20w*5w）的数据

二、不恰当的关联字段

1. 使用任意关联方式时，要避免关联字段的一对多关系

例如60万的数据左关联（left join） 2万数据时，SQL逻辑如下，当每个table2中的srcid对应100条desid时，则最终数据量60w*100=6000w。

select sid,nums,desid
from
	(select sid,nums
   from table1
   where date = '20221030'
  ) a
	left join
	(select srcid,desid
   from table2
   where date = '20221030'
  ) b
	on a.sid = b.srcid

【解决方案】

建议如果不是业务强需求，尽量改成一对一的关系后再进行关联。在ETL中可以使用“分组聚合”、“去重”节点进行处理。

--------建议修改成以下这种(聚合方式可以选择max/min/sum/avg等)--------
select sid,nums,des
from
	(select sid,nums
   from table1
   where date = '20221030'
  ) a
	left join
	(select srcid,max(desid) as des
   from table2
   where date = '20221030'
   group by srcid
  ) b
	on a.sid = b.srcid

2. 当关联字段中里面有重复的空字符串，在关联时会产生膨胀

例如左表有2行空字符串，右表有3行空字符串，则使用任意方式关联之后都会产生数据膨胀（2*3=6）。这个也相当于是关联字段一对多。

【解决方案】

空字符串如果是无效数据，则建议先使用“筛选数据行”过滤掉这部分数据，或者用“值替换”替换为null值。一般null值在ETL的中使用关联节点来做数据集关联时是不会产生膨胀的，因为spark里null = null的结果不是true，是null。
对左右关联的两张表的主键使用“分组聚合”或者“去重”节点，尽量实现主键为一对一的关系，可以避免数据膨胀。

三、不恰当的聚合操作

例如collect_list、collect_set、median，计算时需要把全量中间数据都保留下来，在配合其他聚合用法（例如开窗）时，可能会产生数据膨胀（主要是数据大小膨胀）。目前限制参与collect_list、collect_set计算的行数上限为50万行，超过会报错：Too many elements in collect_set or collect_list. The threshold is 500000.

【解决方案】

ETL里通过「分组聚合+自关联方式」进行计算。即把需要开窗计算的数据用分组聚合节点计算得到，然后再和原来的数据表关联起来。具体请参考去重计数函数实现开窗。

【预防及检查】

ETL里每个节点都确保能预览成功再进行下一步；
预览加载慢的时候，特别是关联节点，使用SQL节点（ select count() from input1 *）来检查关联前后的行数变化，可以及时发现数据膨胀；
借助“数据探查”或者“分组聚合”节点，查看关联用的右表主键是否存在空字符串、是否存在一对多的情况。

【问题表现】​

【触发场景】​

【解决方案】​

一、不恰当的关联方式​

二、不恰当的关联字段​

1. 使用任意关联方式时，要避免关联字段的一对多关系​

【解决方案】​

2. 当关联字段中里面有重复的空字符串，在关联时会产生膨胀​

【解决方案】​

三、不恰当的聚合操作​

【解决方案】​

【预防及检查】​

【问题表现】

【触发场景】

【解决方案】

一、不恰当的关联方式

二、不恰当的关联字段

1. 使用任意关联方式时，要避免关联字段的一对多关系

【解决方案】

2. 当关联字段中里面有重复的空字符串，在关联时会产生膨胀

【解决方案】

三、不恰当的聚合操作

【解决方案】

【预防及检查】