跳到主要内容

DB数据流

概述

数据流中的ETL算子运行时一般使用spark算力,新增DB数据流节点,运行DB数据流会将ETL计算逻辑转化为数据库支持的SQL语言,下推到数据库运用数仓算力计算。

支持的数仓

支持postgresql连接类型的数据库,包括postgresql、GaussDB等。

操作步骤

操作入口

直接拖入DB数据流或者将普通数据流转化为DB数据流

  • 直接拖入DB数据流

  • 普通数据流转DB数据流

DB数据流中完成数据开发

DB数据流节点包括以下具体算子,请按需参阅具体文档。

注意

为确保任务能正常下推至数据库运行,DB数据流中的数据来源仅支持数据库类型,且数据库输入和数据库输出节点只能配置相同的数据账户,数据集、文件、ERP等数据源请在普通数据流中进行配置。

在DB数据流编辑SQL语句时,请使用符合数据库语法的函数和语句,不要使用Spark函数和语句(下推时运行失败)。

输入/输出

算子说明文档
数据库输入数据库输入
数据库输出数据库输出

列编辑算子

算子说明文档
添加计算列添加计算列
合并列合并列
分组聚合分组聚合
选择列选择列
行转列行转列
列转行列转行

数据编辑算子

算子说明文档
筛选数据行筛选数据行
去重去重
值替换值替换
Null值替换Null值替换

数据集组合

算子说明文档
行拼接行拼接
关联数据关联数据

高级计算

SQL算子:SQL算子

DB数据流计算逻辑切分

使用场景

当DB数据流处理逻辑较为复杂时,在未开启ETL切分的情况下,会将DB数据流解析为一段复杂SQL直接推到数据库,SQL过于复杂时数据库很可能运行不动。

具体操作

这种情况建议开启ETL切分配置,系统会将DB数据流中的逻辑自动切分为多条SQL,推到数据库运行,确保任务的顺利运行。


ETL切分在管理中心可进行全局配置:

高阶操作:手动配置切分点

使用场景

对于一些极端复杂的DB数据流,系统自动切分SQL后还是不满足数据库运行的条件,支持用户手动配置切分点

操作步骤

编辑DB数据流——拆分——选择节点进行拆分