跳到主要内容

DB数据流

概述

数据流中的 ETL 算子运行时一般使用 spark 算力,新增 DB 数据流节点,运行 DB 数据流会将 ETL 计算逻辑转化为数据库支持的 SQL 语言,下推到数据库运用数仓算力计算。

支持的数仓

支持 postgresql 连接类型的数据库,包括 postgresql、GaussDB 等。

操作步骤

操作入口

直接拖入 DB 数据流或者将普通数据流转化为 DB 数据流

  • 直接拖入 DB 数据流

  • 普通数据流转 DB 数据流

DB 数据流中完成数据开发

DB 数据流节点包括以下具体算子,请按需参阅具体文档。

注意

为确保任务能正常下推至数据库运行,DB 数据流中的数据来源仅支持数据库类型,且数据库输入和数据库输出节点只能配置相同的数据账户,数据集、文件、ERP 等数据源请在普通数据流中进行配置。

在 DB 数据流编辑 SQL 语句时,请使用符合数据库语法的函数和语句,不要使用 Spark 函数和语句(下推时运行失败)。

输入/输出

算子说明文档
数据库输入数据库输入
数据库输出数据库输出

列编辑算子

算子说明文档
添加计算列添加计算列
合并列合并列
分组聚合分组聚合
选择列选择列
行转列行转列
列转行列转行

数据编辑算子

算子说明文档
筛选数据行筛选数据行
去重去重
值替换值替换
Null 值替换Null值替换

数据集组合

算子说明文档
行拼接行拼接
关联数据关联数据

高级计算

SQL 算子:SQL算子

DB 数据流计算逻辑切分

使用场景

当 DB 数据流处理逻辑较为复杂时,在未开启 ETL 切分的情况下,会将 DB 数据流解析为一段复杂 SQL 直接推到数据库,SQL 过于复杂时数据库很可能运行不动。

具体操作

这种情况建议开启 ETL 切分配置,系统会将 DB 数据流中的逻辑自动切分为多条 SQL,推到数据库运行,确保任务的顺利运行。


ETL 切分在管理中心可进行全局配置:

高阶操作:手动配置切分点

使用场景

对于一些极端复杂的 DB 数据流,系统自动切分 SQL 后还是不满足数据库运行的条件,支持用户手动配置切分点

操作步骤

编辑 DB 数据流——拆分——选择节点进行拆分