DB数据流
概述
数据流中的ETL算子运行时一般使用spark算力,新增DB数据流节点,运行DB数据流会将ETL计算逻辑转化为数据库支持的SQL语言,下推到数据库运用数仓算力计算。
支持的数仓
支持postgresql连接类型的数据库,包括postgresql、GaussDB等。
操作步骤
操作入口
直接拖入DB数据流或者将普通数据流转化为DB数据流
-
直接拖入DB数据流

-
普通数据流转DB数据流

DB数据流中完成数据开发
DB数据流节点包括以下具体算子,请按需参阅具体文档。
注意
为确保任务能正常下推至数据库运行,DB数据流中的数据来源仅支持数据库类型,且数据库输入和数据库输出节点只能配置相同的数据账户,数据集、文件、ERP等数据源请在普通数据流中进行配置。
在DB数据流编辑SQL语句时,请使用符合数据库语法的函数和语句,不要使用Spark函数和语句(下推时运行失败)。
输入/输出
| 算子 | 说明文档 |
|---|---|
| 数据库输入 | 数据库输入 |
| 数据库输出 | 数据库输出 |
列编辑算子
| 算子 | 说明文档 |
|---|---|
| 添加计算列 | 添加计算列 |
| 合并列 | 合并列 |
| 分组聚合 | 分组聚合 |
| 选择列 | 选择列 |
| 行转列 | 行转列 |
| 列转行 | 列转行 |
数据编辑算子
| 算子 | 说明文档 |
|---|---|
| 筛选数据行 | 筛选数据行 |
| 去重 | 去重 |
| 值替换 | 值替换 |
| Null值替换 | Null值替换 |
数据集组合
| 算子 | 说明文档 |
|---|---|
| 行拼接 | 行拼接 |
| 关联数据 | 关联数据 |
高级计算
SQL算子:SQL算子
DB数据流计算逻辑切分
使用场景
当DB数据流处理逻辑较为复杂时,在未开启ETL切分的情况下,会将DB数据流解析为一段复杂SQL直接推到数据库,SQL过于复杂时数据库很可能运行不动。
具体操作
这种情况建议开启ETL切分配置,系统会将DB数据流中的逻辑自动切分为多条SQL,推到数据库运行,确保任务的顺利运行。

ETL切分在管理中心可进行全局配置:

高阶操作:手动配置切分点
使用场景
对于一些极端复杂的DB数据流,系统自动切分SQL后还是不满足数据库运行的条件,支持用户手动配置切分点
操作步骤
编辑DB数据流——拆分——选择节点进行拆分
