数据集更新
概述
为确保数据的时效性,用户需更新数据集,为满足不同业务场景,观远BI支持定时更新和手动更新、URL 触发更新等模式。用户可给数据集配置更新条件,让数据集在特定条件下自动更新。而对于部分数据集(如Excel、CSV和账户数据集等),观远BI还支持用户按需清理数据集的指定数据,控制数据集大小。
在完成数据更新后,用户可通过「查看更新历史」,了解数据集更新任务的具体环节、执行状态、执行时长及完整日志信息,提升数据集更新任务的问题排查效率。本文将对上述更新配置进行详细说明。
自动更新配置
数据集的更新方式会受到数据集的连接方式(直连/抽取)和数据集的类型所影响,用户可在数据集接入页和数据集详情页中配置更新方式(部分配置项存在差异),具体如下:
| 配置项 | 接入页 | 详情页 | 可参考 | |
|---|---|---|---|---|
| 通用 | 调度状态 | ✅ | ✅ | 标准数据库连接指南 |
| 24h定时更新任务密度图 | ✅ | ✅ | ||
| 失败重试 | ❌ | ✅ | 下文介绍 | |
| 直连 | 缓存有效周期 | ✅ | ✅ | 标准数据库连接指南 |
| 实时卡片数据 | ✅ | ✅ | ||
| 自动更新数据结构 | ❌ | ✅ | 下文介绍 | |
| 抽取 | 数据更新周期 | ✅ | ✅ | 标准数据库连接指南 |
| 去重主键 | ✅ | ✅ | ||
| 增量更新 | ✅ | ✅ | ||
| (增量更新模式下)自动更新数据结构 | ❌ | ✅ | 下文介绍 | |
| (增量更新模式下)前置清理规则 | ❌ | ✅ | ||
| 任务优先级 | ✅ | ✅ | 标准数据库连接指南 |
失败重试
数据集更新过程中可能会任务异常导致更新过程失败,用户可通过启用「失败重试」来保障数据的及时性和准确性,即第一时间进行任务重试,重试间隔支持用户自定义和跟随全局两种模式配置。两种模式均可按照分钟级别(5/10/15分钟)设置重试间隔。
1. 「失败重试」仅支持自动更新(包括:定时更新、URL触发),不支持手动更新。
2. 失败重试仅支持进行「1次」。
「失败重试」功能有跟随全局和自定义两种模式,分别可在管理中心和数据集详情页进行配置:
-
跟随全局:用户可在 管理中心>运维管理>参数配置 中启用「失败重试」,完成相关配置后,系统将默认所有数据集为「跟随全局」设置;

-
自定义:若只需设置单个数据集的「失败重试」,用户可在数据集详情页开启「失败重试」,设置重试的间隔,设置后将优先于全局层面的设置。

自动更新数据结构
直连数据集
对于直连数据集,可选择是否勾选「自动更新数据结构」,勾选后,数据集每次定时更新缓存之前先更新一次数据结构。
若检测到源端数据库有新增列,平台会自动将该列添加到数据结构中;若检测到部分列缺失,数据结构将保持不变。
只支持DB,不支持mongoDB、SAP BW。

抽取数据集
对于抽取数据集,可勾选是否开启「增量更新」,增量更新的定义说明详见增量更新。
开启后,可继续选择是否勾选「自动更新数据结构」。勾选后,数据集结构便可随源数据库端结构变化而变化。
1. 支持「自动更新数据结构」的数据集需要满足 3 个条件:数据库来源数据集、抽取方式以及开启增量更新;
2. 「自动更新数据结构」当前仅支持源端字段新增后向数据集新增字段,源端字段删除后数据集字段不做删除动作。

前置清理规则
对于抽取数据集,勾选「增量更新」后,可选择是否勾选「前置清理规则」。勾选后,满足规则的数据将在更新前从数据集自动删除。
对于系统内置的增量更新数据集(除builtin_user,builtin_data_source,builtin_data_flow外),也支持配置前置清理规则。

手动更新配置
除了给数据集配置更新条件实现数据集自动更新,用户还可手动完成数据集的更新操作。
对于大部分数据集,点击数据详情页的「更新」按钮,即可实现数据即时更新。而对于Excel和CSV类型的文件数据集,则需要通过「数据追加/替换」功能来实现数据的手动更新。
数据更新(非Excel/CSV)
对于大部分数据(除Excel/CSV),点击数据集详情界面右上角的「更新」按钮,手动触发数据集的即时更新。
对于抽取数据集,更新方式分为添加新数据、覆盖旧数据两种模式。
- 添加新数据:执行结果将追加到原有数据里,若设置了主键,会根据主键进行去重。
- 覆盖旧数据:执行结果将替换原有数据,所有历史数据将会被清空。
对于卡片数据集类型,例如:数据集A创建了卡片B,根据卡片B创建了卡片数据集C,具体更新情况为:
(1)关于卡片数据集的结构:如果卡片B修改,卡片数据集C不会自动同步,需要对数据集C进行手动更新才会同步。
(2)关于卡片数据集的数据内容:原始数据集A更新,会触发卡片数据集C的数据更新。

数据追加/替换(Excel/CSV)
对于从文件导入数据的数据集(Excel/CSV),可以在数据集详情页右上角选择「追加数据」或「替换数据」。更多具体操作在从文件导入数据的相关文档中已有详细说明,详情请参阅从文件导入数据。

URL 触发更新
数据更新URL触发机制,是指针对通过数据库连接数据的数据集(如直连数据集、抽取数据集、FTP数据集等),可通过URL触发的方式实现外部更新,即方便外部系统在数据更新完毕以后,能够及时通知观远平台来同步数据的功能。
在数据集详情页可选择是否开启「URL触发」更新,勾选后,用户可在外部系统中通过以下URL直接更新当前数据集,且不需要用户验证,详情请参阅数据更新URL触发机制。
1. URL触发方式的数据集更新,不受调度状态(开启或关闭)的影响。
2. 例如,可以通过观远BI的用户界面手动点击更新按钮来立即更新数据集,或者通过向系统发送一个包含特定参数的URL请求来触发更新过程。

数据清理
用户可通过「数据清理」功能对数据集中的数据设置一定的清理规则,只保留符合一定规则的数据,过滤掉不满足需求的数据,可以高效获得符合需求的数据。
1. 视图数据集、直连数据集不支持进行数据清理;
2. 其他从文件导入数据、数据库接入数据的数据集,支持数据清理。
3. 内置数据集支持数据清理。
-
点击右上角的「···」操作栏,选择「数据清理」,页面弹出「数据清理」弹窗,点击「新建」按钮,即可进入「规则编辑器」。

-
在「规则编辑器」中,选择字段,然后选择规则类型,设置清理的规则。例如在下图中,清理掉了与「上海万达店」和「上海国贸店」的相关数据。

-
点击预览,可查看「待清理数据预览」,确认无误后点击「立即清理」即可完成操作。

查看更新历史
可以在数据集详情页查看数据集更新历史,支持查看具体环节、执行状态、执行时长及完整日志信息,提升数据集更新任务的问题排查效率。记录默认保留3个月,如需保存更长时间,请联系观远工作人员进行调整。
6.3 版本的数据集更新历史监控中对于日志管理进行了重构,版本升级时间点之前的历史运行任务不支持按照新的日志查看,可跳转到 管理中心 > 任务运维 进行问题排查。

监控列表支持查看「更新用户」、「更新方式」及「操作」等任务信息项,以下选取其中三项进行说明。

-
更新用户:记录数据集更新任务的操作用户,手动触发的"更新用户"为当前操作用户,定时及高级调度触发的更新任务中更新用户记录为「-」,API触发的更新用户记录为token中用户。
-
更新方式:包括API、手动触发、定时调度、高级调度触发。
-
操作:点击「详情」可查看更新任务的具体环节、执行状态、执行时长及完整日志信息。在更新历史详情页点击各环节「查看日志」,可将日志全屏展示并复制当前的所有日志到剪切板。

-
抽取数据集示例:任务环节包括「建立数据库连接」、「从数据库获取数据到临时文件」、「临时文件数据合并到数据集」、「获取数据集行数」。

-
直连数据集示例:任务环节包括「建立数据库连接」。

-