跳到主要内容
版本:6.6.0

数据集更新

1. 概述

为确保数据的时效性,用户需更新数据集,为满足不同业务场景,观远BI支持定时更新和手动更新、URL 触发更新等模式。用户可给数据集配置更新条件,让数据集在特定条件下自动更新。而对于部分数据集(如Excel、CSV和账户数据集等),观远BI还支持用户按需清理数据集的指定数据,控制数据集大小。

在完成数据更新后,用户可通过“查看更新历史”,了解数据集更新任务的具体环节、执行状态、执行时长及完整日志信息,提升数据集更新任务的问题排查效率。本文将对上述更新配置进行详细说明。

2. 自动更新配置

数据集的更新方式会受到数据集的连接方式(直连/抽取)和数据集的类型所影响,用户可在数据集接入页和数据集详情页中配置更新方式(部分配置项存在差异),具体如下:


配置项

接入页

详情页

可参考

通用

调度状态

《标准数据库连接指南》

24h定时更新任务密度图

失败重试

下文介绍

直连

缓存有效周期

《标准数据库连接指南》

实时卡片数据

抽取

数据更新周期

去重主键

增量更新

(增量更新模式下)自动更新数据结构

下文介绍

(增量更新模式下)前置清理规则

下文介绍

任务优先级

《标准数据库连接指南》

2.1. 失败重试

数据集更新过程中可能会任务异常导致更新过程失败,用户可通过启用“失败重试”来保障数据的及时性和准确性,即第一时间进行任务重试,重试间隔支持用户自定义和跟随全局两种模式配置。两种模式均可按照分钟级别(5/10/15分钟)设置重试间隔。

注意:

1. “失败重试”仅支持自动更新(包括:定时更新、URL触发),不支持手动更新。

2. 失败重试仅支持进行“1次”。

“失败重试”功能有跟随全局和自定义两种模式,分别可在管理中心和数据集详情页进行配置:

  • 跟随全局:用户可在 管理中心>运维管理>参数配置 中启用“失败重试”,完成相关配置后,系统将默认所有数据集为“跟随全局”设置;

1.png

  • 自定义:若只需设置单个数据集的“失败重试”,用户可在数据集详情页开启“失败重试”,设置重试的间隔,设置后将优先于全局层面的设置。

2.png

2.2. 自动更新数据结构

对于抽取数据集,可勾选是否开启“增量更新”,增量更新的定义说明详见《标准数据库连接指南》

开启后,可继续选择是否勾选“自动更新数据结构”。勾选后,数据集结构便可随源数据库端结构变化而变化。

注意:

1. 支持"自动更新数据结构"的数据集需要满足 3 个条件:数据库来源数据集、抽取方式以及开启增量更新;

2. "自动更新数据结构"当前仅支持源端字段新增后向数据集新增字段,源端字段删除后数据集字段不做删除动作。

3.png

2.3. 前置清理规则

对于抽取数据集,勾选“增量更新”后,可选择是否勾选“前置清理规则”。勾选后,满足规则的数据将在更新前从数据集自动删除。

4.png

3. 手动更新配置

除了给数据集配置更新条件实现数据集自动更新,用户还可手动完成数据集的更新操作。

对于大部分数据集,点击数据详情页的“更新”按钮,即可实现数据即时更新。而对于Excel和CSV类型的文件数据集,则需要通过“数据追加/替换”功能来实现数据的手动更新。

3.1. 数据更新(非Excel/CSV)

对于大部分数据(除Excel/CSV),点击数据集详情界面右上角的“更新”按钮,手动触发数据集的即时更新。

对于抽取数据集,更新方式分为添加新数据、覆盖旧数据两种模式。

  • 添加新数据:执行结果将追加到原有数据里,若设置了主键,会根据主键进行去重。

  • 覆盖旧数据:执行结果将替换原有数据,所有历史数据将会被清空。

注意:

1. 对于卡片数据集类型,例如:数据集A创建了卡片B,根据卡片B创建了卡片数据集C,具体更新情况为: 

(1)关于卡片数据集的结构:如果卡片B修改,卡片数据集C不会自动同步,需要对数据集c进行手动更新才会同步。

(2)关于卡片数据集的数据内容:原始数据集A更新,会触发卡片数据集C的数据更新。

5.png

3.2. 数据追加/替换(Excel/CSV)

对于从文件导入数据的数据集(Excel/CSV),可以在数据集详情页右上角选择“追加数据”或“替换数据”。更多具体操作在从文件导入数据的相关文档中已有详细说明,详情请参阅《从文件导入数据》

6.png

4. URL 触发更新

数据更新URL触发机制,是指针对通过数据库连接数据的数据集(如直连数据集、抽取数据集、FTP数据集等),可通过URL触发的方式实现外部更新,即方便外部系统在数据更新完毕以后,能够及时通知观远平台来同步数据的功能。

在数据集详情页可选择是否开启“URL触发”更新,勾选后,用户可在外部系统中通过以下URL直接更新当前数据集,且不需要用户验证,详情请参阅《查看数据更新URL触发机制》。

注意: 

1. URL触发方式的数据集更新,不受调度状态(开启或关闭)的影响。 

2. 例如,可以通过观远BI的用户界面手动点击更新按钮来立即更新数据集,或者通过向系统发送一个包含特定参数的URL请求来触发更新过程。

7.png

5. 数据清理

用户可通过“数据清理”功能对数据集中的数据设置一定的清理规则,只保留符合一定规则的数据,过滤掉不满足需求的数据,可以高效获得符合需求的数据。

注意:

1. 视图数据集、直连数据集不支持进行数据清理; 

2. 其他从文件导入数据、数据库接入数据的数据集,支持数据清理。

  1. 点击右上角的“···”操作栏,选择“数据清理”,页面弹出“数据清理”弹窗,点击“新建”按钮,即可进入“规则编辑器”。

8.png

  1. 在“规则编辑器”中,选择字段,然后选择规则类型,设置清理的规则。例如在下图中,清理掉了与“上海万达店”和“上海国贸店”的相关数据。

9.png

  1. 点击预览,可查看“待清理数据预览”,确认无误后点击“立即清理”即可完成操作。

10.png

6. 查看更新历史

可以在数据集详情页查看数据集更新历史,支持查看具体环节、执行状态、执行时长及完整日志信息,提升数据集更新任务的问题排查效率。记录默认保留3个月,如需保存更长时间,请联系观远工作人员进行调整。

注意:6.3 版本的数据集更新历史监控中对于日志管理进行了重构,版本升级时间点之前的历史运行任务不支持按照新的日志查看,可跳转到 管理中心 > 任务运维 进行问题排查。

11.png

监控列表支持查看"更新用户"、"更新方式"及"操作"等任务信息项,以下选取其中三项进行说明。

12.png

  • 更新用户:记录数据集更新任务的操作用户,手动触发的"更新用户"为当前操作用户,定时及高级调度触发的更新任务中更新用户记录为"-",API触发的更新用户记录为token中用户。

  • 更新方式:包括API、手动触发、定时调度、高级调度触发。

  • 操作:点击"详情"可查看更新任务的具体环节、执行状态、执行时长及完整日志信息。在更新历史详情页点击各环节"查看日志",可将日志全屏展示并复制当前的所有日志到剪切板。

13.png

  • 抽取数据集示例:任务环节包括"建立数据库连接"、“从数据库获取数据到临时文件”、“临时文件数据合并到数据集”、“高性能数据集转换”、"获取数据集行数”。

image.png

  • 直连数据集示例:任务环节包括"建立数据库连接"。

15.png