数据集更新
1. 概述
为确保数据的时效性,用户需更新数据集,为满足不同业务场景,观远BI支持定时更新和手动更新、URL 触发更新等模式。用户可给数据集配置更新条件,让数据集在特定条件下自动更新。而对于部分数据集(如Excel、CSV和账户数据集等),观远BI还支持用户按需清理数据集的指定数据,控制数据集大小。
在完成数据更新后,用户可通过“查看更新历史”,了解数据集更新任务的具体环节、执行状态、执行时长及完整日志信息,提升数据集更新任务的问题排查效率。本文将对上述更新配置进行详细说明。
2. 自动更新配置
数据集的更新方式会受到数据集的连接方式(直连/抽取)和数据集的类型所影响,用户可在数据集接入页和数据集详情页中配置更新方式(部分配置项存在差异),具体如下:
配置项 | 接入页 | 详情页 | 可参考 | |
通用 | 调度状态 | ✅ | ✅ | |
24h定时更新任务密度图 | ✅ | ✅ | ||
失败重试 | ❌ | ✅ | 下文介绍 | |
直连 | 缓存有效周期 | ✅ | ✅ | |
实时卡片数据 | ✅ | ✅ | ||
抽取 | 数据更新周期 | ✅ | ✅ | |
去重主键 | ✅ | ✅ | ||
增量更新 | ✅ | ✅ | ||
(增量更新模式下)自动更新数据结构 | ❌ | ✅ | 下文介绍 | |
(增量更新模式下)前置清理规则 | ❌ | ✅ | 下文介绍 | |
任务优先级 | ✅ | ✅ |
2.1. 失败重试
数据集更新过程中可能会任务异常导致更新过程失败,用户可通过启用“失败重试”来保障数据的及时性和准确性,即第一时间进行任务重试,重试间隔支持用户自定义和跟随全局两种模式配置。两种模式均可按照分钟级别(5/10/15分钟)设置重试间隔。
注意:
1. “失败重试”仅支持自动更新(包括:定时更新、URL触发),不支持手动更新。
2. 失败重试仅支持进行“1次”。
“失败重试”功能有跟随全局和自定义两种模式,分别可在管理中心和数据集详情页进行配置:
跟随全局:用户可在 管理中心>运维管理>参数配置 中启用“失败重试”,完成相关配置后,系统将默认所有数据集为“跟随全局”设置;
自定义:若只需设置单个数据集的“失败重试”,用户可在数据集详情页开启“失败重试”,设置重试的间隔,设置后将优先于全局层面的设置。
2.2. 自动更新数据结构
对于抽取数据集,可勾选是否开启“增量更新”,增量更新的定义说明详见《标准数据库连接指南》。
开启后,可继续选择是否勾选“自动更新数据结构”。勾选后,数据集结构便可随源数据库端结构变化而变化。
注意:
1. 支持"自动更新数据结构"的数据集需要满足 3 个条件:数据库来源数据集、抽取方式以及开启增量更新;
2. "自动更新数据结构"当前仅支持源端字段新增后向数据集新增字段,源端字段删除后数据集字段不做删除动作。
2.3. 前置清理规则
对于抽取数据集,勾选“增量更新”后,可选择是否勾选“前置清理规则”。勾选后,满足规则的数据将在更新前从数据集自动删除。
说明:对于系统内置的增量更新数据集(除builtin_user,builtin_data_source,builtin_data_flow外),也支持配置前置清理规则。
3. 手动更新配置
除了给数据集配置更新条件实现数据集自动更新,用户还可手动完成数据集的更新操作。
对于大部分数据集,点击数据详情页的“更新”按钮,即可实现数据即时更新。而对于Excel和CSV类型的文件数据集,则需要通过“数据追加/替换”功能来实现数据的手动更新。
3.1. 数据更新(非Excel/CSV)
对于大部分数据(除Excel/CSV),点击数据集详情界面右上角的“更新”按钮,手动触发数据集的即时更新。
对于抽取数据集,更新方式分为添加新数据、覆盖旧数据两种模式。
添加新数据:执行结果将追加到原有数据里,若设置了主键,会根据主键进行去重。
覆盖旧数据:执行结果将替换原有数据,所有历史数据将会被清空。
注意:
1. 对于卡片数据集类型,例如:数据集A创建了卡片B,根据卡片B创建了卡片数据集C,具体更新情况为:
(1)关于卡片数据集的结构:如果卡片B修改,卡片数据集C不会自动同步,需要对数据集c进行手动更新才会同步。
(2)关于卡片数据集的数据内容:原始数据集A更新,会触发卡片数据集C的数据更新。
3.2. 数据追加/替换(Excel/CSV)
对于从文件导入数据的数据集(Excel/CSV),可以在数据集详情页右上角选择“追加数据”或“替换数据”。更多具体操作在从文件导入数据的相关文档中已有详细说明,详情请参阅《从文件导入数据》。
4. URL 触发更新
数据更新URL触发机制,是指针对通过数据库连接数据的数据集(如直连数据集、抽取数据集、FTP数据集等),可通过URL触发的方式实现外部更新,即方便外部系统在数据更新完毕以后,能够及时通知观远平台来同步数据的功能。
在数据集详情页可选择是否开启“URL触发”更新,勾选后,用户可在外部系统中通过以下URL直接更新当前数据集,且不需要用户验证,详情请参阅《查看数据更新URL触发机制》。
注意:
1. URL触发方式的数据集更新,不受调度状态(开启或关闭)的影响。
2. 例如,可以通过观远BI的用户界面手动点击更新按钮来立即更新数据集,或者通过向系统发送一个包含特定参数的URL请求来触发更新过程。
5. 数据清理
用户可通过“数据清理”功能对数据集中的数据设置一定的清理规则,只保留符合一定规则的数据,过滤掉不满足需求的数据,可以高效获得符合需求的数据。
注意:
1. 视图数据集、直连数据集不支持进行数据清理;
2. 其他从文件导入数据、数据库接入数据的数据集,支持数据清理。
3. 内置数据集支持数据清理。
点击右上角的“···”操作栏,选择“数据清理”,页面弹出“数据清理”弹窗,点击“新建”按钮,即可进入“规则编辑器”。
在“规则编辑器”中,选择字段,然后选择规则类型,设置清理的规则。例如在下图中,清理掉了与“上海万达店”和“上海国贸店”的相关数据。
点击预览,可查看“待清理数据预览”,确认无误后点击“立即清理”即可完成操作。
6. 查看更新历史
可以在数据集详情页查看数据集更新历史,支持查看具体环节、执行状态、执行时长及完整日志信息,提升数据集更新任务的问题排查效率。记录默认保留3个月,如需保存更长时间,请联系观远工作人员进行调整。
注意:6.3 版本的数据集更新历史监控中对于日志管理进行了重构,版本升级时间点之前的历史运行任务不支持按照新的日志查看,可跳转到 管理中心 > 任务运维 进行问题排查。
监控列表支持查看"更新用户"、"更新方式"及"操作"等任务信息项,以下选取其中三项进行说明。
更新用户:记录数据集更新任务的操作用户,手动触发的"更新用户"为当前操作用户,定时及高级调度触发的更新任务中更新用户记录为"-",API触发的更新用户记录为token中用户。
更新方式:包括API、手动触发、定时调度、高级调度触发。
操作:点击"详情"可查看更新任务的具体环节、执行状态、执行时长及完整日志信息。在更新历史详情页点击各环节"查看日志",可将日志全屏展示并复制当前的所有日志到剪切板。
抽取数据集示例:任务环节包括"建立数据库连接"、“从数据库获取数据到临时文件”、“临时文件数据合并到数据集”、“高性能数据集转换”、"获取数据集行数”。
直连数据集示例:任务环节包括"建立数据库连接"。