跳到主要内容
版本:5.9.0

数据集更新

问题场景1:数据集更新任务运行时间长

问题原因

建议查看指标「最近30天运行时长TOP20的抽取数据集(运行时长≥10s)」,若单个数据集更新任务时间超过60分钟,说明数据集更新任务运行时间长,可能造成该现象的原因如下:

(1)网络环境不佳。

(2)数据集较大。

(3)任务排队多。

(4)数据库性能问题。

排查思路

我们建议您按照如下思路逐步排查:

(1)可对比观远的参考数据,观察您所在环境运行时长是否合理。

?优化措施

您可考虑从提高网络带宽、提升数据库性能等方面进行优化。

观远官方更新效率信息如下(仅供参考)

网络环境:50M

数据集行列数:200万行/40列,运行时长:2min

数据集行列数:1000万行/40列,运行时长:10min

(2)大数据集(行列数>5000万/40列)的更新策略,如非必要,建议不要选择全量更新方式。可根据业务需要,判断是否能调整为增量更新。

?优化措施

您可点击数据集名称进行跳转,在数据更新功能下,选择增量更新进行配置。

(3)参考指标「节点CPU使用率各时间段趋势图」和「服务器CPU负载(System Load)趋势图」,了解CPU使用率高峰、CPU负载高峰。

?优化措施

建议大数据集更新任务,在不影响业务的前提下,避开以上高峰时段。

其他建议

如需实时关注数据集更新任务情况,建议前往“管理员设置-运维管理-信息通知”设置失败和超时任务告警机制。