数据集更新
问题场景1:数据集更新任务运行时间长
问题原因
建议查看指标「最近30天运行时长TOP20的抽取数据集(运行时长≥10s)」,若单个数据集更新任务时间超过60分钟,说明数据集更新任务运行时间长,可能造成该现象的原因如下:
(1)网络环境不佳。
(2)数据集较大。
(3)任务排队多。
(4)数据库性能问题。
排查思路
我们建议您按照如下思路逐步排查:
(1)可对比观远的参考数据,观察您所在环境运行时长是否合理。
?优化措施
您可考虑从提高网络带宽、提升数据库性能等方面进行优化。
观远官方更新效率信息如下(仅供参考)
网络环境:50M
数据集行列数:200万行/40列,运行时长:2min
数据集行列数:1000万行/40列,运行时长:10min
(2)大数据集(行列数>5000万/40列)的更新策略,如非必要,建议不要选择全量更新方式。可根据业务需要,判断是否能调整为增量更新。
?优化措施
您可点击数据集名称进行跳转,在数据更新功能下,选择增量更新进行配置。
(3)参考指标「节点CPU使用率各时间段趋势图」和「服务器CPU负载(System Load)趋势图」,了解CPU使用率高峰、CPU负载高峰。
?优化措施
建议大数据集更新任务,在不影响业务的前提下,避开以上高峰时段。
其他建议
如需实时关注数据集更新任务情况,建议前往“管理员设置-运维管理-信息通知”设置失败和超时任务告警机制。