常规巡检说明
一、系统巡检的意义
-
监控报警系统只能在监控目标状态达到设置阈值时才能触发告警,对于资源使用趋势感知力较弱,同时告警的有效性和告警处置的及时性也对系统平稳运行有较大影响;
-
定期巡检是对实时监控的有效补充,借助人工或自动化手段采集系统运行趋势数据,并进行研判和风险控制,能有效提高系统运行可靠性,降低运行风险;
-
发现问题是水平、解决问题是能力、预防问题是素养,早发现早干预,将风险控制和消除在初期,能最大程度的避免因系统不可用带来的损失。
二、基础巡检操作步骤
-
点击右上角九宫格,选择管理员设置,选择运维管理,资源监控;
-
点击资源监控右上角,选择查看最近7天数据;
-
内存资源健康区间:平均使用率在80%以下,峰值使用率在90%以下;
- CPU资源健康区间:平均使用率在60%以下,峰值使用率在85%以下;
- 存储资源健康区间:峰值使用率在85%以下。
三、深度巡检功能
云巡检 Atlas Patrol是观远BI自带的增值功能模块,该功能模块聚焦于 BI 集群资源与系统运行相关情况,自动生成可视化诊断报告,有效提高运维巡检效率,助力企业主动掌握当前系统负载情况,及时发现和主动排除运维问题,提前制定容量规划,确保系统持续稳定高效运。