跳到主要内容
版本:5.9.0

云巡检介绍

1. 云巡检概述

云巡检(也称云端诊断、智能运维),是观远数据提供的智能运维服务,以产品形式分享观远数据多年沉淀的数字化管理技术,一站式全联接,让 IT 运维更智能。

云巡检,聚焦于BI系统的集群资源、运行情况,无须通过人力去拉取和分析相关数据,通过自动生成可视化分析结果报告,快速发现运维问题,主动排除故障,并快速获取可优化/解决方案建议,减少日常运维工作的成本,提前计划好容量规划。

温馨提示:如需试用体验此模块,请联系观远数据的客户成功经理(通常是贵公司当前的服务交流负责人)。

2. 云巡检应用场景

2.1 系统健康评估

综合评估、深度分析、主动预防风险或问题。

  • 全面统计,从系统性能/容量、仪表板/卡片、数据集、ETL、用户等多维度,分析系统的健康状况,构建云端深度巡检能力。

  • 结合专家经验,构建系统健康度评分体系,综合打分,系统健康等级一目了然。

  • 云端自动生成运维报告,未来还将实现订阅后定时推送。

2.2 系统风险识别

基于专家经验和行业最佳实践进行对比与推理,提前预测风险,切断问题源头。

  • 结合专家经验分析可靠性特征数据,提升运维专业度。

  • 及时检测性能异常,在亚健康期解决性能风险,识别性能瓶颈。

  • 提前识别风险,让被动处理转化为主动预防,提升可靠性。

2.3 资源容量规划(即将上线)

容量监控,精准识别过载或闲置资源;结合行业最佳实践,提供最优扩容方案。

  • 预测未来的容量趋势,从成本和性能角度给出最优扩容方案。

  • 识别过载资源,提前进行容量预警,降低潜在风险。

  • 识别闲置资源,提供最优回收建议,提高资源利用率。

3. 云巡检使用流程

在4.4.0及以上版本,可享受云巡检服务。具体使用流程如下:

3.1 打开云巡检

点击平台右上角九宫格,选择云巡检,进入云巡检界面。 

1.jpg

2.png

3.2 云巡检报告切换

3.2.1 日期切换

点击云巡检界面左上角的“日期”选择框,可以切换查看历史报告。在下拉选择中点击不同的日期(此处的时间相当于报告名称),切换后界面会展示报告详情。

3.png

3.2.1 域切换

点击界面左上角的“域”选择框,在下拉选择中可以选择域,点击后即可切换不同域的数据。

4.png

3.3 云巡检报告内容

云巡检报告区包含三种不同的解读模式:巡检报告概览、系统运维解读和业务治理解读。

5.png

3.3.1 巡检报告概览

概览内容主要包括五类:系统性能/容量、仪表板/卡片、数据集、ETL、用户,可通过点击右侧导航栏快速查看。

6.png

在巡检报告中,将会展示潜在异常分析,提示用户注意风险,并为用户提供诊断建议作为参考。

以“最近31天更新失败次数TOP20的数据集”指标为例,当用户环境中的数据集多次更新失败、甚至是连续失败时,云巡检报告会对该情况出现频率TOP20的数据集进行告警(如图所示)。

此时,建议先将此类数据集更新方式修改为“手工更新”,避免持续更新失败、浪费系统资源;再根据实际情况,将对应数据集批量移动到统一文件夹,进行逐一排查解决问题。操作说明如下:

第一步,点击“批量操作”按钮。

image.png

第二步,选择“修改更新设置”,将问题数据集统一修改为“手工更新”。

image.png

2.png

第三步,选择“批量移动”,将此类数据集放入统一文件夹,便于后续追溯排查。

image.png

其他指标支持的操作清单如下:

  • 数据集批量移动支持指标:无任何消费情况的数据集、产生无效消费的数据集、最近31天运行时长TOP20的抽取数据集(运行时长≥10s)、最近31天更新失败次数TOP20的数据集、最近31天没有更新过的数据集、空数据集;

  • 数据集批量修改更新方式支持指标:无任何消费情况的数据集、最近31天更新失败次数TOP20的数据集;

  • ETL批量移动支持指标:最近31天CPU占用时长TOP20的ETL(CPU占用时长≥10s)、最近31天更新运行次数TOP20的ETL(运行次数≥5)、最近31天更新失败次数TOP20的ETL(运行次数≥5)、最近31天没有运行过的ETL、创建超过31天且尚未运行过的ETL;

  • ETL批量修改更新方式支持指标:最近30天更新失败次数TOP20的ETL(运行次数≥5)、最近31天CPU占用时长TOP20的ETL(CPU占用时长≥10s)、最近31天更新运行次数TOP20的ETL(运行次数≥5);

  • 仪表板批量修改发布状态支持指标:最近31天访问人数为0的仪表板;

3.3.2 系统运维解读

系统运维解读模式,主要为场景内的常见问题提供原因分析、排查思路解析与行动优化建议。用户可以根据指导查看指标信息、快捷跳转修改相关配置等操作。

  • 体验场景:卡片加载、ETL运行、数据集数据集;

  • 性能场景:磁盘运维、内存负载、服务器资源配置。

8.png

3.3.3 业务治理解读

功能背景

1、对系统管理员来说,需要定期关注系统内的数据集、ETL、仪表板和卡片等数据资产,并对相关资产进行检查:

  • 对于不再使用或无效的数据资产,需要进行治理操作(灰度下线、删除);

  • 对于性能负担较大的数据资产,需要评估是否要进行治理操作。

2、除此之外,系统管理员也会关注系统内重要的数据资产(高资源热度)的性能表现,来保障系统内的用户体验。

功能介绍

业务治理解读模式,主要分为机器资源用量盘点和数据资产管理盘点,分别对数据集、ETL、仪表板、卡片消耗的系统资源与产生的业务价值提供了盘点思路和行动优化建议。

系统管理员可以按照提供思路查看指标信息,了解平台内数据资产的资源占用与使用情况,关注对应资产并按需优化,更好地管理BI平台。

9.png

  • 机器资源用量盘点

10.png

  • 数据资产管理盘点

1.png

盘点场景3:系统内僵尸ETL识别

在大规模用户场景中,存在一些典型的 BI 使用方式可被优化。在该模块内容下,用户能够知晓系统内有哪些ETL创建后持续运行、但生产的数据集和卡片没有创建过价值。

通过追溯ETL-数据集-卡片整条治理链路,用户能够通过云巡检提供的批量操作功能,快速便捷地对僵尸ETL进行治理,从而实现节省计算资源、提升性能体验。

注意事项:若有该功能需求,请联系观远数据对接人员。

2.jpg

3.4 报告更新方式

3.4.1 获取云巡检报告

点击云巡检界面右下角操作栏的“获取最新报告”按钮,通常稍作等待后,即可在界面上看到最新的报告内容。

12.png

在报告内容界面,基于手动获取的时间点,会根据最近30天(数据范围为前一日往前推30日)系统运行数据进行自动巡检。巡检完成后,页面下滑,即可查看详细内容。

3.4.2 更新方式设置

点击云巡检界面右下角操作栏的“设置”按钮,即可进入设置界面。

13.png

支持选择“手动在线更新”或“自动在线更新”,同时若选择“自动在线更新”,可以设置具体时间到分钟级。

14.png

3.5 云巡检报告历史查看

点击云巡检界面右下角操作栏的“更新记录”按钮,进入更新记录界面,即可看到更新历史列表。

15.png

在更新记录列表中,单击第一栏“报告名称”中的具体报告名称,即可进入该报告的详细界面。

16.png

3.6 云巡检报告分享与解读

点击云巡检界面右上角“专业报告解读”按钮,即可以复制报告链接,分享云巡检报告。其他人可通过该链接打开云巡检报告和导出报告数据,您可将报告发送给观远数据工作人员,获取专业解读。

17.png

3.7 云巡检报告反馈 

若您在使用过程中,对云巡检的分析诊断报告有意见反馈,可点击云巡检界面右上角“我要反馈”按钮,并在页面内详细填写您的反馈,包括遇到的问题场景、问题细节和期望解决方式等,完成后观远工作人员将会根据收到的反馈与您取得联系,解决您的问题。

image.png

2.png

4. 云巡检优势

4.1 可视化巡检报告—— 一目了然

仅需轻松点击,无需其他操作,即可查看可视化诊断报告。一键自动化统计系统集群资源层面和应用使用层面数据,包含数量高达100+的巡检指标,无须通过人力去收集数据。数据分析全面,报告内容清晰美观,整体情况一目了然。

4.2 丰富运维经验—— 智能解读

结合观远数据丰富的运维经验,以及多年来服务于多家客户的实践而研发,将运维专家经验工具化,实现巡检报告的智能解读,对系统状态进一步诊断。

4.3 高效行动指南—— 可落地可执行

云巡检,可结合企业系统的具体信息,基于观远丰富运维经验沉淀的策略规则,给出更精准、更智能、更全面的运维建议,为企业用户提供系统优化的行动指南,确保系统得以持续稳定高效运行。

4.4 云端服务工具化——零成本低门槛

  • 零成本——无需消耗本地计算资源,计算都在云端完成。

  • 低门槛——作为观远数据的一站式服务之一,0代码操作,流程简单。

  • 高成长——持续更新成长的「云巡检」平台,功能更新不需要用户额外处理,不会对用户产生任何负担。