跳到主要内容
版本:7.4.0

GuanOps运维服务平台

概述

GuanOps是一个智能运维平台,旨在简化BI系统的日常运维操作,提升运维效率和安全性。无需登录服务器,即可通过统一、安全的 Web 界面完成数据清理、日志采集、故障分析、健康检查、网络检测等一系列核心运维任务,从而高效管理和维护观远 BI 系统。

前提条件

  1. 获取授权码:「管理中心>系统设置>登录设置>管理后台授权」

  2. 浏览器输入域名:/system-backend

  3. GuanOps入口如图所示:

使用指导

数据清理

核心价值: 帮助解决磁盘空间占用过高的问题,根据业务影响风险提供不同力度的清理策略。

  • 使用场景识别: 当系统监控或告警提示磁盘使用率较高时。

  • 通用操作流程:

    1. 选择所需清理类型(轻度清理、深度清理)或分析功能(数据目录分析)。
    2. 点击对应功能的执行按钮。
    3. 页面实时显示执行日志,便于跟踪进度和结果。
    4. 操作完成后,查看清理结果。

轻度清理

  • 适用场景: 磁盘使用率偏高(例如 >85%)但服务运行正常时,用于温和释放空间。
  • 执行规则:
    • 清理缓存数据。
    • 保留最新 3 个镜像版本。
    • 保留近 3 天备份。
    • 轻度清理临时数据。
    • 执行 Spark 清理脚本。
  • 风险与影响(低风险):操作对当前运行的服务无直接影响,任务可正常执行。

深度清理

  • 适用场景: 磁盘空间严重不足或已满(例如 >95%),可能导致服务异常,需进行紧急清理以恢复基础服务。

  • 执行规则:

    • 清理 1 小时前的导出文件

      注意

      清理后无法从下载中心下载1小时前的文件。

    • 保留最新 1 个镜像版本。

    • 保留近 1 天备份。

    • 深度清理数据缓存文件

    • 重启 Spark-worker 服务

      注意

      重启可能导致任务中断。

  • 风险与影响(高风险):

    • 可能导致清理期间正在运行的后台计算任务失败。
    • 属于紧急恢复操作,仅在服务异常或严重告警时使用。

数据目录分析

  • 功能说明: 深入分析磁盘空间占用详情,定位主要空间消耗者及异常占用情况。
  • 分析内容:
    • 各目录/文件的磁盘占用大小及排名。
    • 识别异常增长的大文件或目录。
    • 提供可视化或详细报告展示空间分布。
  • 使用建议:
    • 建议在业务低峰期执行(扫描大量文件会消耗 I/O 资源)。
    • 执行时间与数据量大小直接相关。

日志采集

核心价值: 当系统发生异常时,快速收集关键的运维诊断信息,打包供下载,便于观远技术支持团队高效定位问题根源。

  • 适用场景: 系统出现故障、报错或性能异常时,需要分析原因。

  • 操作流程:

    1. 点击「开始采集」按钮。
    2. 采集过程通常持续几分钟,请稍作等待。
    3. 页面显示采集完成后,点击 「下载安装包」 按钮,获取压缩文件。
    4. 将采集包提供给观远技术支持人员进行分析。
  • 采集内容:

    • 观远 BI 应用日志(关键报错信息)。
    • Kubernetes (k8s) 集群状态信息(Pods, Events 等)。
    • Prometheus 监控指标(部分系统状态数据)。
  • 安全说明:采集内容仅包含系统运维层面的日志、配置及服务状态信息,不包含任何具体的业务数据。

组件检查与重启

核心价值:集中监控观远 BI 系统各服务组件的运行状态,并提供安全、可控的重启操作能力,用于恢复异常组件或进行日常维护。

  • 功能要点:
    • 点击「开始检测」 按钮,平台自动检查所有组件的实时状态。
    • 检测完成后,在列表中清晰展示各组件的健康状态。
    • 对于状态异常的组件:
      • 可选中组件。
      • 点击「重启」按钮。
    • 也可主动选中状态正常的组件进行重启(例如任务堵塞想重启释放)。
  • 组件影响说明:
    • 核心组件: 异常将导致整个 BI 系统不可访问
    • 计算引擎组件:异常会影响数据准备、ETL、卡片等任务执行。
    • 业务功能组件:异常会影响特定功能模块。
    • 监控运维组件:异常主要影响监控数据的收集和展示。

网络服务检查

核心价值:快速验证 BI 系统常用依赖服务或外部接口的网络连通性与可用性,缩小网络故障排查范围。

  • 操作流程: 点击「一键诊断」按钮,启动检测。
  • 检测结果展示: 平台自动刷新并显示以下关键指标:
    • 服务名称: 被检测的服务/URL。
    • HTTP 状态码: 如 200(成功)、403(禁止)、502(网关错误)、超时(无响应)。
    • 网络响应时间: 从发起请求到收到第一个响应字节的延迟(ms)。
    • 服务状态: 总结性标识:「正常」、「异常」。
  • 特性:每次点击诊断仅执行一轮检测并更新结果,不进行持续监控。主要用于主动探测。

系统巡检

核心价值:自动获取近7天资源使用率、备份检查状态,一键生成巡检报告(Word),提供综合健康结论与整改建议。

  • 巡检内容:

    • 资源使用率:CPU/内存/磁盘(5分钟间隔采样;阈值:<80% 正常、80–90% 警告、>90% 严重)。
    • 备份检查:是否有备份、记录数、主机数、最新备份时间。
    • 巡检建议:根据资源与备份情况生成等级化建议;结合故障分析结果为优先级问题给出建议。
  • 报告样式(Word):

    • 资源状态:正常标绿、警告标黄、严重标红。
    • 备份状态:有备份标绿、无备份标红。
    • 故障项优先级:High 红、Medium 黄、Low 绿(页面同样着色显示)。
  • 操作流程:

    1. 点击「开始巡检」按钮。
    2. 等待完成后,可在页面查看巡检信息,或者点击「下载报告」获取Word文档。

HTTPS 证书更新

核心价值:通过Web界面安全更新平台HTTPS证书。

  • 使用场景:证书即将过期或需要更换新的证书。

  • 操作流程:

    1. 在证书管理页面上传新的证书与私钥。
    2. 点击「验证证书」按钮,确认域名和过期时间是否正确
    3. 若无误,则点击「更新证书」,平台自动完成替换与服务重启。
    4. 页面显示更新进度与结果(含等待服务重启提示)。
  • 风险提示:更新过程可能短暂影响外部访问,建议在业务低峰期进行。

说明

若检测到非标部署则会提示「未检测到nginx-proxy服务,无法使用证书更新功能」。

元数据库只读账号获取

核心价值:为只读分析使用提供安全合规的数据库账号。

  • 使用场景:需要查询系统元数据用于分析和诊断,但不进行写操作。

  • 操作流程:

    1. 打开「只读账号」页面,点击「获取只读账号」按钮。
    2. 仔细查看风险提示,确认无误,点击「获取」按钮。
  • 安全说明:请务必控制访问频率,避免多线程并发高频或复杂查询,以免影响系统稳定性。