观远 BI

卡片加载

创建于 2022-10-27 / 最近更新于 2022-10-31 / 2248
字体: [默认] [大] [更大]

问题场景1:Guan-index卡片访问时间长

问题原因

建议查看指标「最近30天Guan-Index类型卡片9分位性能」。若整体上Guan-index卡片访问时间>5秒,说明卡片的访问时间与预期不符,您将明显感受到页面中卡片加载需要时间。可能造成该现象的原因如下:

(1)卡片查询数据量级大、计算逻辑复杂,可能导致卡片任务需要较长的运行时间。

(2)资源高峰期访问卡片,若资源不足,可能导致卡片运行受到影响。

定位方法

有三种方式可帮助您找到访问时间长(访问时间>5s)的卡片。

(1)检查「最近30天Guan-Index类型卡片9分位性能」图。

找到单日9分位性能超过5秒警戒线的位置,点击进行下钻。下钻后您可对运行时长进行排序,找到运行时间长的卡片任务。

(2)检查「最近30天内Guan-Index类型卡片的平均排队与运行时长分布」图。

找到运行时间分布深色区域明显(占比超过20%)的日期,点击柱子下钻,找到当日深色区域明显的时段,再次下钻。二次下钻后您可对运行时长进行排序,找到运行时间长的卡片任务。

(3)检查「最近30天运行时长TOP20的卡片任务(运行时长≥3s)」表。

您可优先解决表中反馈的卡片任务,提升卡片访问体验。您可在“管理员设置-运维管理-任务管理”中,将”卡片名称“作为”操作对象“检索,了解该卡片历史运行时长,来判断卡片运行时间是否真正”异常“。

排查思路

针对访问时间长的卡片,我们建议您按照如下思路逐步排查:

(1)检查卡片查询数据量级(例如,是否达到亿级),查询数据量大会导致卡片运行时间变长。

点击上一步定位的操作对象跳转,查看卡片对应数据集的行列数。

(2) 检查卡片本身计算逻辑,卡片计算涉及多条件判断、筛选(规则数量>5)等情况时,会导致卡片运行时间变长。

(3) 检查CPU资源是否充足。您可通过观察CPU负载、CPU使用率趋势图,判断是否达到资源瓶颈。

参考指标「节点CPU使用率各时间段趋势图」和「服务器CPU负载(System Load)趋势图」,了解CPU使用率高峰、CPU负载高峰,建议重点关注该高峰时段任务并发数量、高资源占用的任务。任务情况可在「节点CPU使用率各时间段趋势图」中下钻查看,您可对运行时长进行排序,找到占用资源最多的任务,对任务进行调整。

?优化措施

对于重要或需要较长时间运行的卡片任务,建议在不影响业务的前提下,考虑错峰访问。

高峰时段中,在不影响业务的前提下,建议了解CPU占用时间长的任务是否有上游依赖,无上游依赖的任务建议调整至低峰时段运行。同时,高峰时段需要尽量减少手动触发的任务。

若高峰时段CPU负载较高(CPU负载>5),说明系统资源不足,若想要保证卡片运行效率,建议考虑如下方案:

a. 单Job-engine时,建议在Control Tower设置资源隔离,保障重要卡片任务运行;

b. 如有预算,建议进行扩容。具体扩容方案请联系观远数据进行评估。

其他建议

可在“管理员设置-运维管理-参数配置”中设置卡片运行超时时长,避免算力资源浪费。

问题场景2:Guan-index卡片排队时间长

问题原因

建议查看指标「最近30天内Guan-Index类型卡片的平均排队与运行时长分布」。若卡片排队时间>10s,说明卡片的排队时间与预期不符,您将明显感受到页面中卡片加载需要时间。可能造成该现象的原因如下:

(1)卡片运行时段的定时任务较多,大量任务在同一时间段运行,引发任务排队。

(2)资源高峰期访问卡片,若资源不足,可能引起卡片排队。

排查思路

建议您按照如下思路逐步排查:

(1)检查「最近30天内Guan-Index类型卡片的平均排队与运行时长分布」图。

排队时间分布深色区域明显(占比超过20%)的日期,点击柱子下钻,找到当日深色区域明显的时段。

(2)检查排队情况严重时段是否定时任务相对多。

您可观察「昨日数据集运行时间分布」和「昨日ETL运行时间分布图」中,在上一步定位的时段里,是否有较多的定时任务(黄线远高于其他时间段)。

?优化措施

若定时任务较多,在不影响业务的前提下,建议分散设置定时任务,避免过于集中。

(3)检查是否有运行时间较长(运行时间>60min)的任务阻塞运行。

您可在「节点CPU使用率各时间段趋势图」中,找到第一步定位的时段下钻,对任务运行时间进行排序,观察是否有运行时间较长(运行时间>60min)的任务,阻塞了其他任务运行。

?优化措施

找到阻塞任务后,建议通过如下措施优化:

a. 对比该任务历史运行时长,了解该任务运行时间是否异常。任务历史运行时长,可在点击任务操作对象名称跳转后,查看运行历史(数据集-查看更新历史/ETL-查看运行记录)。

b. 排除非预期作业因素后,在不影响业务的前提下,建议了解CPU占用时间长的任务是否有上游依赖,无上游依赖的任务建议调整至低峰时段运行。

(4)检查内存资源是否充足。

参考指标「节点内存使用率各时间段趋势图」,了解内存使用率高峰,建议重点关注该高峰时段任务排队情况。

?优化措施

若该高峰时段Guan-index卡片排队数较多(排队数>10),建议联系观远数据,评估是否能够调整卡片任务并发度。

若高峰时段内存使用率较高(内存使用率>95%),说明系统资源不足,若想要保证卡片运行效率,建议考虑如下方案:

a. 单Job-engine时,建议在Control Tower设置资源隔离,保障重要卡片任务运行;

b. 如有预算,建议进行扩容。具体扩容方案请联系观远数据进行评估。

其他建议

可在“管理员设置-运维管理-参数配置”中配置卡片排队超时取消时长,避免此类任务占用资源、阻塞其他任务运行。

问题场景3:直连卡片加载时间长

问题原因

建议查看指标「最近30天内直连类型卡片的平均排队与运行时长分布」。若直连卡片访问时间在10s以上的占比超过20%,说明卡片的访问时间与预期不符,您将明显感受到页面中卡片加载需要时间。可能造成该现象的原因如下:

(1)连接数据库的时间过长。

(2)数据库性能问题导致堵塞。

?优化措施

建议排查优化数据库性能。


1 人点赞过