之后来到对客页面,意外的是在这里也会碰到不少客户打来的内存相关问题。大多数时候,客户也理解这个事情和阿里云无关,但是他收到了来自云监控或者ARMS的相关内存报警,接入了ARMS应用监控的客户也可以在ARMS上看到如Old GC暴涨,内存触发阈值等监控相关的指标。虽然有了监控,但是很多时候没有排查思路,希望阿里云这边给出具体的排查思路或者一起排查。
日常遇到的大部分问题,大致可以归到如下几类:逻辑缺陷:e.g. NPE、死循环、边界情况未覆盖。性能瓶颈:e.g. 接口 RT 陡增、吞吐率上不去。
某服务所在机器统计显示,其 CPU 使用率在高峰时段出现毛刺。
线上故障主要会包括cpu、磁盘、内存以及网络问题,而大多数故障可能会包含不止一个层面的问题,所以进行排查时候尽量四个方面依次排查一遍。
关注时代Java