事故记录: 阿里云突然IO爆满导致服务器进不去

7月10日 凌晨 6:48 分,两台阿里云 ECS 同时出现高 IO ,导致所有服务器暂停,ssh 连接失败只能重启服务器。

两台 ECS 没任何交互,向阿里云提工单说明情况,回复是: =您的ECS云服务器我们观察在IOPS跑高的时间段内观察到CPU也存在一定波动,见附件。 针对该情况,建议您可以确认下您服务器中是否记录有out of memory类型的日志记录。同时如果您的服务器中部署有针对各个进程内存使用的记录,可以对这些记录日志进行分析获取是哪些进程占用较高的内存资源=。

猜测可能是 python-mysqldb 使用不当: 当连接超时,没有关闭前一个连接,直接重新打开一个连接使用,时间长了以后引发 uwsgi 内存泄露。这个理由有些牵强,但是找不到更合适的理由了。按照猜想在每次新建连接的时候,先关闭前一个连接。

到目前为止,问题尚未浮现,至于就是我们自身的问题,还是阿里云服务器自己的问题,搞不清楚。


07/17 日早晨问题再次复现,系统日志显示 =cron can not fork=,怀疑是内存不足导致的,升级内存配置,以观后效。

First created: 2016-05-02 11:24:11
Last updated: 2022-12-11 Sun 12:49
Power by Emacs 27.1 (Org mode 9.4.4)