文档章节

记录下测试服务器频繁死机问题解决

无忌
 无忌
发布于 2017/12/18 19:38
字数 883
阅读 5K
收藏 0

linux-crash

问题

测试服务器频繁死机,刚开始一周一次,后面应用服务启动就死机。
服务器系统: CentOS 6.5
内核版本:2.6.32-431.el6.x86_64

服务器系统日志分析

查看日志:/var/log/message ,下面是出错比较多的

Dec  4 14:11:46 localhost abrtd: Init complete, entering main loop
Dec  4 14:11:53 localhost modem-manager: (ttyS1) closing serial device...
Dec  4 14:11:53 localhost modem-manager: (ttyS1) opening serial device...
Dec  4 14:11:59 localhost modem-manager: (ttyS1) closing serial device...
Dec  4 14:12:16 localhost kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Dec  4 14:12:16 localhost kernel: {1}[Hardware Error]: APEI generic hardware error status
Dec  4 14:12:16 localhost kernel: {1}[Hardware Error]: severity: 2, corrected
Dec  4 14:12:16 localhost kernel: {1}[Hardware Error]: section: 0, severity: 2, corrected
Dec  4 14:12:16 localhost kernel: {1}[Hardware Error]: flags: 0x01
Dec  4 14:12:16 localhost kernel: {1}[Hardware Error]: primary
Dec  4 14:12:16 localhost kernel: {1}[Hardware Error]: fru_text: CorrectedErr
Dec  4 14:12:16 localhost kernel: {1}[Hardware Error]: section_type: memory error
Dec  4 14:12:16 localhost kernel: {1}[Hardware Error]: node: 15424
Dec  4 14:12:16 localhost kernel: {1}[Hardware Error]: device: 12343
Dec  4 14:12:16 localhost kernel: {1}[Hardware Error]: error_type: 2, single-bit ECC
Dec  4 14:12:16 localhost kernel: [Hardware Error]: Machine check events logged 【死机】
Dec  9 04:05:06 localhost kernel: imklog 5.8.10, log source = /proc/kmsg started. 【重启】
Dec  9 04:05:06 localhost rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="1601" x-info="http://www.rsyslog.com"] start
Dec  9 04:05:06 localhost kernel: Initializing cgroup subsys cpuset

Dec  9 04:05:11 localhost abrtd: Init complete, entering main loop
Dec  9 04:05:19 localhost modem-manager: (ttyS1) closing serial device...
Dec  9 04:05:19 localhost modem-manager: (ttyS1) opening serial device...
Dec  9 04:05:25 localhost modem-manager: (ttyS1) closing serial device...
Dec  9 04:05:52 localhost kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Dec  9 04:05:52 localhost kernel: {1}[Hardware Error]: APEI generic hardware error status
Dec  9 04:05:52 localhost kernel: {1}[Hardware Error]: severity: 2, corrected
Dec  9 04:05:52 localhost kernel: {1}[Hardware Error]: section: 0, severity: 2, corrected
Dec  9 04:05:52 localhost kernel: {1}[Hardware Error]: flags: 0x01
Dec  9 04:05:52 localhost kernel: {1}[Hardware Error]: primary
Dec  9 04:05:52 localhost kernel: {1}[Hardware Error]: fru_text: CorrectedErr
Dec  9 04:05:52 localhost kernel: {1}[Hardware Error]: section_type: memory error
Dec  9 04:05:52 localhost kernel: {1}[Hardware Error]: node: 24208
Dec  9 04:05:52 localhost kernel: {1}[Hardware Error]: device: 12343
Dec  9 04:05:52 localhost kernel: {1}[Hardware Error]: error_type: 2, single-bit ECC
Dec  9 04:05:52 localhost kernel: [Hardware Error]: Machine check events logged 【死机】
Dec 11 10:40:00 localhost kernel: imklog 5.8.10, log source = /proc/kmsg started. 【重启】
Dec 11 10:40:00 localhost rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="1603" x-info="http://www.rsyslog.com"] start
Dec 11 10:40:00 localhost kernel: Initializing cgroup subsys cpuset
Dec 11 10:40:00 localhost kernel: Initializing cgroup subsys cpu

当时看到这些错误还是比较懵,Hardware Error硬件错误,以为无法挽救。

解决办法

在bing搜索关键“Hardware error from APEI Generic Hardware Error Source: 1”找到一篇匹配度还算比较高的: APEI Generic Hardware Error 大致是系统与ECC 内存相关的问题导致

后面我进行了2个操作:

  • 1.内存条拔出来清理灰尘换个插槽重新插入【重启后问题没解决】
  • 2.升级内核 (内核从 2.6.32-431.el6.x86_64 升级到 3.17.1

目前服务器已经运行一周多,暂没出现死机现象,/var/log/message 无任何报错出现。

事后思考

服务器出现这个问题,可能与前几次突然停电有关。

资料参考

Linux日志查看
CentOS 内核升级
Linux最新内核列表

© 著作权归作者所有

无忌
粉丝 33
博文 33
码字总数 36090
作品 0
深圳
私信 提问
服务器运维常见的故障及其解决办法

进入信息时代,各种行业对数据的安全和技术要求也越来越高,,同时也遇到了各种各样的服务器故障问题,虽然能够接到服务器厂商的支持,但是往往耗时耗工,特别是有些不能够立即判断和解决的问题...

weixin_43817615
2018/11/27
0
0
centos 频繁死机,求解决方法!

给客户安装的centos服务器,具体配置搞不清了,这两天无故频繁死机,今天死3回了!!! 上面也就运行个mysql和java,mysql数据10W级别,用户才15人左右。 想问下 如何查看centos的具体死机原...

懵懂一时
2012/06/05
2.4K
8
Windows死机的话,可能的一些猫病

一、由硬件引起的原因 【散热不良】 显示器、电源和CPU在工作中发热量非常大,因此保持良好的通风状况非常重要,如果显示器过热将会导致色彩、图象失真甚至缩短显示器寿命。工作时间太长也会导...

奶berber
2018/03/15
0
0
[转载]全面深入了解电脑死机的原因

死机是令操作者颇为烦恼的事情。死机时的表现多为“蓝屏”,无法启动系统,画面“定格”无反应,鼠标、键盘无法输入,软件运行非正常中断等。尽管造成死机的原因是多方面的,但是万变不离其宗...

长征2号
2017/08/30
0
0
解决Ubuntu 12.04下频繁死机-Chrome

1、现象 当ubuntu出12.04(64bit)时我决定重装为12.04这个版本。装完后在2个月时间里经常出现Ubuntu死机的情况。尤其是在用chrome浏览网页时,拖动右侧的滚动条。先是页面死,1-2s后鼠标和输入...

NoahX
2012/07/05
1.3W
8

没有更多内容

加载失败,请刷新页面

加载更多

六、Spring Cloud之配置中心config

前言 前面我们讲了微服务的注册中心、负载均衡、熔断处理、网管服务。接下来我们讲配置中心,为什么要用配置中心呢? 其实我们接触一段时间就可以发现,我们的项目还是非常多的,每个项目都有...

quellanan2
11分钟前
21
0
在Android的EditText视图中允许多行?

如何在Android的EditText视图中允许多行? #1楼 这对我有用 ,实际上这两个属性很重要: inputType和lines 。 此外,您可能需要一个滚动条,下面的代码显示了如何制作一个: <EditText ...

技术盛宴
15分钟前
13
0
分享自己写的JS版日期格式化和解析工具类,绝对好用!

前言 本来想模仿Java里面的SimpleDateFormat()对象的,但是感觉这样用起来不方便,所以还是直接写成单独的方法算了。 原文链接 日期格式化 2.1. 使用说明 formatDate(date, fmt),其中fmt支持...

SuShine
25分钟前
27
0
快递鸟api物流查询接口实现订阅物流轨迹单号查询功能对接调用

背景: 分享一篇关于在电商系统中同步物流轨迹到本地服务器的文章,当前方案使用了快递鸟集成api做为数据来源接口,这个接口是免费使用的,不过提供的功能还是非常强大的,有专门的售后维护团...

程序的小猿
29分钟前
34
0
Day08多态,abstract,接口

1.A:多态的概述:事物存在的多种形态。 B:多态前提:要有继承关系,方法重写和父类引用子类对象。 父类引用子类对象:Animal a = new Cat(); a.eat(); //效果等同于c.eat(); 2.多态中的...

Lao鹰
35分钟前
11
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部