服务器出现CPU0:Not Responding 的解决思路
解决思路
1.使用最小化测试思路,排查是哪颗物理CPU故障
2.经过每一个单CPU进行测试,2颗物理CPU均正常
3.更换主板,排除主板故障;更换主板后单CPU系统正常,两颗物理CPU系统启动失败,显示smpboot: CPU1: Not responding;smpboot,CPU无响应。
4,拔掉所有后背板连接线缆,系统启动正常。
5.反复插拔后背板不同的连接线缆,排查到拔掉USB线缆主机系统启动正常
根因
主机部件最小化测试结果确认主机硬件无问题,CPU 出现这个情况的可能常见原因(不排除其他原因)是因为USB设备接口上接入了含有问题的USB设备,(譬如键鼠的连接线短路等)导致服务器在开机引导时,服务器自检系统在等待CPU响应时,CPU无法正常获取USB设备的状态,导致服务器一直处于等待CPU响应的请求当中,当请求超时时,系统会在屏幕打印出CPUx:Not Responding信息(其中的x代表未响应的CPU的第x核数)。简单讲就是因为后背板外接的USB线缆混电故障,导致物理物理CPU在启动时,无法响应操作系统。从而导致系启动界面报警。
解决方案
更换USB设备或尝试重新插拔,启动正常。
建议与总结
首先要登录BMC管理口查看故障告警以及事件日志记录,如无告警信息的情况下采取最小化测试的方法定位问题。
所有原创文章采用 知识共享署名-非商业性使用 4.0 国际许可协议 进行许可。
您可以自由的转载和修改,但请务必注明文章来源并且不可用于商业目的。
本站部分内容收集于互联网,如果有侵权内容、不妥之处,请联系我们删除。敬请谅解!





















