书犹药也,善读可以医愚;久尝其味,便可心如止水

    

服务器出现CPU0:Not Responding 的解决思路


image.png

解决思路

1.使用最小化测试思路,排查是哪颗物理CPU故障

2.经过每一个单CPU进行测试,2颗物理CPU均正常

3.更换主板,排除主板故障;更换主板后单CPU系统正常,两颗物理CPU系统启动失败,显示smpboot: CPU1: Not responding;smpboot,CPU无响应。

4,拔掉所有后背板连接线缆,系统启动正常。

5.反复插拔后背板不同的连接线缆,排查到拔掉USB线缆主机系统启动正常


根因

主机部件最小化测试结果确认主机硬件无问题,CPU 出现这个情况的可能常见原因(不排除其他原因)是因为USB设备接口上接入了含有问题的USB设备,(譬如键鼠的连接线短路等)导致服务器在开机引导时,服务器自检系统在等待CPU响应时,CPU无法正常获取USB设备的状态,导致服务器一直处于等待CPU响应的请求当中,当请求超时时,系统会在屏幕打印出CPUx:Not Responding信息(其中的x代表未响应的CPU的第x核数)。简单讲就是因为后背板外接的USB线缆混电故障,导致物理物理CPU在启动时,无法响应操作系统。从而导致系启动界面报警。


解决方案

更换USB设备或尝试重新插拔,启动正常。


建议与总结

首先要登录BMC管理口查看故障告警以及事件日志记录,如无告警信息的情况下采取最小化测试的方法定位问题。


所有原创文章采用 知识共享署名-非商业性使用 4.0 国际许可协议 进行许可。
您可以自由的转载和修改,但请务必注明文章来源并且不可用于商业目的。
本站部分内容收集于互联网,如果有侵权内容、不妥之处,请联系我们删除。敬请谅解!

添加新评论

icon_mrgreen.gificon_neutral.gificon_twisted.gificon_arrow.gificon_eek.gificon_smile.gificon_confused.gificon_cool.gificon_evil.gificon_biggrin.gificon_idea.gificon_redface.gificon_razz.gificon_rolleyes.gificon_wink.gificon_cry.gificon_surprised.gificon_lol.gificon_mad.gificon_sad.gificon_exclaim.gificon_question.gif

生命要得到丰盛的收获,必需阳光;同时,也需要“雨”的浇灌。

人生应该树立目标,否则你的精力会白白浪费。

山涧的泉水经过一路曲折,才唱出一支美妙的歌。

如若不是为了一个人,谁肯枯守一座城。城市和爱情,总是有着这样那样的关系。我们会因为一个人,去到那座城,因为那是一座爱的城;我们也会因为一个人,离开一座城,那是一座绝望的伤城。

常求有利别人,不求有利自己。