最近遇到一个故障诊断的事情,将过程跟大伙分享一下:
基本情况介绍,一台冻干机的控制系统,平时用得较少,一个月也就用几次,这次开机突然报故障不能运行了。
硬件配置情况:CPU314、两个机架、IM365,每个机架8个普通SM模块。
故障现象:CPU停止,SF常亮,无法运行
诊断缓冲区,显示I/O读写错误!(不报具体无法读写的IO地址)
根据经验,这种故障,在添加对应的故障OB后,CPU通常能进入运行状态的。
但这次有点特殊,诊断缓冲区不提示缺少对应的故障OB,CPU直接STOP!添加对应OB,也无济于事。
没办法,只好把CPU拆下来,单独接电源,CPU能RUN,没有问题!那问题就出在后面模块。
再把扩展机架拆除,CPU也能RUN!加上扩展机架又是同样的故障!
没办法,只好用简单的排除法,把扩展机架上的模块拆掉一半,CPU又可以RUN了!继续拆模块,最后发现扩展机架只能装6个SM模块,否则CPU不能RUN,会故障STOP!更换SM模块的位置,现象一样,那么可以排除SM模块的问题!
最后怀疑是IM365的带载能力出现了下降,导致扩展机架不能带8个模块了,换掉IM365,竟然真的解决问题了。
虽然问题解决了,但本人觉得这个解释有点牵强,不知大家伙怎么看这个问题?