笔者办公室使用的一台普通二层交换机,一直为我们默默服务了好几年,到目前为止从来没有出现什么意外,
网管故障实战:交换机瘫痪祸起自身免疫力
。可是,最近笔者单位局域网机房中有一台交换机突然发生了奇怪的现象;考虑到故障现象的特殊性,笔者采用了特殊的方法进行了排除,现在把具体的故障排除过程列写出来,希望下面的内容能给各位网络管理人员带来启发!故障回放
笔者单位的局域网规模中等,局域网内共有36台普通工作站,4台服务器,通过3台交换机连接在一起,组成一个中等规模的局域网网络。3台交换机中有一台使用的是CISCO品牌的24口100M交换机,该交换机作为局域网中的主交换机,4台服务器以及另外两台交换机均直接连接到主交换机对应的RJ45端口中;另外两台交换机使用的都是实达品牌的24口10M/100M自适应网络交换机,这两台交换机分别作为次交换机,用来连接普通的36台工作站。局域网中的所有工作站都通过主交换机,实现了与Internet网络的互联。
很长一段时间,局域网中的交换机一直恪尽职守,维系着网络的正常运行。可最近一两天,有几个同事同时向笔者反应,他们的工作站不能正常上网了;起初,笔者还以为是同事操作不当引起了网络故障,于是赶到出现故障的工作站旁,尝试进行Internet网络访问操作,事实验证了局域网网络的确出现了问题。可是,当笔者对这台不能上网的工作站进行全方位检查后,发现该工作站的网络连接参数、接口的连接牢靠性等都没有任何问题;更为奇怪的是,局域网中并不是所有的工作站都不能上网,还有多台工作站不但上网正常,而且上网的速度也比较快。仔细对比上网正常工作站的网络配置与不正常工作站的网络配置后,笔者并没有找到任何不同的地方,那为什么上网配置完全相同,但网络连接结果却不一样呢?
会不会是交换机那边有的网络连接接口出现了松动呢?笔者不放心这一点,于是来到局域网机房的交换机旁,想检查一下线缆接头的连接情况;可谁曾想到其中有一台次交换机前端面板中的所有信号灯全处于长亮不闪烁状态,很显然该交换机的运行状态不正常,那么连接到该交换机中的所有工作站自然就不能进行网络访问操作了。再看看另外两台交换机时,笔者发现它们的工作状态都很正常,这也难怪局域网中有的工作站可以上网,有的工作站不能上网了。难道处于长亮状态的交换机发生了硬件损坏,笔者心中自言自语道!?为了检验工作状态不正常的交换机是否发生了硬件损坏,笔者特意将该交换机的电源线缆暂时拔掉,过一段时间后将电源线缆重新插入其中,以便尝试重新启动一下交换机;幸运的是,故障交换机被笔者重新启动之后,局域网中先前不能上网的工作站都能正常上网了,而且上网速度也恢复到以前的正常状态了。原以为到了这里,局域网部分工作站不能上网的故障得到解决了;可让人感到纳闷的是,笔者刚刚准备拔腿离开机房,又有同事开始嚷嚷说网络又出问题了。再次来到交换机旁,笔者发现那台刚被重新启动的故障交换机,现在又是所有的信号灯处于长亮不闪烁状态了,而且此时其他两台交换机仍然保持以前的运行状态,这是怎么回事呢?
尽管笔者知道局域网中不少工作站都感染有各种危害不一的网络病毒,可是考虑到两台次交换机无论是品牌型号方面,还是连接方式方面,甚至是参数配置方面都是完全相同的,如果交换机的故障是由网络病毒诱发的话,那表现出来的症状应该是两台次交换机都不能正常运行才对;现在只有一台次交换机运行不正常,另外一台次交换机始终保持正常运行状态,因此笔者估计出现故障的那台次交换机十有八九发生了硬件方面的损坏,
电脑资料
《网管故障实战:交换机瘫痪祸起自身免疫力》(https://www.unjs.com)。于是笔者初步认为,要想解决这样的网络故障,唯一的办法就是用另外一台工作正常的交换机来替换故障交换机。由于当时单位没有现成的空闲交换机可以更换,笔者就没有将那台故障交换机从局域网中移走,准备第二天早点过来带一台新交换机进行更换操作。但让人感到十分意外的是,当笔者第二天来到局域网机房时,却发现昨天工作状态不正常的交换机,突然变得正常起来了,这是怎么回事呢?笔者看看交换机,又下意识地看了看机房外面的局域网工作站,突然想到一定是局域网工作站在没有运行的情况下,网络中就不存在病毒,那么交换机就不会受到病毒攻击,这也是故障交换机在无人使用计算机的情况下能够恢复正常工作状态的最好解释吧。随后发生的事情,的确也验证了笔者的推断;当同事们陆续上班开始使用计算机进行工作时,故障交换机的信号指示灯立即又恢复到以前的长亮不闪烁状态了,笔者估计此时局域网工作站中的网络病毒又开始不断向网络发送广播信息了,直到广播风暴导致交换机瘫痪为止。后来笔者动员单位的同事,都将自己的工作站系统重新安装一下,以便彻底消灭局域网网络中的病毒;当所有工作站全部重新安装过操作系统后,那台有故障的交换机立即就能恢复正常运行状态了,而且持续很长时间都没有发生异常现象。
问题总结
到了这里,导致交换机瘫痪的罪槐祸首似乎就是局域网中的网络病毒了。可是有一点还是让笔者耿耿于怀,那就是网络病毒为什么只对其中一台交换机产生影响,而不对另外一台交换机产生影响呢?后来到网上搜索相关资料,笔者发现即使品牌、型号完全相同的交换机,它们的运行性能也不一定完全相同;例如两台完全一致的交换机,如果它们的运行环境不一致的话,那么交换机内部元器件的老化速度就不一样,老化速度快的交换机在日后的工作中,抵抗外界干扰包括病毒干扰的能力就相对要差一些了,这就是为什么网络病毒只导致一台交换机瘫痪,而另外一台交换机安然无恙的原因了。依照这样的分析思路,笔者认为上面所提的故障交换机之所以会发生瘫痪,究其真实原因其实是该交换机自身免疫力较差,导致该交换机无法抵抗网络病毒的袭击;相比较而言,另外一台型号完全一致的交换机之所以始终保持正常的运行状态,那是因为该交换机性能好、自身抵抗力强,网络病毒的破坏力还不足以让其瘫痪。
总结上面的故障排除过程,笔者认为要想有效避免交换机发生瘫痪或其他不可知故障,首先要做到的就是在挑选交换机的时候,不能贪图眼前便宜,去购买那些品牌不正、质量不好的产品,而应该尽量挑选那些品牌正、性能好、缓存容量大的产品,以确保交换机自身能有足够强大的免疫能力,去抵抗网络中存在的各种外来干扰;其次要在局域网中的每台工作站中安装好正版的杀毒软件,并且要求定期对系统进行病毒查杀操作,及时进行在线更新病毒库操作,确保网络病毒不引发广播风暴。另外还需要提醒各位的是,为了让交换机始终处于高效的运行状态,我们不妨在网络访问的空闲时段,抽出时间将交换机电源断开,然后过一会儿重新接通它的电源,这样一来就能实现清空交换机缓存的目的,以便进一步增强交换机的免疫力。