上周一台华为S8505-1交换机板卡1 fail,导致下联部分业务中断。平台所采用的是两台S8505做VRRP,但为什么板卡故障会导致部分业务中断?手工将备机优先级调高,为什么部分业务仍不能恢复?下边将详细介绍此次故障原因。
1. 业务拓扑
平台采用双平面VRRP的配置方式,具体拓扑如下:
其中8505上有两个板卡,板卡1全都是千兆光口,上联NE40E,互联S8505-2;板卡2为千兆电口,作为下联业务,连接服务器。下图为S8505的连接示意图:
1. 故障处理流程及分析
故障发生后,首先想到的是对VRRP进行切换,将备S8505的VRRP优先级调高,切换为主。切换之后部分业务恢复,但是仍有一些业务无法正常通信。检查配置后,发现板卡2下联业务,业务位于vlan101,板卡1上联NE40E并互联S8505-2,而服务器采用的双网卡绑定,有的采用主备方式,有的采用负载均衡的方式。
具体分析:
由于S8505-1的板卡1故障,直接导致上联及互联链路down掉,但是板卡2仍正常工作,对于业务服务器来说,8505-1仍是正常的,所以一部分server(网卡为主备方式)仍将数据包发往8505-1,无论交换机的VRRP是否切换,但是8505-1无法将这些数据包转发出去,因为互联和上联链路都down了,所以数据包只能丢弃。
上述问题主要是由于业务板块和故障板卡不是同一板卡所导致的问题,所以由于备用板卡尚未到货,所以第一时间切断S8505-1电源,将所有业务强制切换到备机,切换之后所有业务都恢复正常。
1. 解决方法
3.1板卡扩容
如果S8505的上联、互联及下联各有一个板卡,除非是上联和互联板卡同时故障,否则就不会再出现这种问题。
或者将上联和下联放在同一板卡上,那么无论是互联板卡故障还是上下联板卡故障,也都不会再出现这种问题。
3.2手工对业务VLAN进行关闭
直接关闭下联服务器对应的VLAN。
3.3trace上行及互联链路
在S8505上做trace,跟踪上行及互联链路状态,如果上联、互联链路down掉,也及时关闭下联业务VLAN。相当于是动态关闭VLAN。(该部分的解决办法中断正在查看相关资料)
总结:该故障最好的解决办法就是对硬件进行扩容,上联、下联、互联各属于一个板卡。