案例62 Metro 1000V3设备SCB单板故障导致误码
故障现象
1.某铁路局Metro 1000V3与Metro 2050组建的一个622M通道保护环,D、E站的支路板部分业务闪报TU_AIS告警,业务频繁闪断,其他业务正常;
2.查询该环上性能数据,无再生段、复用段和高阶通道误码,只有部分支路板端口存在大量低阶通道误码。
组网情况
组网如图1-42所示。
原因分析
1.光路存在误码,导致业务受影响;
2.环上某一光板故障;
3.发端支路板故障;
4.某站的交叉板故障;
5.其他设备背板故障等。
图 1-42
故障定位及处理过程
1.根据业务的中断情况,查看该环上告警和性能数据,发现受影响的业务端口上存在低阶通道误码,确定为误码导致业务中断;
2.查看D站一条受影响的业务,其业务配置错误,未完全配置成环,E-D段没有配通;为尽快恢复业务,将业务数据补全,并启动SNCP的SD倒换,业务恢复,并发生PS倒换,同时查看其他受影响业务均发现为离散路径,将业务补全后,业务全部恢复;
3.对受影响的业务进行分析,查看SCNP业务状态,A—B—C—D区段出现SD和SF;
4.将受影响业务改成A—E—D的无保护链,在A—B—C—D方向上的时隙配置一条测试业务,采用二分法和时隙环回法,逐段落地测试,最终定位在A站发B站之间问题导致,但光路无异常;
5.在分析其他受影响的业务,查找共性,发现所有出问题的业务都集中在第三个VC4上,且问题也在A—B之间;
6.为进一步定位,在A—B之间配一条测试业务,分别在1-4的VC4上,发现业务在第三个VC4上将会出现大量低阶误码,闪报TU_AIS告警;
7.申请要点,在A对B的光板上进行光口环回,发现A点测试业务正常,B点光口环回发现测试业务依旧存在问题;
8.B站的OI4D集成在SCB单板上,更换B站的SCB单板后故障恢复。
总结和建议
1.在出现复杂故障时,应首先找出问题业务的共性,便于快速定位问题;
2.对这种多条业务同时中断时,及时找出一条业务进行突破,找出问题所在,然后再对其他业务进行验证;
3.建议环上业务尽量配置一种保护方式,避免出现多种逻辑系统叠加,容易导致业务配置错误,同时造成路径法无法正确配置业务。