
华为交换机集群建立不成功原因分析
/ n, `( \& x0 I$ [
; T. [% [9 C8 l- V2 t" L. v 1、故障现象
, v& t$ r4 [- B& F8 t% ?1 d; n: F 在集群各项配置都完成且重新启动设备以后,使用display css status命令查看集群状态,发现“CSS status”为“--”或“single”(单框集群),表示集群系统没有建立成功。
/ u' E3 ]& T- T( {
% X4 Y/ a) v9 S+ F h% n3 t: i 2、可能原因
* a8 x/ I( b* ?* @ 1、集群线缆没有插好,插头松动 1 O& U* w5 q/ M- @) @) c
2、集群线缆连接错误
7 N, \- ^; n2 \7 T4 U 3、集群功能未使能 2 L- ~5 t2 ^- _( g, @6 m* L6 T
4、集群卡或集群线缆故障1 Y b8 Y) y8 @$ {, B' P0 V
* l$ y( m) y) R! `
3、处理步骤
) B8 k' u) P4 {7 |0 d5 s 请保存以下步骤的执行结果,以便在故障无法解决时快速收集和反馈信息。( {6 C- X2 X, q; r: A
1、在用户视图下执行命令terminal monitor和terminal trapping,打开告警信息开关,观察是否有集群线缆连接错误(LE0D0VSTSA00、ES02VSTSA集群卡告警OID号为1.3.6.1.4.1.2011.5.25.183.3.3.2.4 hwCssConnectError和1.3.6.1.4.1.2011.5.25.183.3.3.2.19hwCssPhyCardConnectError。EH1D2VS08000集群卡告警OID号为1.3.6.1.4.1.2011.5.25.183.3.3.2.15 hwCssPhyVs08ConnectError)。
# p1 }; L2 a z" t% c 如果没有告警,直接执行后面步骤2。% v( Y6 E* e. u6 H! ^( c. Z+ b, V
如果有告警,则根据告警提示信息处理。- p1 ~2 \) m% M
如果有告警,表示两台交换机已经使能集群功能,且集群卡已经正常上电工作,否则集群管理模块无法检测到链路的连接情况。
$ Y. K, A3 {8 Y O8 } _4 y 从告警信息中,可以获取以下信息:
$ j5 h1 p" s# W; D) L, t 错误的连接信息,根据集群机框ID、槽位号和集群口号,可以直接找出连接错误的线缆。
]( Q3 y& h' n0 _1 [$ o 正确的连接方式。
6 w+ j% v+ `; o+ L$ b8 p 如设备不断打印告警:
d* v/ n! d! V8 y1 u! ]7 y. ~9 Q Mar31 2010 10:53:43 SYS-136 CSSM/4/CSSCONNECTERROR:OID1.3.6.1.4.1.2011.5.25.183.3.3.2.4 Connect error, 2/13 CSS port 3 link to 1/14port 2, this port should link to 1/13 port 2
- P2 ?8 g( \* }# r. B 此告警表示:框2槽位13的主控板上集群卡3号集群口连接到了框1槽位14的主控板上集群卡2号集群口,应该连接到框1槽位13的主控板上集群卡2号集群口。5 Y: V6 @4 H8 `
按照告警信息排除故障:9 _$ ~ U \0 c1 H, s- n
告警信息中的错误
5 c. ^, D; @5 S( d6 V5 m3 Y | 原因
+ E) O* o# b$ X: p | 处理方法
' f+ K. {% k/ z | 线缆两端连接的机框ID不同,如“2/13 CSS port 3 link to 1/14 port 2” 1 f; W2 j3 U2 d( ^/ a% ?) v
| 表示机框ID配置正确,线缆连接错误。 7 X% S' T9 i4 X
| 按照告警提示,改动集群线缆连接,并保证线缆插头插牢不松动。插好后有一个机框重启,进入集群合并流程,重启之后集群建立成功。 + S. i/ @2 J! F: l* G
| 线缆两端连接的机框ID相同,如“2/13 CSS port 3 link to 2/14 port 2” 8 p, s( Z9 J; u" D0 Y
| 有两种可能:
+ [) b$ a4 P; g" e 线缆两端连接在同一个机框上。
6 T: X4 s& n7 ? @' _; b4 G5 g 线缆两端连接在两个机框上,但是两框配置了相同的机框ID。 E7 M8 d7 M' @9 w8 \
| 使用命令display css status检查两个机框ID。 $ u$ T9 m6 @$ I
如果不同,则表示配置是正确的,线缆两端连接在同一个机框上。根据告警提示信息修改线缆连接位置。
7 ?3 r5 M2 ^3 {; O- w! s 如果相同,根据组网需求使用命令set css id修改机框ID,并重启被修改的机框。 5 Y( L% R1 V/ K; y0 ?& J
| 如果集群系统仍然不能建立:
$ ~ u" m& G$ |; ? e7 c+ m 如果仍有集群线缆连接错误的告警,请重复此步骤重新检查。
0 l2 J/ h: {/ G8 Q 如果没有出现集群线缆连接错误的告警,请执行后面步骤3。
' G% p8 j: p3 u P+ ^ F 2、检查设备是否已经使能集群功能。
. |' z: o: S" H+ Y2 d/ G: M$ s: }' a 使用命令display css status查看两台交换机的集群状态。
& V: ~- {0 V) o' Z 如果显示信息中出现CSSEnable为Off,则交换机的集群功能未使能。使用命令css enable使能设备的集群功能,并重启设备。
+ }$ A! Z1 o' M* M1 q! o* V 如果显示信息中出现CSSEnable为On,表示交换机已使能集群功能。请执行后面步骤3。' r3 l. z8 T! M. p- u8 Z
3、检查集群卡的工作状态。
' |) G5 n; C- d" L$ O, c0 Q1 Y 更换集群卡时建议将主控板拔出更换,请勿带电拔插集群卡。
# N$ E0 R5 _, j! n }& H 若设备已经使能集群功能、集群ID配置正确、集群线缆连接正确的情况下,仍然无法建立集群系统,则需要检查集群卡的工作状态。集群卡的指示灯含义及故障处理方法如下表1所示。0 ] e) L( m+ l2 t( Q0 Y8 I0 p4 z; {: h
表1 集群卡的指示灯含义及故障处理方法
; u5 c' r2 r0 C0 b | 指示灯 & s/ b: ]/ t/ l# u0 r, r
| 含义
: o: I1 V4 q! k+ J- } | 故障处理方法
1 V9 m/ x0 k. j | RUN/ALM指示灯
# C5 S2 D6 G; T+ _# [ | 红色表示单板故障,绿色表示正常工作。
- `; K) Y8 J4 |# S | 如果两块集群卡的RUN/ALM指示灯都是红色,可能是本框的主用主控板故障,建议更换主控板。 9 J4 h& n9 U0 y
如果只有一块集群卡的RUN/ALM指示灯是红色,可能是集群卡故障,建议更换集群卡。 ( s# B+ l: q8 J6 z% w2 [9 D4 b
| 集群ID(CSS ID)指示灯
' f; c# U: `- w* k) _1 Y | 表示设备的集群机框ID。目前只支持两台设备集群,只有标记为1或者2的集群ID指示灯会亮。
& S4 q2 w7 v i 集群ID指示灯不亮表示发生故障。 4 T- k* q5 R5 ?) E
| 如果1号和2号集群ID指示灯不亮,建议直接更换集群卡。
/ g6 {1 h Y$ C$ d% C | LINK指示灯(S7700/LE0D0VSTSA00、ES02VSTSA) 2 U V" c* R# }0 L. s
| 常亮表示对应集群口的链路状态为UP,常灭表示对应集群口的链路状态为DOWN。
3 Q( @- ^7 J# H9 i9 t3 J1 Z0 s" ` LINK指示灯常亮只能表示对应集群口的链路状态为UP,不能反映是否有流量。
: P0 Y: H; g2 B& y/ X | 如果某个集群口对应的LINK指示灯不亮,可能是相关集群线缆有问题,建议更换集群线缆。
3 i+ i7 u, e4 J) J# ?* ?2 Q f: c | LINK/ALM指示灯(S9700&S12700/EH1D2VS08000) 8 j! f$ z+ t9 a! e
| 绿色常亮表示该端口状态为Up,连线正确;红色常亮表示该端口连线错误,不符合连线规则;常灭表示该端口的链路状态为Down。 . j- g$ `0 Q+ @" ]; h, e9 a! a
LINK/ALM指示灯常亮只能表示对应集群口的链路状态为UP,不能反映是否有流量。
; s) j% Z& r- A2 b9 d" m) e& l+ ] | 如果某个集群口对应的LINK/ALM指示灯不亮,可能是相关集群线缆有问题,建议更换集群线缆。
# y" B8 J* e% D9 p | 4、如果执行以上步骤后故障依然存在,请收集以下信息,并联系技术支持工程师。- H H6 r* y( M1 b9 u4 n
上述步骤的执行结果。
: N/ K( ~( q8 Y# G2 A2 J; H# d, |3 m 设备的配置文件、日志信息、告警信息。 |
|