常见华为软交换故障
一.故障分类
华为软交换MSCServer 今年第一季度故障根据有没有派单分成两类,有派单的是告警台上有相关告警,可以监控到的故障;另外一类是监控不到的,日常巡检中发现的故障。以下是总结第一季度故障的具体类型。
1、派单故障:
2、巡检故障:
二.派单故障分析和处理
根据故障的类型,简单介绍和分析故障,并给出处理意见和方法。
1. 磁盘空间告警
告警信息:XX 局介质空间不足。
告警分析:主用IGWB 在剩余磁盘空间小于15%的时候就会出磁盘空间告警,省公司要求话单保存时间:原始话单(D:\FORNTDAVE)15天,第一份最终话单(E :\BACKSAVE\X3KM\(HZM01))15天,第二最终话单(E :\BACKSAVE\SECOND\X3KM\(HZM01))90天。
告警处理:删除部分格式转换后的话单,剪切部分最终话单到应急工作站(暂时),新建话单备份机,在IGWB 上压缩话单(待实现)。
告警级别:重要。需及时处理,否则出现严重空间不足引起IGWB 倒换。
2. 单板故障
告警信息:WSMU 板故障;单板CPU 自检故障。
告警分析:该故障由单软的软件或硬件故障引起。
告警处理:1. 复位 2.拔插 3.更换
注意:一般要求处理单板故障必须在凌晨话务低时操作,对于备份的单板,只能对备用单板进行操作。
告警级别:重要。涉及到WIFM,WBSG,WMGC,WCDB,WVDB,WSMU,WCSU 等重要的单板需要向 上级申请,及时更换单板或晚上操作。
3. 电源故障
告警信息:-48V 电源提供故障。
告警分析:根据指令DSP PDB可以查询到系统的电压正常范围是-42V ~-57V, 经常观察如果电压过高后,告警会在电压降到-54V 的时候消除。
告警处理:观察一段时间,DSP PDB 可查看当前电压值,分析告警原因,如果电压值正常,可通过SET PDBALMTHD:;设置PDB 告警阀值恢复告警,如果是电源故障需联系动力值处理。
告警级别:紧急。此告警需紧急上报和处理,电源系统故障严重会影响交换机运行, 影响业务。
4. IGWB 倒换
告警信息:iGWB 双机倒换
告警分析:双机倒换通常是主用IGWB 异常引起,可能原因:磁盘空间不足,重要目录被改动,网络故障,进程异常。
告警处理:清理磁盘空间,恢复被改动目录,检查处理网络,重启IGWB 进程。可查看C:\IGWB\TRACE下的信息,根据倒换的原因作相应的处理,常见的倒换原因如下:
告警级别:紧急。需要紧急上报和处理,IGWB 故障影响话单的接收,严重时造成话 丢失。
5. 传输故障
告警信息:WEPI E1信号丢失。
告警分析:无
告警处理:自环检测,如是本端问题则重做接口、换线或者换板,否则转传输室处理。 告警级别:紧急。需要马上处理,如该端口有开到LSTP 或者MSS 的信令,传输故障 引起信令链中断,影响业务。
6. IGWB 内存过载
告警信息:iGWB 内存过载。
告警分析:IGWB 上运行的主要进程有om_proc.exe,ap_proc.exe,cfg_proc.exe,cls_proc.exe,knl_proc.exe。主要检查这些进程有没有大量占用内存空间。现在SZS09,SZS12的om_proc.exe进程占用大量内存不释放。
告警处理:暂时的处理办法是重启om_proc.exe,最终解决方法等待华为工程师补丁解决。
告警级别:重要。需要跟进处理。
7. IGWB 备份失败
告警信息:iGWB 备份连接失败。
告警分析:IGWB 备份有两份,都是从主用IGWB 以FTP 方式备份到备用IGWB 。一
份保存在备机的E:\BillforBs,保存1000个文件,通过SmartBackup 实现;一份保存在E:\ finabill_bak,保存时间为90天,通过C:\IGWB\CONFIG\igwb.ini文件的配置信息实现。
告警处理:停止开启SmartBackup 备份任务;重启SmartBackup 软件;重启IGWB 进程。
告警级别:重要。需及时处理。此故障引起话单无法备份。
8. 网络故障
告警信息:BAM 到主机连接中断、TCP 链路故障。
告警分析:故障可能原因lanswitch 异常,网口松动,网卡运行异常。
告警处理:拔插网线,禁用启用网卡,重启lanswitch 端口,重启BAM 。
告警级别:紧急。需要马上处理,必要时要用应急工作站代替BAM, 此故障发生导致 BAM 无法连接主机,相当于BAM 瘫痪,无法对网元操作及维护。
9.MTP 、SCCP 、M3UA 故障
告警信息:M3UA 路由传输禁止 & 路由不可用;MTP 链路故障/MTP 链路定位失败;SCCP 目的信令点禁止。
告警分析:故障可能原因传输故障引起,配置数据变更,链路负荷过高。
告警处理:检查传输,检查数据配置信息。
告警级别:紧急。需马上处理,M3UA 路由传输禁止 & 路由不可用,SCCP 目的信令 点禁止,可能引起到目的局的业务中断。
三.巡检故障分析和处理
1. 硬盘故障
故障现象:故障磁盘灯亮红灯。
故障分析:华为软交换的硬盘都采用磁盘阵列方式对数据进行保护,硬盘支持热拔插,坏一块磁盘不影响系统运行,但是要尽快安排更换。
故障处理:更换硬盘。
告警级别:重要。需要跟进处理。
2. 电源模块故障
故障现象:服务器前面告警灯亮红灯,电源模块上的绿灯不亮。
故障分析:华为软交换的BAM,IGWB 服务器都采用双电源输入的工作方式,电源支持热拔插。电源更换后上电时要注意,因为接的是机柜的电源,如果电源模块异常可能引起机柜输入电源跳闸,影响到同机柜的其他设备。
故障处理:更换电源模块。
告警级别:紧急,需要马上联系工程师更换故障电源模块。
3. 备用IGWB 磁盘空间不足
故障现象:备用IGWB 磁盘空间不足
故障分析:备用IGWB 是实现话单双备份的组成,并且如果备用IGWB 磁盘剩余空间过小,主用IBWG 异常的时候将无法倒换。
故障处理:清理备用IGWB 磁盘空间。
4. 告警级别:重要。需要跟进处理,备用IGWB 磁盘空间不足,当主用IGWB 故障
发生倒换时,备用空间IGWB 空间不足会引起倒换不成功,造成话单丢失。
5. 主机时间偏差
故障现象:检查主机系统时间发现msoftx3000的主机时间和北京时间相差较大。 故障分析:主机系统时间就是话单产生时间,华为认为偏差在正负5秒是正常的,超过这个范围需要校正。
故障处理:主机时间和BAM 时间同步,更正其中一个就可以达到校正的目的。可以通过指令SET TIME修改,或者直接改BAM 的系统时间。
告警级别:重要。需跟进处理,此故障引起话单时间产生影响,严重时间偏差导致呼叫失败。
常见华为软交换故障
一.故障分类
华为软交换MSCServer 今年第一季度故障根据有没有派单分成两类,有派单的是告警台上有相关告警,可以监控到的故障;另外一类是监控不到的,日常巡检中发现的故障。以下是总结第一季度故障的具体类型。
1、派单故障:
2、巡检故障:
二.派单故障分析和处理
根据故障的类型,简单介绍和分析故障,并给出处理意见和方法。
1. 磁盘空间告警
告警信息:XX 局介质空间不足。
告警分析:主用IGWB 在剩余磁盘空间小于15%的时候就会出磁盘空间告警,省公司要求话单保存时间:原始话单(D:\FORNTDAVE)15天,第一份最终话单(E :\BACKSAVE\X3KM\(HZM01))15天,第二最终话单(E :\BACKSAVE\SECOND\X3KM\(HZM01))90天。
告警处理:删除部分格式转换后的话单,剪切部分最终话单到应急工作站(暂时),新建话单备份机,在IGWB 上压缩话单(待实现)。
告警级别:重要。需及时处理,否则出现严重空间不足引起IGWB 倒换。
2. 单板故障
告警信息:WSMU 板故障;单板CPU 自检故障。
告警分析:该故障由单软的软件或硬件故障引起。
告警处理:1. 复位 2.拔插 3.更换
注意:一般要求处理单板故障必须在凌晨话务低时操作,对于备份的单板,只能对备用单板进行操作。
告警级别:重要。涉及到WIFM,WBSG,WMGC,WCDB,WVDB,WSMU,WCSU 等重要的单板需要向 上级申请,及时更换单板或晚上操作。
3. 电源故障
告警信息:-48V 电源提供故障。
告警分析:根据指令DSP PDB可以查询到系统的电压正常范围是-42V ~-57V, 经常观察如果电压过高后,告警会在电压降到-54V 的时候消除。
告警处理:观察一段时间,DSP PDB 可查看当前电压值,分析告警原因,如果电压值正常,可通过SET PDBALMTHD:;设置PDB 告警阀值恢复告警,如果是电源故障需联系动力值处理。
告警级别:紧急。此告警需紧急上报和处理,电源系统故障严重会影响交换机运行, 影响业务。
4. IGWB 倒换
告警信息:iGWB 双机倒换
告警分析:双机倒换通常是主用IGWB 异常引起,可能原因:磁盘空间不足,重要目录被改动,网络故障,进程异常。
告警处理:清理磁盘空间,恢复被改动目录,检查处理网络,重启IGWB 进程。可查看C:\IGWB\TRACE下的信息,根据倒换的原因作相应的处理,常见的倒换原因如下:
告警级别:紧急。需要紧急上报和处理,IGWB 故障影响话单的接收,严重时造成话 丢失。
5. 传输故障
告警信息:WEPI E1信号丢失。
告警分析:无
告警处理:自环检测,如是本端问题则重做接口、换线或者换板,否则转传输室处理。 告警级别:紧急。需要马上处理,如该端口有开到LSTP 或者MSS 的信令,传输故障 引起信令链中断,影响业务。
6. IGWB 内存过载
告警信息:iGWB 内存过载。
告警分析:IGWB 上运行的主要进程有om_proc.exe,ap_proc.exe,cfg_proc.exe,cls_proc.exe,knl_proc.exe。主要检查这些进程有没有大量占用内存空间。现在SZS09,SZS12的om_proc.exe进程占用大量内存不释放。
告警处理:暂时的处理办法是重启om_proc.exe,最终解决方法等待华为工程师补丁解决。
告警级别:重要。需要跟进处理。
7. IGWB 备份失败
告警信息:iGWB 备份连接失败。
告警分析:IGWB 备份有两份,都是从主用IGWB 以FTP 方式备份到备用IGWB 。一
份保存在备机的E:\BillforBs,保存1000个文件,通过SmartBackup 实现;一份保存在E:\ finabill_bak,保存时间为90天,通过C:\IGWB\CONFIG\igwb.ini文件的配置信息实现。
告警处理:停止开启SmartBackup 备份任务;重启SmartBackup 软件;重启IGWB 进程。
告警级别:重要。需及时处理。此故障引起话单无法备份。
8. 网络故障
告警信息:BAM 到主机连接中断、TCP 链路故障。
告警分析:故障可能原因lanswitch 异常,网口松动,网卡运行异常。
告警处理:拔插网线,禁用启用网卡,重启lanswitch 端口,重启BAM 。
告警级别:紧急。需要马上处理,必要时要用应急工作站代替BAM, 此故障发生导致 BAM 无法连接主机,相当于BAM 瘫痪,无法对网元操作及维护。
9.MTP 、SCCP 、M3UA 故障
告警信息:M3UA 路由传输禁止 & 路由不可用;MTP 链路故障/MTP 链路定位失败;SCCP 目的信令点禁止。
告警分析:故障可能原因传输故障引起,配置数据变更,链路负荷过高。
告警处理:检查传输,检查数据配置信息。
告警级别:紧急。需马上处理,M3UA 路由传输禁止 & 路由不可用,SCCP 目的信令 点禁止,可能引起到目的局的业务中断。
三.巡检故障分析和处理
1. 硬盘故障
故障现象:故障磁盘灯亮红灯。
故障分析:华为软交换的硬盘都采用磁盘阵列方式对数据进行保护,硬盘支持热拔插,坏一块磁盘不影响系统运行,但是要尽快安排更换。
故障处理:更换硬盘。
告警级别:重要。需要跟进处理。
2. 电源模块故障
故障现象:服务器前面告警灯亮红灯,电源模块上的绿灯不亮。
故障分析:华为软交换的BAM,IGWB 服务器都采用双电源输入的工作方式,电源支持热拔插。电源更换后上电时要注意,因为接的是机柜的电源,如果电源模块异常可能引起机柜输入电源跳闸,影响到同机柜的其他设备。
故障处理:更换电源模块。
告警级别:紧急,需要马上联系工程师更换故障电源模块。
3. 备用IGWB 磁盘空间不足
故障现象:备用IGWB 磁盘空间不足
故障分析:备用IGWB 是实现话单双备份的组成,并且如果备用IGWB 磁盘剩余空间过小,主用IBWG 异常的时候将无法倒换。
故障处理:清理备用IGWB 磁盘空间。
4. 告警级别:重要。需要跟进处理,备用IGWB 磁盘空间不足,当主用IGWB 故障
发生倒换时,备用空间IGWB 空间不足会引起倒换不成功,造成话单丢失。
5. 主机时间偏差
故障现象:检查主机系统时间发现msoftx3000的主机时间和北京时间相差较大。 故障分析:主机系统时间就是话单产生时间,华为认为偏差在正负5秒是正常的,超过这个范围需要校正。
故障处理:主机时间和BAM 时间同步,更正其中一个就可以达到校正的目的。可以通过指令SET TIME修改,或者直接改BAM 的系统时间。
告警级别:重要。需跟进处理,此故障引起话单时间产生影响,严重时间偏差导致呼叫失败。