常见华为软交换故障

常见华为软交换故障

一.故障分类

华为软交换MSCServer 今年第一季度故障根据有没有派单分成两类,有派单的是告警台上有相关告警,可以监控到的故障;另外一类是监控不到的,日常巡检中发现的故障。以下是总结第一季度故障的具体类型。

1、派单故障:

2、巡检故障:

二.派单故障分析和处理

根据故障的类型,简单介绍和分析故障,并给出处理意见和方法。

1. 磁盘空间告警

告警信息:XX 局介质空间不足。

告警分析:主用IGWB 在剩余磁盘空间小于15%的时候就会出磁盘空间告警,省公司要求话单保存时间:原始话单(D:\FORNTDAVE)15天,第一份最终话单(E :\BACKSAVE\X3KM\(HZM01))15天,第二最终话单(E :\BACKSAVE\SECOND\X3KM\(HZM01))90天。

告警处理:删除部分格式转换后的话单,剪切部分最终话单到应急工作站(暂时),新建话单备份机,在IGWB 上压缩话单(待实现)。

告警级别:重要。需及时处理,否则出现严重空间不足引起IGWB 倒换。

2. 单板故障

告警信息:WSMU 板故障;单板CPU 自检故障。

告警分析:该故障由单软的软件或硬件故障引起。

告警处理:1. 复位 2.拔插 3.更换

注意:一般要求处理单板故障必须在凌晨话务低时操作,对于备份的单板,只能对备用单板进行操作。

告警级别:重要。涉及到WIFM,WBSG,WMGC,WCDB,WVDB,WSMU,WCSU 等重要的单板需要向 上级申请,及时更换单板或晚上操作。

3. 电源故障

告警信息:-48V 电源提供故障。

告警分析:根据指令DSP PDB可以查询到系统的电压正常范围是-42V ~-57V, 经常观察如果电压过高后,告警会在电压降到-54V 的时候消除。

告警处理:观察一段时间,DSP PDB 可查看当前电压值,分析告警原因,如果电压值正常,可通过SET PDBALMTHD:;设置PDB 告警阀值恢复告警,如果是电源故障需联系动力值处理。

告警级别:紧急。此告警需紧急上报和处理,电源系统故障严重会影响交换机运行, 影响业务。

4. IGWB 倒换

告警信息:iGWB 双机倒换

告警分析:双机倒换通常是主用IGWB 异常引起,可能原因:磁盘空间不足,重要目录被改动,网络故障,进程异常。

告警处理:清理磁盘空间,恢复被改动目录,检查处理网络,重启IGWB 进程。可查看C:\IGWB\TRACE下的信息,根据倒换的原因作相应的处理,常见的倒换原因如下:

告警级别:紧急。需要紧急上报和处理,IGWB 故障影响话单的接收,严重时造成话 丢失。

5. 传输故障

告警信息:WEPI E1信号丢失。

告警分析:无

告警处理:自环检测,如是本端问题则重做接口、换线或者换板,否则转传输室处理。 告警级别:紧急。需要马上处理,如该端口有开到LSTP 或者MSS 的信令,传输故障 引起信令链中断,影响业务。

6. IGWB 内存过载

告警信息:iGWB 内存过载。

告警分析:IGWB 上运行的主要进程有om_proc.exe,ap_proc.exe,cfg_proc.exe,cls_proc.exe,knl_proc.exe。主要检查这些进程有没有大量占用内存空间。现在SZS09,SZS12的om_proc.exe进程占用大量内存不释放。

告警处理:暂时的处理办法是重启om_proc.exe,最终解决方法等待华为工程师补丁解决。

告警级别:重要。需要跟进处理。

7. IGWB 备份失败

告警信息:iGWB 备份连接失败。

告警分析:IGWB 备份有两份,都是从主用IGWB 以FTP 方式备份到备用IGWB 。一

份保存在备机的E:\BillforBs,保存1000个文件,通过SmartBackup 实现;一份保存在E:\ finabill_bak,保存时间为90天,通过C:\IGWB\CONFIG\igwb.ini文件的配置信息实现。

告警处理:停止开启SmartBackup 备份任务;重启SmartBackup 软件;重启IGWB 进程。

告警级别:重要。需及时处理。此故障引起话单无法备份。

8. 网络故障

告警信息:BAM 到主机连接中断、TCP 链路故障。

告警分析:故障可能原因lanswitch 异常,网口松动,网卡运行异常。

告警处理:拔插网线,禁用启用网卡,重启lanswitch 端口,重启BAM 。

告警级别:紧急。需要马上处理,必要时要用应急工作站代替BAM, 此故障发生导致 BAM 无法连接主机,相当于BAM 瘫痪,无法对网元操作及维护。

9.MTP 、SCCP 、M3UA 故障

告警信息:M3UA 路由传输禁止 & 路由不可用;MTP 链路故障/MTP 链路定位失败;SCCP 目的信令点禁止。

告警分析:故障可能原因传输故障引起,配置数据变更,链路负荷过高。

告警处理:检查传输,检查数据配置信息。

告警级别:紧急。需马上处理,M3UA 路由传输禁止 & 路由不可用,SCCP 目的信令 点禁止,可能引起到目的局的业务中断。

三.巡检故障分析和处理

1. 硬盘故障

故障现象:故障磁盘灯亮红灯。

故障分析:华为软交换的硬盘都采用磁盘阵列方式对数据进行保护,硬盘支持热拔插,坏一块磁盘不影响系统运行,但是要尽快安排更换。

故障处理:更换硬盘。

告警级别:重要。需要跟进处理。

2. 电源模块故障

故障现象:服务器前面告警灯亮红灯,电源模块上的绿灯不亮。

故障分析:华为软交换的BAM,IGWB 服务器都采用双电源输入的工作方式,电源支持热拔插。电源更换后上电时要注意,因为接的是机柜的电源,如果电源模块异常可能引起机柜输入电源跳闸,影响到同机柜的其他设备。

故障处理:更换电源模块。

告警级别:紧急,需要马上联系工程师更换故障电源模块。

3. 备用IGWB 磁盘空间不足

故障现象:备用IGWB 磁盘空间不足

故障分析:备用IGWB 是实现话单双备份的组成,并且如果备用IGWB 磁盘剩余空间过小,主用IBWG 异常的时候将无法倒换。

故障处理:清理备用IGWB 磁盘空间。

4. 告警级别:重要。需要跟进处理,备用IGWB 磁盘空间不足,当主用IGWB 故障

发生倒换时,备用空间IGWB 空间不足会引起倒换不成功,造成话单丢失。

5. 主机时间偏差

故障现象:检查主机系统时间发现msoftx3000的主机时间和北京时间相差较大。 故障分析:主机系统时间就是话单产生时间,华为认为偏差在正负5秒是正常的,超过这个范围需要校正。

故障处理:主机时间和BAM 时间同步,更正其中一个就可以达到校正的目的。可以通过指令SET TIME修改,或者直接改BAM 的系统时间。

告警级别:重要。需跟进处理,此故障引起话单时间产生影响,严重时间偏差导致呼叫失败。

常见华为软交换故障

一.故障分类

华为软交换MSCServer 今年第一季度故障根据有没有派单分成两类,有派单的是告警台上有相关告警,可以监控到的故障;另外一类是监控不到的,日常巡检中发现的故障。以下是总结第一季度故障的具体类型。

1、派单故障:

2、巡检故障:

二.派单故障分析和处理

根据故障的类型,简单介绍和分析故障,并给出处理意见和方法。

1. 磁盘空间告警

告警信息:XX 局介质空间不足。

告警分析:主用IGWB 在剩余磁盘空间小于15%的时候就会出磁盘空间告警,省公司要求话单保存时间:原始话单(D:\FORNTDAVE)15天,第一份最终话单(E :\BACKSAVE\X3KM\(HZM01))15天,第二最终话单(E :\BACKSAVE\SECOND\X3KM\(HZM01))90天。

告警处理:删除部分格式转换后的话单,剪切部分最终话单到应急工作站(暂时),新建话单备份机,在IGWB 上压缩话单(待实现)。

告警级别:重要。需及时处理,否则出现严重空间不足引起IGWB 倒换。

2. 单板故障

告警信息:WSMU 板故障;单板CPU 自检故障。

告警分析:该故障由单软的软件或硬件故障引起。

告警处理:1. 复位 2.拔插 3.更换

注意:一般要求处理单板故障必须在凌晨话务低时操作,对于备份的单板,只能对备用单板进行操作。

告警级别:重要。涉及到WIFM,WBSG,WMGC,WCDB,WVDB,WSMU,WCSU 等重要的单板需要向 上级申请,及时更换单板或晚上操作。

3. 电源故障

告警信息:-48V 电源提供故障。

告警分析:根据指令DSP PDB可以查询到系统的电压正常范围是-42V ~-57V, 经常观察如果电压过高后,告警会在电压降到-54V 的时候消除。

告警处理:观察一段时间,DSP PDB 可查看当前电压值,分析告警原因,如果电压值正常,可通过SET PDBALMTHD:;设置PDB 告警阀值恢复告警,如果是电源故障需联系动力值处理。

告警级别:紧急。此告警需紧急上报和处理,电源系统故障严重会影响交换机运行, 影响业务。

4. IGWB 倒换

告警信息:iGWB 双机倒换

告警分析:双机倒换通常是主用IGWB 异常引起,可能原因:磁盘空间不足,重要目录被改动,网络故障,进程异常。

告警处理:清理磁盘空间,恢复被改动目录,检查处理网络,重启IGWB 进程。可查看C:\IGWB\TRACE下的信息,根据倒换的原因作相应的处理,常见的倒换原因如下:

告警级别:紧急。需要紧急上报和处理,IGWB 故障影响话单的接收,严重时造成话 丢失。

5. 传输故障

告警信息:WEPI E1信号丢失。

告警分析:无

告警处理:自环检测,如是本端问题则重做接口、换线或者换板,否则转传输室处理。 告警级别:紧急。需要马上处理,如该端口有开到LSTP 或者MSS 的信令,传输故障 引起信令链中断,影响业务。

6. IGWB 内存过载

告警信息:iGWB 内存过载。

告警分析:IGWB 上运行的主要进程有om_proc.exe,ap_proc.exe,cfg_proc.exe,cls_proc.exe,knl_proc.exe。主要检查这些进程有没有大量占用内存空间。现在SZS09,SZS12的om_proc.exe进程占用大量内存不释放。

告警处理:暂时的处理办法是重启om_proc.exe,最终解决方法等待华为工程师补丁解决。

告警级别:重要。需要跟进处理。

7. IGWB 备份失败

告警信息:iGWB 备份连接失败。

告警分析:IGWB 备份有两份,都是从主用IGWB 以FTP 方式备份到备用IGWB 。一

份保存在备机的E:\BillforBs,保存1000个文件,通过SmartBackup 实现;一份保存在E:\ finabill_bak,保存时间为90天,通过C:\IGWB\CONFIG\igwb.ini文件的配置信息实现。

告警处理:停止开启SmartBackup 备份任务;重启SmartBackup 软件;重启IGWB 进程。

告警级别:重要。需及时处理。此故障引起话单无法备份。

8. 网络故障

告警信息:BAM 到主机连接中断、TCP 链路故障。

告警分析:故障可能原因lanswitch 异常,网口松动,网卡运行异常。

告警处理:拔插网线,禁用启用网卡,重启lanswitch 端口,重启BAM 。

告警级别:紧急。需要马上处理,必要时要用应急工作站代替BAM, 此故障发生导致 BAM 无法连接主机,相当于BAM 瘫痪,无法对网元操作及维护。

9.MTP 、SCCP 、M3UA 故障

告警信息:M3UA 路由传输禁止 & 路由不可用;MTP 链路故障/MTP 链路定位失败;SCCP 目的信令点禁止。

告警分析:故障可能原因传输故障引起,配置数据变更,链路负荷过高。

告警处理:检查传输,检查数据配置信息。

告警级别:紧急。需马上处理,M3UA 路由传输禁止 & 路由不可用,SCCP 目的信令 点禁止,可能引起到目的局的业务中断。

三.巡检故障分析和处理

1. 硬盘故障

故障现象:故障磁盘灯亮红灯。

故障分析:华为软交换的硬盘都采用磁盘阵列方式对数据进行保护,硬盘支持热拔插,坏一块磁盘不影响系统运行,但是要尽快安排更换。

故障处理:更换硬盘。

告警级别:重要。需要跟进处理。

2. 电源模块故障

故障现象:服务器前面告警灯亮红灯,电源模块上的绿灯不亮。

故障分析:华为软交换的BAM,IGWB 服务器都采用双电源输入的工作方式,电源支持热拔插。电源更换后上电时要注意,因为接的是机柜的电源,如果电源模块异常可能引起机柜输入电源跳闸,影响到同机柜的其他设备。

故障处理:更换电源模块。

告警级别:紧急,需要马上联系工程师更换故障电源模块。

3. 备用IGWB 磁盘空间不足

故障现象:备用IGWB 磁盘空间不足

故障分析:备用IGWB 是实现话单双备份的组成,并且如果备用IGWB 磁盘剩余空间过小,主用IBWG 异常的时候将无法倒换。

故障处理:清理备用IGWB 磁盘空间。

4. 告警级别:重要。需要跟进处理,备用IGWB 磁盘空间不足,当主用IGWB 故障

发生倒换时,备用空间IGWB 空间不足会引起倒换不成功,造成话单丢失。

5. 主机时间偏差

故障现象:检查主机系统时间发现msoftx3000的主机时间和北京时间相差较大。 故障分析:主机系统时间就是话单产生时间,华为认为偏差在正负5秒是正常的,超过这个范围需要校正。

故障处理:主机时间和BAM 时间同步,更正其中一个就可以达到校正的目的。可以通过指令SET TIME修改,或者直接改BAM 的系统时间。

告警级别:重要。需跟进处理,此故障引起话单时间产生影响,严重时间偏差导致呼叫失败。


相关内容

  • 华为数据通信认证考试大纲
  • 华为数据通信认证考试大纲 ISSUE1.0 华为客户培训 2010年 目录 1 认证考试介绍 ....................................................................................................... ...

  • 网络工程师招聘能力
  • 2.掌握服务器及机房设备管理,具有VPN网络构建.网络防火墙.虚拟终端.邮件服务器等技术,熟悉MSISA.MSExchange调试和管理技术:3.出差 4.熟悉数据库备份.文件服务器备份技术:有实施K3财务系统和服装ERP系统经验者优先: 5.有大中型企划网络管理经验者优先:6.能力稍逊者可先任职网 ...

  • 华为软交换培训教材
  • 软交换日常维护指南 一. 关于组网结构 T2软交换网内汇接局共建有两台MSC Server (即MSOFTX3000),分别放置在浦东和钦州,设计成双归属互助方式:每台MSC Server可以控制2个MGW (即UMG8900),其中,浦东MSC Server 主控的2台MGW 均放置在浦东14F ...

  • 计算机专业就业前景
  • 计算机专业就业前景 1.计算机可视化编程 掌握计算机程序设计方法及可视化技术,精通一种计算机可视化平台及其软件开发技术.获取Delphi 程序员系列.Java初级或VB 开发能手认证. 计算机就业方向:企业.政府.社区.各类学校等可视化编程程序员. 2.计算机WEB 应用程序设计 具有美工基础和网页 ...

  • 程控交换机的管理维护及应用
  • 第一章 程控交换机的维护特点分析 1.1 系统可靠性高,工作量小 程控交换机大多采用集成电路,分立元件很少,集成度高.体积小.耗电低.可靠性高.不但采用的器件技术先进,而且装备工艺严格; 元器件装板以前已经过抽测.筛选.老化处理,制好的印制电路板经过单板测试.整机测试及老化处理,使得可靠性大大提高. ...

  • PON 网络运维手册
  • 文档编号:WASU-IPNOC-YYYYMMDDNN-10 PON 网络运维手册 (Version 1.0) 网络管理部 2009年3月10日 关键词:技术 目录 1. 2. 2.1. 2.2. 2.3. 3. 3.1. 3.2. 3.3. 3.4. 4. 4.1. 4.2. 4.3. 4.4. 4 ...

  • 网络报告和常见故障排查及解决办法
  • 网络整改报告 我司目前自管理层下辖行政部.财务部.物流部等7个部门,常驻公司办公人员约240人,高峰时期在司员工超过260人,且还在不断增加,现有在用网络系统不断扩容,目前网络状况如下: 1 网络现状 1.1 网络拓扑如图 196.196.196.10:主交换机,1外网接线2生产部交换机3技术部交换 ...

  • 通讯设备故障监控系统扩容及日常使用维护
  • 摘要:近年来,我国的电力通讯设备在使用频率和使用寿命上有了很大提升,但情况不容乐观.电力系统通讯设备故障不断,后期使用维护也不到位.在我国多数场地例如核电厂.变电站等地方由于本身所受的特殊电磁波感应状态,寻常的通讯设备难以工作,从而设置了自己独立的通讯设备系统,其系统主要是由传输机房.交换机房.电源 ...

  • [面试华为]各类工程师通信基础面试题库以及答案
  • 华为各类工程师面试:电信基础知识题库(以下题目可以按填空.判断或简答方式出题,也可以经过变化成为选择题) 1.语音信号数字化过程中,采用的是的量化方法是非均匀量化. 2.PCM30/32路系统中,每个码的时间间隔是488ns . 3.PCM30/32路系统中,TS0用于传送帧同步信号,TS16用于传 ...