电子政务运维中心机房应急预案

***电子政务运维服务中心机房

应急预案

目 录

一、目的 .................................................................... 3 二、基本原则 ................................................................ 3 三、适用范围 ................................................................ 3 四、应急事件级别定义 ......................................................... 4 五、组织机构及职责 ........................................................... 5 5.1 应急领导小组组织机构..................................................... 5 5.2 应急领导小组职责 ........................................................ 5 5.3应急小组成员职责 ......................................................... 5 六、应急响应机制............................................................. 6 6.1基本处理流程 ............................................................. 6 七、应急方案 ................................................................ 7 7.1互联网中断应急预案(暂定为二级事件) ..................................... 7 7.2 运维中心ITM监控软件应急预案(暂定为二级事件)........................... 7 7.2.1运维中心ITM监控软件部署情况 ......................................... 7 7.2.2数据库操作部分 ....................................................... 8 7.2.3 ITM操作部分 ......................................................... 8 7.2.4 ITSM操作部分 ........................................................ 9 7.3 运维中心托管应用应急预案(暂定为三级事件).............................. 11 7.4 TSM异地备份应急预案(暂定为二级事件) ................................... 11 7.5 运维中心市电中断应急预案(暂定为二级事件).............................. 12 7.5.1 运维机房操作流程 .................................................... 12 7.5.2 柴油发电机房操作流程 ................................................ 13 7.6发电机故障应急预案(暂定为二级事件) .................................... 15

一、目的

为科学应对网络与信息安全突发事件,提高我省电子政务运维服务中心应对突发应急事件的处理能力,确保信息系统安全运行,维护网络和系统正常运行,降低信息安全事件对运维机房所造成的损失和影响,编制本预案。 二、基本原则

(1)居安思危,预防为主。实行突发事件统一管理、统一指挥、各级负责的原则;

(2)统一领导,分级负责,全面规划、及时发现、快速反应、措施果断的原则。依据《***电子政务统一平台故障等级划分》对突发事件进行分级管理,并按照事件级别迅速上报相关领导和责任人。

(3)制度规范,加强管理。严格按照《***电子政务网运行维护规范》、《***电子政务中心机房维护作业规范》事件处理流程规范操作,使突发应急的工作规范事件化、制度化。

(4)快速反应,协同应对。当突发事件发生时,各级要立即按应急预案,投入应急工作;加强各个部门配合协作。形成统一指挥、反应灵敏、功能齐全、协调有序、运转高效的应急管理机制。

(5)主动报告原则:当突发事件发生后,要及时报告应急预案实施情况。 三、适用范围

● 运维中心互联网中断应急预案 ● 运维中心运维监控软件应急预案

● 运维中心托管系统应急预案 ● 运维中心异地备份应急预案 ● 运维中心市电中断应急预案 ● 运维中心发电机故障后应急预案 四、应急事件级别定义

根据网络与信息安全突发公共事件的可控性、严重程度和影响范围,一般分为四级:I级(特别重大)、II级(重大)、III级(较大)、IV级(一般)。国家有关法律法规有明确规定的,按国家有关规定执行。

(1)I级(特别重大):重要网络与信息安全系统发生全市性大规模瘫痪,事态发展超出相关主管部门的控制能力,对国家安全、社会秩序、经济建设和公共利益造成特别严重损害的突发公共事件。

(2)II级(重大):重要网络与信息安全系统造成全市性瘫痪,对国家安全、社会秩序、经济建设和公共利益造成严重损害,需要跨部门、跨地区协同处置的突发公共事件。

(3)III级(较大):某一区域的重要网络与信息安全系统瘫痪,对国家安全、社会秩序、经济建设和公共利益造成一定损害,但不需要跨部门、跨地区协同处置的突发公共事件。

(4)IV级(一般):重要的网络与信息安全系统受到一定程度的损坏,对公民、法人和其他组织的权益有一定影响,但不危害国家安全、社会秩序、经济建设和公共利益的突发公共事件。

五、组织机构及职责 5.1 应急领导小组组织机构 组 长: 副组长: 成 员:

5.2 应急领导小组职责

(1)负责编制、修订所辖范围内突发应急事件的《应急预案》。

(2)负责协调和督促整个应急事件的处理过程。有针对性地组织专业技术人员对应急突发事件进行增援处理;必要时去现场督促,对于超出界定的突发事件,尽快提出紧急补救措施进行恢复。

(3)应急事件处理结束后,协调解决故障现场的恢复生产工作。 (4)定期或不定期地对应急小组成员进行技能培训和应急演练。 5.3应急小组成员职责

(1)值班人员平时应做好应急事件的监控、预警工作,当应急事件发生后,迅速生产事件上报相关领导,并进行先期处置,如有必要通知二、三线工程师。 (2)二线、三线工程师在接到应急信息后,应积极配合值班人员进行先期处置,迅速赶往故障现场提供技术援助。

(3)对于在应急故障处理期间发生的新问题、新情况,应认真登记,及时上报。对于超出《应急预案》界定的应急事件,应及时汇报应急领导小组,争取尽早提出补救措施进行恢复。

六、应急响应机制 6.1基本处理流程

(1)值班人员平时应做好应急事件的监控工作,对于突发事件应认真分析、准确判定故障发生的数据域,负责跟踪该事件直至其结束。对于不在运维中心的故障,应在第一时间内通知负责人去现场处理,密切关注事件流程及进展情况,并做好登记工作上报领导。

(2)正常情况下,要求值班人员在10分钟内进行事件确认。如果属于一般事件则按照事件流程进行分派处理,否则应迅速启动《应急预案》,并严格按照《应急预案》所规定的步骤快速实施应急处置,及时汇报上级领导,掌握实时处理情况。

(3)在处理过程中,如需其他部门去现场增援处理,应及时向上级领导部门汇报,协调沟通,尽快联系技术工程师或厂家技术支持赶赴现场援助处理。

七、应急方案

7.1互联网中断应急预案(暂定为二级事件)

(1)密切关注,积极与其他机房值班人员取得联系,准确判断故障位置、数据域。如故障区域属于运维中心范围之内,应立即启动应急预案上报相关领导,同时通知其他机房值班人员加紧监控力度。

(2)检查网络硬件设备运行状态,如发现指示灯有异常告警,及时与对端进行确认。必要时联系市广电工程师检查物理链路,如情况属实,尽快督促广电工程师去现场进行抢修,并上报相关领导。

(3)如发现故障属硬件原因所致,尽快启用备份设备或备用端口,争取将损失减少至最低水平,及时汇报领导,协调更换或维修。

(4)登录核心交换机检查配置信息及其运行情况,如果发现配置信息有被篡改的情况,尽快启用备份数据进行恢复。

(5)坚持由简到繁,由大到小的原则逐步缩小故障范围,最后定位故障点。如果发现网络内部存在严重病毒感染或网络攻击,果断断网,尽快通知相关责任人查杀病毒,并告知技术支持寻求补救措施。

7.2 运维中心ITM监控软件应急预案(暂定为二级事件) 7.2.1运维中心ITM监控软件部署情况

7.2.2数据库操作部分

应用系统要运行,首先应保证数据库能正常工作。如有故障,可以利用vnc远程登录,然后在桌面打开一个命令行终端,输入如下命令: cd /opt/oracle/product/OraHome/bin //进入工作目录 ps –ef|grep ora //查看服务进程

如果输出结果与下图类似,则说明oracle数据库正在运行。否则说明数据库有异常,需要手动重启。

kill -9 **** //杀死相关进程 su – oracle //切换用户

dbstart $ORACLE_HOME //启动数据库服务进程 7.2.3 ITM操作部分

在确保数据库正常运行后,才能依次在每台监控服务器上启动ITM服务进程,具体命令如下:

cd /var/ITManager/bin //进入工作目录 ps –ef|grep ITM //查看服务进程

如果有ITMserver进程,则说明ITM服务正在运行。否则,应手动重启。

nohup ./ITMnurse & //启动ITM服务进程

注意:在重新启动ITMnurse服务前,一定要将以前的相关进程全部杀死,否则它将去自动调用ITM服务,导致启动失败。整个启动过程较慢,大约需要8至10分钟,可以在监控区网管机上通过vnc远程进行操作。

目前,各ITM应用的syslo信息也存放于本地物理磁盘,所以当应用启动后,还应检查syslog运行情况,具体命令如下:

ps –ef|grep syslog //查看服务syslog进程 cd /var/ITManager/syslogcollector //进入工作目录 nohup ./syslogrun.sh & //启动syslog服务进程 ps –ef|grep syslog //核查服务syslog进程 kill -9 XXXX //杀死相关进程 dbshut //停掉数据库进程 Poweroff //关闭服务器 7.2.4 ITSM操作部分

ITSM数据库和应用均部署在*.15.36.24服务器上,可以通过vnc或远程桌面进行登录,进入到服务管理界面,查看ITSMServer、ITSMProxy、itsmdb、ITSMSms及Apache Tomcat cas进程是否正常启动,如异常则应手动进行重启,并作记录。具体情况如下图所示:

7.3 运维中心托管应用应急预案(暂定为三级事件)

(1)检查网络连接、配置是否正常;

(2)利用vnc或远程桌面登录服务器,检查本地服务进程是否正常,如有问题,手动重启相应服务,并做好记录;

(3)检查服务器是否感染病毒,查杀病毒。如发现系统正在遭受网络攻击或被黑客控制,果断断网,并上报托管部门相应领导,以便尽早处理;

(4)积极联系托管单位来机房检查、确认,利用备份数据进行恢复。

7.4 tsm异地备份应急预案(暂定为二级事件)

(1)一般的tsm故障均可以通过系统重启进行恢复。但重启之前必须先检查最近tsm备份情况,系统重新之后应确保带库已正确被挂载,以便能正常备份。

(2)TSM存储备份关机顺序,必须严格按照主机—虚拟带库—扩展柜进行,可通过KVM登录,按“ctrl键”进行选择。但需要注意:每台设备应间隔3-5分钟再关机。

(3)TSM存储备份开机顺序,必须严格按照扩展柜—虚拟带库—主机进行,每台设备应相隔3-分钟再开机。等主机顺利启动后,需要立即检查带库挂载情况,如有异常,应立即重启。

(4)如发现系统正在遭受网络攻击或被黑客控制,应果断断网,查杀病毒并尽快上报领导,以便查明原因。

(5)系统恢复后,应及时检查最近备份数据,并及时通知相关负责人来机房验证备份数据的完整性及其可恢复性。

7.5 运维中心市电中断应急预案(暂定为二级事件)

运维机房市电中断后,应立即电话联系大楼物业(物业值班室电话:88312910转25,82300966),询问停电原因并估计恢复时间,并上报主管部门领导。如若停电时间超过20分钟必须做发电前准备工作,并启动应急预案,具体操作分两部分进行。

7.5.1 运维机房操作流程

7.5.1.1发电前准备工作

(1)关闭市电配电柜内热水器、主任办公室、运维一、运维二、运维三、机房空调、监控区空调,电视墙等大功耗用电设备开关;

(2)确认市电配电柜内钥匙开关是否已置于自动档,如不符,将钥匙开关置于自动挡;

(3)电话联系发电人员,告知机房内发电准备工作已经就绪,等待发电机送电;

7.5.1.2发电机正常供电后

(1)电话联系发电机房人员,确认机房准备一切就绪,可以送电;

(2)等待发电机供电稳定后,将市电配电柜内钥匙开关置于手动档;

(3)检查配电柜面板电压表三相电压是否均在400伏特左右;

(4)检查配电柜面板三个电流表指示针是否均在40安培以下;

(5)检查UPS控制面板是否能正常供电(此时显示“旁路供电” ),确认输入电源频率在50赫兹左右;

注意:在发电机供电时,操作人员不得远离机房,并随时注意市电配电柜及UPS主机表值的变化和告警!

7.5.1.3 市电恢复后

(1)市电恢复大约5-10分钟后,与物业电话联系确认市电供电已经稳定;

(2)电话联系发电人员,告知发电机可以停止供电;

(3)当发电机停止供电后,将市电配电柜内钥匙开关置于自动档(此时市电已开始供电);

(4)检查配电柜面板电压表三相电压是否均在400伏特左右;

(5)检查配电柜面板三个电流表指示针是否均在40安培以下;

(6)检查UPS控制面板是否能正常供电,确认输入电源频率在50赫兹左右;

(7)确认设备工作正常后,将市电配电柜内钥匙开关置于手动档;

(8)检查各办公室设备情况并通知准备供电,保障各位办公室人员人身安全及设备安全;

(9)依次复位市电配电柜内热水器、主任办公室、运维一、运维二、运维三、机房空调、监控区空调、电视墙等电器开关。

注意事项:每个开关复位时应间隔5-10秒,以免引起浪涌现象损坏配电及用电设备。

7.5.2 柴油发电机房操作流程

7.5.2.1启动柴油发电机前的检查及准备工作

(1)检查机油、冷却液液面,是否在规定的范围内;

(2)检查柴油供油管是否已经放入油箱并尽可能插入油箱底部;

(3)检查供油系统是否正常;

(4)检查电瓶电缆连接是否牢靠;

(5)检查发电机配电箱的送电开关是否置于“分”状态;

7.5.2.2 启动柴油发电机

(1)插入启动钥匙将启动开关向右旋转置于打开位置;

(2)按下启动按钮,同时小幅度摆动(左右摆动)油门手柄,待发动机启动后立即松开启动按钮(注意:每次启动时间不要超过5秒,启动间隔不要少于10秒);

(3)将油门手柄调置较小的位置(发动机匀速转动即可),保持发动机匀速运转5-10分钟,待发动机转速正常后才可调整油门手柄;

(4)将油门手柄慢慢向右调整,并注意频率表(指针最高指向50赫兹);

(5)随着油门手柄的逐渐开启,频率表指针指向50赫兹时,稳住油门手柄并将油门手柄固定手轮向右旋转固定牢靠;

7.5.2.3 柴油发电机向运维机房供电

(1)联系机房值班当班人员,确认市电配电柜钥匙开关已经置于自动状态;

(2)询问机房工作人员是否可以拉闸送电;

(3)待机房工作人员确认可以送电时,将发电机控制箱的送电开关向上调至“合”状态,此时已将电送至机房;

(4)注意发电机配电箱的电流表、频率表的变化,随时调整油门手柄,使频率表指针固定在50赫兹(刚刚加入负载时,频率值会变小,应及时调整油门手柄提高频率至50赫兹);

(5)随时注意燃料液面,及时补充发电机所需燃料(如果在更换燃料时,发电机熄火,应立即通知机房工作人员)。

7.5.2.4 正常发电期间

注意:在发电机运转时,操作人员不得远离发电机,并随时注意发电机表值的变化!

(1)发电机控制箱部分:

a、注意频率表数值的变化(应控制在50赫兹);

b、注意电流表数值的变化(每块电流表不得超过40安培);

c、注意电压表数值的变化(每项电压不得高于430伏特);

d、用手触摸发电机机壳检查表面温度是否正常;

(2)柴油机控制箱部分:

a、注意水温表的变化(表针应指在绿格部分);

b、注意油温表的变化(表针应指在绿格部分);

c、注意油压表的变化(表针应指在绿格部分);

d、注意电流表的变化(表针应指向“+”方向);

7.5.2.5 柴油发电机停机

(1)联系机房工作人员,确认发电机断供准备工作是否就绪;

(2)待机房工作人员确认可以断电后,将发电机控制箱的送电开关向下调至“分”状态,并立即将油门手柄向左调整到较小状态;

(3)通知机房工作人员已将发电机供电开关断开;

(4)保持发动机低转速运转3-5分钟后,将熄火开关拉置熄火位置(向右拉),直至发动机完全停止转动;

(5)将启动开关旋转至中间档位,拔出钥匙即完成熄火;

(6)将柴油输油管从油箱中取出,并固定在较高位置(防止油管中的柴油外漏);

(7)盖好油箱,并填写发电机操作、运转登记表。

7.6发电机故障应急预案(暂定为二级事件)

特殊情况下,市电中断后,启动发电机发电时,发电机有故障,不能正常发电,值班人员应及时联系确认,尽快上报领导,寻找其他解决方案。必要时关闭运维中心机房内非关键业务,以保证呼叫中心及ITM系统能正常使用。

(1)监控区的网管机内、外网各留一台,其余的均可以关闭。

(2)按照主机—虚拟带库—扩展柜顺序,关闭TSM备份服务器,H3C存储参照TSM执行。

(3)在监控区通过网管机或VNC关闭省政府动力环境监控、省政府视频监控、省委动力环境监控、政协视频监控以及运维中心视频监控等。

(4)4列5柜内所有服务器均属测试组维护,负责人为相红利,除11/235需要

登录系统正常关机外,其他的均可以直接关机;

(a)192.168.7.235(用户名/密码:administrator/zhaoyikui); (b)192.168.7.11 (用户名/密码:administrator/testsvn);

(5)4列

4柜的CVS服务器、陕投门户测试服务器均可直接关闭;公司邮件、门户及病毒服务器,关闭之前应与李宗斌进行确认。

(6)小机的关机步骤:

a、HMC的操作

运维机房两台IBMP55A无显示输出设备,须受控于HMC进行管理,HMC加电后自动引导系统至登陆界面,使用HMC默认管理口令进行登陆,管理用户:hscroot 口令:abc123,登陆后点击左侧控制列表中的 “服务器管理(M)”项既可查看到该HMC所管理的P系列小型机,在运维机房环境中,该HMC管理了两台P55A型小型机,若某台小型机连接状态提示No Connect,则检查HMC服务器网口到交换机,以及P55A后端HMC口到交换机的网络链路是否正常。

注:运维机房HMC为英文环境,请如图对照进行操作

b、IBM小机停机步骤

运维机房的两台P55A均进行了分区,在停止P55A时,请先关闭各个分区,途中的all分区为全分区,为管理所用,不用进行操作,操作仅对各P55A的lpar1以及lpar2进行,选中分区后在右键功能菜单中选择关闭分区即可,待分区状态为未激活时,可表明分区已被关闭,依次对4个分区进行同样操作。

当所有分区关闭完成后,对这两台P55A进行Poweroff操作,如下图所示:

再弹出的对话框中选择正常关闭

待受管机器状态为Poweroff时候,说明该主机已断电,机器正常关闭。

(7)关闭UPS配电柜内暂时不使用的空开开关。

(8)当UPS电磁容量降至50%时,若市电仍无准确的恢复时间,此时就须将ITM系统关闭,以保证呼叫中心的电话畅通和ITSM正常运行。

(9)当UPS电磁容量降至20%时,若市电仍无准确的恢复时间,此时应暂时关闭呼叫中心主机,关闭机房内所以空开开关。同时将客服电话与所有外线电话线直接相连,密切留意呼叫电话及市电供应情况。

***电子政务运维服务中心机房

应急预案

目 录

一、目的 .................................................................... 3 二、基本原则 ................................................................ 3 三、适用范围 ................................................................ 3 四、应急事件级别定义 ......................................................... 4 五、组织机构及职责 ........................................................... 5 5.1 应急领导小组组织机构..................................................... 5 5.2 应急领导小组职责 ........................................................ 5 5.3应急小组成员职责 ......................................................... 5 六、应急响应机制............................................................. 6 6.1基本处理流程 ............................................................. 6 七、应急方案 ................................................................ 7 7.1互联网中断应急预案(暂定为二级事件) ..................................... 7 7.2 运维中心ITM监控软件应急预案(暂定为二级事件)........................... 7 7.2.1运维中心ITM监控软件部署情况 ......................................... 7 7.2.2数据库操作部分 ....................................................... 8 7.2.3 ITM操作部分 ......................................................... 8 7.2.4 ITSM操作部分 ........................................................ 9 7.3 运维中心托管应用应急预案(暂定为三级事件).............................. 11 7.4 TSM异地备份应急预案(暂定为二级事件) ................................... 11 7.5 运维中心市电中断应急预案(暂定为二级事件).............................. 12 7.5.1 运维机房操作流程 .................................................... 12 7.5.2 柴油发电机房操作流程 ................................................ 13 7.6发电机故障应急预案(暂定为二级事件) .................................... 15

一、目的

为科学应对网络与信息安全突发事件,提高我省电子政务运维服务中心应对突发应急事件的处理能力,确保信息系统安全运行,维护网络和系统正常运行,降低信息安全事件对运维机房所造成的损失和影响,编制本预案。 二、基本原则

(1)居安思危,预防为主。实行突发事件统一管理、统一指挥、各级负责的原则;

(2)统一领导,分级负责,全面规划、及时发现、快速反应、措施果断的原则。依据《***电子政务统一平台故障等级划分》对突发事件进行分级管理,并按照事件级别迅速上报相关领导和责任人。

(3)制度规范,加强管理。严格按照《***电子政务网运行维护规范》、《***电子政务中心机房维护作业规范》事件处理流程规范操作,使突发应急的工作规范事件化、制度化。

(4)快速反应,协同应对。当突发事件发生时,各级要立即按应急预案,投入应急工作;加强各个部门配合协作。形成统一指挥、反应灵敏、功能齐全、协调有序、运转高效的应急管理机制。

(5)主动报告原则:当突发事件发生后,要及时报告应急预案实施情况。 三、适用范围

● 运维中心互联网中断应急预案 ● 运维中心运维监控软件应急预案

● 运维中心托管系统应急预案 ● 运维中心异地备份应急预案 ● 运维中心市电中断应急预案 ● 运维中心发电机故障后应急预案 四、应急事件级别定义

根据网络与信息安全突发公共事件的可控性、严重程度和影响范围,一般分为四级:I级(特别重大)、II级(重大)、III级(较大)、IV级(一般)。国家有关法律法规有明确规定的,按国家有关规定执行。

(1)I级(特别重大):重要网络与信息安全系统发生全市性大规模瘫痪,事态发展超出相关主管部门的控制能力,对国家安全、社会秩序、经济建设和公共利益造成特别严重损害的突发公共事件。

(2)II级(重大):重要网络与信息安全系统造成全市性瘫痪,对国家安全、社会秩序、经济建设和公共利益造成严重损害,需要跨部门、跨地区协同处置的突发公共事件。

(3)III级(较大):某一区域的重要网络与信息安全系统瘫痪,对国家安全、社会秩序、经济建设和公共利益造成一定损害,但不需要跨部门、跨地区协同处置的突发公共事件。

(4)IV级(一般):重要的网络与信息安全系统受到一定程度的损坏,对公民、法人和其他组织的权益有一定影响,但不危害国家安全、社会秩序、经济建设和公共利益的突发公共事件。

五、组织机构及职责 5.1 应急领导小组组织机构 组 长: 副组长: 成 员:

5.2 应急领导小组职责

(1)负责编制、修订所辖范围内突发应急事件的《应急预案》。

(2)负责协调和督促整个应急事件的处理过程。有针对性地组织专业技术人员对应急突发事件进行增援处理;必要时去现场督促,对于超出界定的突发事件,尽快提出紧急补救措施进行恢复。

(3)应急事件处理结束后,协调解决故障现场的恢复生产工作。 (4)定期或不定期地对应急小组成员进行技能培训和应急演练。 5.3应急小组成员职责

(1)值班人员平时应做好应急事件的监控、预警工作,当应急事件发生后,迅速生产事件上报相关领导,并进行先期处置,如有必要通知二、三线工程师。 (2)二线、三线工程师在接到应急信息后,应积极配合值班人员进行先期处置,迅速赶往故障现场提供技术援助。

(3)对于在应急故障处理期间发生的新问题、新情况,应认真登记,及时上报。对于超出《应急预案》界定的应急事件,应及时汇报应急领导小组,争取尽早提出补救措施进行恢复。

六、应急响应机制 6.1基本处理流程

(1)值班人员平时应做好应急事件的监控工作,对于突发事件应认真分析、准确判定故障发生的数据域,负责跟踪该事件直至其结束。对于不在运维中心的故障,应在第一时间内通知负责人去现场处理,密切关注事件流程及进展情况,并做好登记工作上报领导。

(2)正常情况下,要求值班人员在10分钟内进行事件确认。如果属于一般事件则按照事件流程进行分派处理,否则应迅速启动《应急预案》,并严格按照《应急预案》所规定的步骤快速实施应急处置,及时汇报上级领导,掌握实时处理情况。

(3)在处理过程中,如需其他部门去现场增援处理,应及时向上级领导部门汇报,协调沟通,尽快联系技术工程师或厂家技术支持赶赴现场援助处理。

七、应急方案

7.1互联网中断应急预案(暂定为二级事件)

(1)密切关注,积极与其他机房值班人员取得联系,准确判断故障位置、数据域。如故障区域属于运维中心范围之内,应立即启动应急预案上报相关领导,同时通知其他机房值班人员加紧监控力度。

(2)检查网络硬件设备运行状态,如发现指示灯有异常告警,及时与对端进行确认。必要时联系市广电工程师检查物理链路,如情况属实,尽快督促广电工程师去现场进行抢修,并上报相关领导。

(3)如发现故障属硬件原因所致,尽快启用备份设备或备用端口,争取将损失减少至最低水平,及时汇报领导,协调更换或维修。

(4)登录核心交换机检查配置信息及其运行情况,如果发现配置信息有被篡改的情况,尽快启用备份数据进行恢复。

(5)坚持由简到繁,由大到小的原则逐步缩小故障范围,最后定位故障点。如果发现网络内部存在严重病毒感染或网络攻击,果断断网,尽快通知相关责任人查杀病毒,并告知技术支持寻求补救措施。

7.2 运维中心ITM监控软件应急预案(暂定为二级事件) 7.2.1运维中心ITM监控软件部署情况

7.2.2数据库操作部分

应用系统要运行,首先应保证数据库能正常工作。如有故障,可以利用vnc远程登录,然后在桌面打开一个命令行终端,输入如下命令: cd /opt/oracle/product/OraHome/bin //进入工作目录 ps –ef|grep ora //查看服务进程

如果输出结果与下图类似,则说明oracle数据库正在运行。否则说明数据库有异常,需要手动重启。

kill -9 **** //杀死相关进程 su – oracle //切换用户

dbstart $ORACLE_HOME //启动数据库服务进程 7.2.3 ITM操作部分

在确保数据库正常运行后,才能依次在每台监控服务器上启动ITM服务进程,具体命令如下:

cd /var/ITManager/bin //进入工作目录 ps –ef|grep ITM //查看服务进程

如果有ITMserver进程,则说明ITM服务正在运行。否则,应手动重启。

nohup ./ITMnurse & //启动ITM服务进程

注意:在重新启动ITMnurse服务前,一定要将以前的相关进程全部杀死,否则它将去自动调用ITM服务,导致启动失败。整个启动过程较慢,大约需要8至10分钟,可以在监控区网管机上通过vnc远程进行操作。

目前,各ITM应用的syslo信息也存放于本地物理磁盘,所以当应用启动后,还应检查syslog运行情况,具体命令如下:

ps –ef|grep syslog //查看服务syslog进程 cd /var/ITManager/syslogcollector //进入工作目录 nohup ./syslogrun.sh & //启动syslog服务进程 ps –ef|grep syslog //核查服务syslog进程 kill -9 XXXX //杀死相关进程 dbshut //停掉数据库进程 Poweroff //关闭服务器 7.2.4 ITSM操作部分

ITSM数据库和应用均部署在*.15.36.24服务器上,可以通过vnc或远程桌面进行登录,进入到服务管理界面,查看ITSMServer、ITSMProxy、itsmdb、ITSMSms及Apache Tomcat cas进程是否正常启动,如异常则应手动进行重启,并作记录。具体情况如下图所示:

7.3 运维中心托管应用应急预案(暂定为三级事件)

(1)检查网络连接、配置是否正常;

(2)利用vnc或远程桌面登录服务器,检查本地服务进程是否正常,如有问题,手动重启相应服务,并做好记录;

(3)检查服务器是否感染病毒,查杀病毒。如发现系统正在遭受网络攻击或被黑客控制,果断断网,并上报托管部门相应领导,以便尽早处理;

(4)积极联系托管单位来机房检查、确认,利用备份数据进行恢复。

7.4 tsm异地备份应急预案(暂定为二级事件)

(1)一般的tsm故障均可以通过系统重启进行恢复。但重启之前必须先检查最近tsm备份情况,系统重新之后应确保带库已正确被挂载,以便能正常备份。

(2)TSM存储备份关机顺序,必须严格按照主机—虚拟带库—扩展柜进行,可通过KVM登录,按“ctrl键”进行选择。但需要注意:每台设备应间隔3-5分钟再关机。

(3)TSM存储备份开机顺序,必须严格按照扩展柜—虚拟带库—主机进行,每台设备应相隔3-分钟再开机。等主机顺利启动后,需要立即检查带库挂载情况,如有异常,应立即重启。

(4)如发现系统正在遭受网络攻击或被黑客控制,应果断断网,查杀病毒并尽快上报领导,以便查明原因。

(5)系统恢复后,应及时检查最近备份数据,并及时通知相关负责人来机房验证备份数据的完整性及其可恢复性。

7.5 运维中心市电中断应急预案(暂定为二级事件)

运维机房市电中断后,应立即电话联系大楼物业(物业值班室电话:88312910转25,82300966),询问停电原因并估计恢复时间,并上报主管部门领导。如若停电时间超过20分钟必须做发电前准备工作,并启动应急预案,具体操作分两部分进行。

7.5.1 运维机房操作流程

7.5.1.1发电前准备工作

(1)关闭市电配电柜内热水器、主任办公室、运维一、运维二、运维三、机房空调、监控区空调,电视墙等大功耗用电设备开关;

(2)确认市电配电柜内钥匙开关是否已置于自动档,如不符,将钥匙开关置于自动挡;

(3)电话联系发电人员,告知机房内发电准备工作已经就绪,等待发电机送电;

7.5.1.2发电机正常供电后

(1)电话联系发电机房人员,确认机房准备一切就绪,可以送电;

(2)等待发电机供电稳定后,将市电配电柜内钥匙开关置于手动档;

(3)检查配电柜面板电压表三相电压是否均在400伏特左右;

(4)检查配电柜面板三个电流表指示针是否均在40安培以下;

(5)检查UPS控制面板是否能正常供电(此时显示“旁路供电” ),确认输入电源频率在50赫兹左右;

注意:在发电机供电时,操作人员不得远离机房,并随时注意市电配电柜及UPS主机表值的变化和告警!

7.5.1.3 市电恢复后

(1)市电恢复大约5-10分钟后,与物业电话联系确认市电供电已经稳定;

(2)电话联系发电人员,告知发电机可以停止供电;

(3)当发电机停止供电后,将市电配电柜内钥匙开关置于自动档(此时市电已开始供电);

(4)检查配电柜面板电压表三相电压是否均在400伏特左右;

(5)检查配电柜面板三个电流表指示针是否均在40安培以下;

(6)检查UPS控制面板是否能正常供电,确认输入电源频率在50赫兹左右;

(7)确认设备工作正常后,将市电配电柜内钥匙开关置于手动档;

(8)检查各办公室设备情况并通知准备供电,保障各位办公室人员人身安全及设备安全;

(9)依次复位市电配电柜内热水器、主任办公室、运维一、运维二、运维三、机房空调、监控区空调、电视墙等电器开关。

注意事项:每个开关复位时应间隔5-10秒,以免引起浪涌现象损坏配电及用电设备。

7.5.2 柴油发电机房操作流程

7.5.2.1启动柴油发电机前的检查及准备工作

(1)检查机油、冷却液液面,是否在规定的范围内;

(2)检查柴油供油管是否已经放入油箱并尽可能插入油箱底部;

(3)检查供油系统是否正常;

(4)检查电瓶电缆连接是否牢靠;

(5)检查发电机配电箱的送电开关是否置于“分”状态;

7.5.2.2 启动柴油发电机

(1)插入启动钥匙将启动开关向右旋转置于打开位置;

(2)按下启动按钮,同时小幅度摆动(左右摆动)油门手柄,待发动机启动后立即松开启动按钮(注意:每次启动时间不要超过5秒,启动间隔不要少于10秒);

(3)将油门手柄调置较小的位置(发动机匀速转动即可),保持发动机匀速运转5-10分钟,待发动机转速正常后才可调整油门手柄;

(4)将油门手柄慢慢向右调整,并注意频率表(指针最高指向50赫兹);

(5)随着油门手柄的逐渐开启,频率表指针指向50赫兹时,稳住油门手柄并将油门手柄固定手轮向右旋转固定牢靠;

7.5.2.3 柴油发电机向运维机房供电

(1)联系机房值班当班人员,确认市电配电柜钥匙开关已经置于自动状态;

(2)询问机房工作人员是否可以拉闸送电;

(3)待机房工作人员确认可以送电时,将发电机控制箱的送电开关向上调至“合”状态,此时已将电送至机房;

(4)注意发电机配电箱的电流表、频率表的变化,随时调整油门手柄,使频率表指针固定在50赫兹(刚刚加入负载时,频率值会变小,应及时调整油门手柄提高频率至50赫兹);

(5)随时注意燃料液面,及时补充发电机所需燃料(如果在更换燃料时,发电机熄火,应立即通知机房工作人员)。

7.5.2.4 正常发电期间

注意:在发电机运转时,操作人员不得远离发电机,并随时注意发电机表值的变化!

(1)发电机控制箱部分:

a、注意频率表数值的变化(应控制在50赫兹);

b、注意电流表数值的变化(每块电流表不得超过40安培);

c、注意电压表数值的变化(每项电压不得高于430伏特);

d、用手触摸发电机机壳检查表面温度是否正常;

(2)柴油机控制箱部分:

a、注意水温表的变化(表针应指在绿格部分);

b、注意油温表的变化(表针应指在绿格部分);

c、注意油压表的变化(表针应指在绿格部分);

d、注意电流表的变化(表针应指向“+”方向);

7.5.2.5 柴油发电机停机

(1)联系机房工作人员,确认发电机断供准备工作是否就绪;

(2)待机房工作人员确认可以断电后,将发电机控制箱的送电开关向下调至“分”状态,并立即将油门手柄向左调整到较小状态;

(3)通知机房工作人员已将发电机供电开关断开;

(4)保持发动机低转速运转3-5分钟后,将熄火开关拉置熄火位置(向右拉),直至发动机完全停止转动;

(5)将启动开关旋转至中间档位,拔出钥匙即完成熄火;

(6)将柴油输油管从油箱中取出,并固定在较高位置(防止油管中的柴油外漏);

(7)盖好油箱,并填写发电机操作、运转登记表。

7.6发电机故障应急预案(暂定为二级事件)

特殊情况下,市电中断后,启动发电机发电时,发电机有故障,不能正常发电,值班人员应及时联系确认,尽快上报领导,寻找其他解决方案。必要时关闭运维中心机房内非关键业务,以保证呼叫中心及ITM系统能正常使用。

(1)监控区的网管机内、外网各留一台,其余的均可以关闭。

(2)按照主机—虚拟带库—扩展柜顺序,关闭TSM备份服务器,H3C存储参照TSM执行。

(3)在监控区通过网管机或VNC关闭省政府动力环境监控、省政府视频监控、省委动力环境监控、政协视频监控以及运维中心视频监控等。

(4)4列5柜内所有服务器均属测试组维护,负责人为相红利,除11/235需要

登录系统正常关机外,其他的均可以直接关机;

(a)192.168.7.235(用户名/密码:administrator/zhaoyikui); (b)192.168.7.11 (用户名/密码:administrator/testsvn);

(5)4列

4柜的CVS服务器、陕投门户测试服务器均可直接关闭;公司邮件、门户及病毒服务器,关闭之前应与李宗斌进行确认。

(6)小机的关机步骤:

a、HMC的操作

运维机房两台IBMP55A无显示输出设备,须受控于HMC进行管理,HMC加电后自动引导系统至登陆界面,使用HMC默认管理口令进行登陆,管理用户:hscroot 口令:abc123,登陆后点击左侧控制列表中的 “服务器管理(M)”项既可查看到该HMC所管理的P系列小型机,在运维机房环境中,该HMC管理了两台P55A型小型机,若某台小型机连接状态提示No Connect,则检查HMC服务器网口到交换机,以及P55A后端HMC口到交换机的网络链路是否正常。

注:运维机房HMC为英文环境,请如图对照进行操作

b、IBM小机停机步骤

运维机房的两台P55A均进行了分区,在停止P55A时,请先关闭各个分区,途中的all分区为全分区,为管理所用,不用进行操作,操作仅对各P55A的lpar1以及lpar2进行,选中分区后在右键功能菜单中选择关闭分区即可,待分区状态为未激活时,可表明分区已被关闭,依次对4个分区进行同样操作。

当所有分区关闭完成后,对这两台P55A进行Poweroff操作,如下图所示:

再弹出的对话框中选择正常关闭

待受管机器状态为Poweroff时候,说明该主机已断电,机器正常关闭。

(7)关闭UPS配电柜内暂时不使用的空开开关。

(8)当UPS电磁容量降至50%时,若市电仍无准确的恢复时间,此时就须将ITM系统关闭,以保证呼叫中心的电话畅通和ITSM正常运行。

(9)当UPS电磁容量降至20%时,若市电仍无准确的恢复时间,此时应暂时关闭呼叫中心主机,关闭机房内所以空开开关。同时将客服电话与所有外线电话线直接相连,密切留意呼叫电话及市电供应情况。


相关内容

  • 信息系统工作小结
  • 期间信息系统安全应急保障能力,积极主动应对可能发生的突发事件,我关以《成都海关信息系统安全应急预案》为蓝本,制定了《成都海关亚运安保应急演练计划》,演练计划分别模拟了网络中断、电子口岸预录入系统运行异常、总关计算机网络机房临时停电和红机网无法访问网站等4个故障来开展应急演练工作,现将此次演练工作情况 ...

  • 机房应急预案(内部)
  • 机房应急处置方案 第一节 总 则 1.保证人员和财产的安全为前提的原则:在由于火灾或电力问题造成的主机故障,在解决故障前,应以保证人员的生命安全和财产的安全为前提,然后进行故障的解决. 2.最快时间恢复业务的原则:本着先想尽一切方法,尽快恢复业务的原则来处理故障,如在有备用设备的情况下,主设备产生了 ...

  • 信息系统(系统瘫痪)应急预案
  • 系统运行的(系统瘫痪)相应的应急预案 为维护医院信息系统的正常运行,保证市民的正常就医,最大限度地降低信息系统故障给医院工作和市民就医所造成的影响,特制定我院的"信息系统相应的应急预案". 一."信息系统应急预案"领导小组 组 长:张红军 副组长:黄克俭 成 ...

  • 辐射安全与防护状况2016年度评估报告
  • 章丘区中医医院2016年度辐射安全与 防护状况年度评估报告 (报告编写单位名称并盖章) 二O 一六 年 十二 月 目 录 一.医院基本情况····································1 二.放射性同位素与射线装置台帐······················ 三.辐射环 ...

  • 信息中心机房应急预案
  • 信息中心机房应急预案 前 言 为了切实做好公司信息中心机房突发事件的防范和应急处理工作,进一步提高预防和控制机房突发事件的能力和水平,减轻或消除突发事件的危害和影响,确保公司各应用系统和网络的正常运行,结合实际工作,特制定本预案. 本预案由信息中心提出.编制.修订.归口并解释本预案主要起草人: 本预 ...

  • 运维系统及中心机房应急预案
  • 运维小组应急预案 随着网络信息化建设的不断深入,加强机房各类设备.系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务.为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照"预防为主,积极处置"的原则,本着建立一个有效处置突发事件,建立统一指挥.职责 ...

  • 银行信息安全管理办法
  • XX银行 信息安全管理办法 第一章 总 则 第一条 为加强XX银行 (下称 "本行" )信息安全管理,防范信息技术风险,保障本行计算机网络与信息系统安全和稳定运行, 根据 <中华人民共和国计算机信息系统安全保护条例> . <金融机构计算机信息系统安全保护工作暂行 ...

  • 银行卡部个人工作总结
  • 不知不觉一年的工作就这样结束了,我们在银行卡部的工作也即将完成,在这个时候我们需要写一写工作总结来分析我们一年的工作情况.下面是小编搜集整理的银行卡部个人工作总结,欢迎阅读.更多资讯请继续关注个人工作总结栏目! 银行卡部个人工作总结 回顾这一年半来自己的工作和学习生涯,有喜有忧,有坎坷,也有收获,取 ...

  • 村镇银行信息科技风险管理办法
  • 村镇银行信息科技风险管理办法 (征求意见稿) 第一章 总 则 第一条 为加强村镇银行信息科技风险管理, 确保科技体系 持续稳定运转,根据<商业银行信息科技风险管理指引>等有关 法律.法规,制定本办法. 第二条 信息科技风险管理是通过建立有效机制, 实现对银 行信息系统风险的识别.计量.评 ...