岗位职责 实施方案 自查报告 整改措施 先进事迹材料 应急预案 工作计划 调研报告 调查报告 工作汇报 其他范文
首页 > 其他范文 > 应急预案

机房断电应急预案

作者:kc261103时间:2020-10-11 下载本文

第1篇:机房断电应急措施

机房断电应急方案

第一条:机房意外停电后,首先确定停电的范围以及受影响的设备范围。

第二条:确认停电的范围为本公司或本机房,应立即联系工机科电话汇报。估算电力可能恢复的时间,并通知直接上级。

第三条:如果确认停电的时间在1个小时内,可以在UPS正常供电的时间内,等到电力恢复。如果不能确认在2个小时内恢复供电,需及时到达现场。做好各设备的电源停电准备。在UPS供电达1.5个小时后,严格按操作手册停掉存储和各应用服务器的电源,最后停核心交换机和路由期。等待电力恢复,电力恢复供电后转第七条执行。如果确认停电的范围仅在于本机房电源故障,立即汇报给机房电源维护负责人。

第四条:机房维护负责人将掉电的电源柜总空开和分空开的状态处于下电状态。并向直接领导汇报,马上联系相关厂家,如有可能请厂家立即到现场支持。第五条:将掉电的所有的设备电源状态处于下电状态,以防止电源柜加电对设备的冲击。

第六条:等各厂家和相关的人员到齐后,商议设备恢复时因注意的事项,并形成相关文档。

第七条:电力室恢复供电后,先不要急于给电源柜加电,等待10—20 分钟后,再开始给电源柜加电,以防止供电不稳或再次掉电。

第八条:供电正常后,确定设备处于下电状态后,打开电力柜的总控开。第九条:根据设备加电顺序,启动分项空开。第十条:设备加电顺序,网络交换类设备正常后再给磁盘阵列柜加电,存储状态检查正常后,启动主机(以上各设备务必按操作手册的启动顺序上电)。第十一条:设备启动正常后,开始启动数据库。第十二条:数据库启动正常后,开始启动中间件服务器。第十三条:中间件服务器正常后,启动应用程序。

第十四条:机房设备进行全面点检,确认所有设备运行和服务正常。

第2篇:机房火灾、断电等突发事件应急预案

机房火灾、断电等突发事

件应急预案

计算机机房作为所有业务、应用系统的核心,一旦计算机机房发生突发事件,将对单位的数据等造成严重损失。为此,特制订机房突发事件应急预案。

一、机房突发事件定义

机房突发事件是指由特殊原因引发威胁机房安全并且不能通过日常维护手段解决的事件。比如,火灾、漏电、断电等非人为或者人为的事件,重大突发事件发生后,应立即组织现场救护或临时处置,控制事态发展,最大限度地减少损失和影响。

二、机构和职责

机房突发事件应急小组单位领导:

机房突发事件应急小组部门领导:

机房突发事件应急小组成员:

各责任人职责:

应急小组单位领导:负责单位层面及范围内的决策与领导。

应急小组部门领导:负责部门层面及范围内的决策与领导并组织实施突发事件预案。

应急小组成员:按岗位职责分工,听从指挥,服从安排全力以赴解决突发事件。

三、突发事件报警

应区分原因在第一时间报警。

自然灾害(火灾),拨打火警电话:119 人为事件(非法盗取、攻击等)拨打匪警电话:110 人员伤亡,拨打急救电话:120 其他时间(断电等),拨打值班电话:

四、突发事件处理

突发事件发生后,应立即启动应急预案。1、失火、漏水:

视事件的紧急程度,应急小组成员要在领导的指挥下,有组织、有顺序的备份数据、关闭服务器的电源;组织人力转移设备。如果自动设备未能正常启动,应在组长安排下首先切断机房的水、电路,组织人力采用灭火器等灭火设备人工灭火,同时要在第一时间报警。2、断电:

在城电断电的情况下,机房的备用电力将发挥作用,电力供应最长可持续4小时。由于机房空调没有备用电力,如确认是供电局断电,应立即联系发电机发电;如果不是供电局断电,而是由于办公楼电力线路故障引起的断电,应立即通知电工查找原因,尽快排出故障。如果无法尽快恢复供电,在电力延续期间,应尽快结束未执行完毕的任务,如无法完成需及时备份数据,同时应关闭所有非必须服务器,尽量不让机房温度过高,保证网络设备的正常运行,以便保障集中在单位的应用系统能正常使用。

五、恢复生产

突发事件结束后,有关人员应首先对现场进行清理,汇总损失情况并上报各级领导。紧急召开专项会议分析损失情况,制定数据恢复计划。设备损失的要及时更换设备,保证恢复计划的顺利进行。

恢复生产后,系统管理员应对各系统进行自查,上报书面报告,并由部门领导汇总后上报单位领导。

机房管理员在恢复生产后要及时检查各项维持系统,如UPS、灭火器、漏水、漏电探测器等是否正常运行,应及时更换受损的元器件,补充灭火器的填充物。

第3篇:断水断电应急预案

沙沟中学实施营养午餐突发断水断电等意外事故处理应急预案水、电是实施营养午餐改善计划学校食堂正常供餐必备的最基本的条件,是食品安全工作的重要组成部分,也是保障师生正常生活的重要基础。断水断电等意外事故在学校时有发生,为进一步加强学校食堂水、电等设施的管理,保障学校断水断电等意外事故发生时能正常为学生提供图纸等的营养午餐,维护学校正常的教育教学秩序,特制定本预案

一、组织机构

(一)成立学校突发断水断电等意外事故应急成立领导小组。 组长:王鹏程

副组长:马紅治

马志锐

组员:马强

吕宗仁

王继祖

陆岩

马万喜

各班主任

指挥部的工作职责是:

(1)启动学校断水断电等意外事故处理应急预案。(2)领导、组织、协调事故应急处理工作。(3)负责事故处理事项的决策。(4)负责上报与事故相关的重要信息。(5)审批学校应急处理工作报告。二、常规管理

(一)、学校组织相关人员定期和吧不定期深入学校对学校可能断水断电等意外事件的隐患,即使做查漏补缺,做到早发现、早报告、早治理,不能因为人为因素断水断电而停止正常营养午餐。

(二)、学校要与当地政府、水保站、农电站等相关部门保持联系,协调学校的用水和用电工作。

(三)、用水紧张或缺水学校,要想办法做好学校用水的储蓄工作,并邀请相关部门对学校用水质量检测,确保水质量好,无安全隐患。

(四)、做好学校食堂用电设施的改造工程,指定专人经常对学校食堂用电设施进行检修,维护。(五)、对却因客观原因二造成的断水断电等意外事故时应立即启动该预案。

三、建立报告机制

1、对学校发生临时断水断电等意外事故是学校不能对学生实施午餐时,学校从业人员向管理人员报告,管理人员向校长报告,校长协调有关人员检查检修,对于用电设施必须有专业人员进行检修,确保短时间内供水供电。

2、对学校发生长时断水断电等意外事故时,学校从业人员向管理人员报告,有管理人员检查检修,同时上报县意外事故应急处理协调领导小组。

四、事件处理

1、各级领导小组负责人接到报告后,及时组织相关人员赶赴学校开展事故处理工作

2、学校应及时对学生做好解释说明工作,同时采取科学合理的办法通过各种途径解决学生营养午餐

3、学校迅速与家长取得联系,通过告示等形式给家长做好解释工作,去的家长的谅解,保证广大师生及家长在事故发生和过程中的知情权,严防事态扩大给学校教育工作造成不良影响。

4、协调各方面力量做好学校稳定工作,保障学校正常的教育教学秩序

5、学校要及早购置手摇鼓风机等应急设备,在学校断电时能立即启用。

6、主动和有关部门联系,及时购买等价等值、卫生、营养、可口的熟食品,如牛奶、面包等,及时为学生供应午餐。

7、断水断电事故处理结束,要认真总结分析事故发生原因,提出改进意见,完成处置总结报告,报送县营养办。

五、责任追究

对断水断电突发公共事件的应急处置工作中实行领导责任制和责任追究。对有突出表现的个人予以鼓励和表彰;对负有直接责任个人依据有关法规和规定给予行政处分;;对处理不当,贻误时机,造成恶劣影响的直接责任人,要严肃追究责任。

六、本预案由学校突发断水断电等意外事故一见处理工作领导小组负责解释。

第4篇:医院突然断电应急预案

一制定目的 为应对医院突发性大面积停电事故,迅速有序地组织和恢复供电,确保病人生命安全和减少财产损失,保证医院用电畅通,促进事故应急工作的制度化和规范化,依据国家相关法律法规,结合我院实际情况,制定本预案。二适用范围 本预案所称“突发性大面积通电事故”(下称“大面积停电事故”)是指因严重自然灾害重要设施损坏或遭受破坏等原因造成突发性的全院大面积电力系统安全防线失效,电网发生大面积瓦解或崩溃的事故。三应急原则 大面积停电事故处理工作贯彻“预防为主,常备不懈”的方针,遵循“统一领导,完善机制,明确责任,加强合作,快速发应,措施果断”的原则。四组织机构 医院成立大面积停电事故应急领导小组,下设应急抢修队。1医院大面积停电事故应急领导小组 组长:总经理 副组长:院长 成员:人事行政部经理 后勤主管 电维修工 职责:(1)做好日常安全供电工作,落实安全生产责任制,防范大面积停电事故发生。(2)发生大面积停电事故时,及时做好停电事故应急工作,尽快恢复供电。(3)根据大面积停电事故严重程度,决定启动和终止应急预案。(4)及时向上级报告事故情况并向社会公布。(5)必要时请求外力支援。(6)领导小组组长是履行本预案规定的第一责任人。成员单位应在领导小组的统一指挥下,各司其职,各负其责,通力合作,做好大面积停电事故时的社会综合应急工作。2应急抢修队 队长:后勤主管 成员:电维修工 职责:发生事故时,组织人员实施救援行动;向指挥小组汇报事故情况,必要时向供电部门发出求援请求,事后总结应电路还是低压电路。如果高压电路出现故障,医院电工立即导入备用电源,应及时与供电部门抢修班联系,尽快恢复,保证用电;如果医院抵押电路出现故障时,应快速查明原因,按照操作规定恢复电路。(二)部门科室应急程序 1各科室接到停电通知后,应该在允许情况下吧所有的及其电源切断,待电路恢复正常后再投入使用。2接到停电通知后,立即做好停电准备。如有抢救患者使用备用电源。3突然停电后,立即寻找抢救患者及其运转的动力方法,维持抢救工作,并开启应急灯照明等。并应及时通知电工或总值班。4危重患者手术中使用呼吸机的患者平时应在机旁备有简易呼吸器,遇突然停电,医护人员立即将呼吸机脱开,使用简易呼吸器维持呼吸。使用电动吸氮的患者,用50ml注射器接吸氮管吸氮。5如双线均突然出现供电故障,院内发电机供电前,医护人员则应首先保证病人抢救;护士应沉着镇静,上呼吸机者采用手抱球法,上监护仪者采用人工测血压脉搏,电动吸氮者则采用50毫升注射器接吸氮管抽吸等,严密观察并请变化,其余工作人员则立即电话通知电工,人事行政部,并采用应急灯供照明。6加强巡视病房,安抚患者,同时注意防火防盗。7电梯遇到突然停电后,后勤人员要做好乘客思想工作,向外面打电话,用人工方法把所有乘客放出去。六保障措施 1电工日常应做好发电机的维护保养工作,保证发电机随时投入使用。2电工平时要掌握供电知识和操作规范,注意操作安全。3临床科室常规备有应急灯电筒等照明用物,定期检查,保持完好状态。4后勤部门要组织进行应急停电演练,每年1-2次,通过演练,使大家熟悉掌握突发停电的应急处置程序,确保病人安全。电路还是低压电路。如果高压电路出现故障,医院电工立即导入备用电源,应及时与供电部门抢修班联系,尽快恢复,保证用电;如果医院抵押电路出现故障时,应快速查明原因,按照操作规定恢复电路。(二)部门科室应急程序 1各科室接到停电通知后,应该在允许情况下吧所有的及其电源切断,待电路恢复正常后再投入使用。2接到停电通知后,立即做好停电准备。如有抢救患者使用备用电源。3突然停电后,立即寻找抢救患者及其运转的动力方法,维持抢救工作,并开启应急灯照明等。并应及时通知电工或总值班。4危重患者手术中使用呼吸机的患者平时应在机旁备有简易呼吸器,遇突然停电,医护人员立即将呼吸机脱开,使用简易呼吸器维持呼吸。使用电动吸氮的患者,用50ml注射器接吸氮管吸氮。5如双线均突然出现供电故障,院内发电机供电前,医护人员则应首先保证病人抢救;护士应沉着镇静,上呼吸机者采用手抱球法,上监护仪者采用人工测血压脉搏,电动吸氮者则采用50毫升注射器接吸氮管抽吸等,严密观察并请变化,其余工作人员则立即电话通知电工,人事行政部,并采用应急灯供照明。6加强巡视病房,安抚患者,同时注意防火防盗。7电梯遇到突然停电后,后勤人员要做好乘客思想工作,向外面打电话,用人工方法把所有乘客放出去。六保障措施 1电工日常应做好发电机的维护保养工作,保证发电机随时投入使用。2电工平时要掌握供电知识和操作规范,注意操作安全。3临床科室常规备有应急灯电筒等照明用物,定期检查,保持完好状态。4后勤部门要组织进行应急停电演练,每年1-2次,通过演练,使大家熟悉掌握突发停电的应急处置程序,确保病人安全。

第5篇:医院突然断电应急预案

一制定目的 为应对医院突发性大面积停电事故,迅速有序地组织和恢复供电,确保病人生命安全和减少财产损失,保证医院用电畅通,促进事故应急工作的制度化和规范化,依据国家相关法律法规,结合我院实际情况,制定本预案。二适用范围 本预案所称“突发性大面积通电事故”(下称“大面积停电事故”)是指因严重自然灾害重要设施损坏或遭受破坏等原因造成突发性的全院大面积电力系统安全防线失效,电网发生大面积瓦解或崩溃的事故。三应急原则 大面积停电事故处理工作贯彻“预防为主,常备不懈”的方针,遵循“统一领导,完善机制,明确责任,加强合作,快速发应,措施果断”的原则。四组织机构 医院成立大面积停电事故应急领导小组,下设应急抢修队。1医院大面积停电事故应急领导小组 组长:总经理 副组长:院长 成员:人事行政部经理 后勤主管 电维修工 职责:(1)做好日常安全供电工作,落实安全生产责任制,防范大面积停电事故发生。(2)发生大面积停电事故时,及时做好停电事故应急工作,尽快恢复供电。(3)根据大面积停电事故严重程度,决定启动和终止应急预案。(4)及时向上级报告事故情况并向社会公布。(5)必要时请求外力支援。(6)领导小组组长是履行本预案规定的第一责任人。成员单位应在领导小组的统一指挥下,各司其职,各负其责,通力合作,做好大面积停电事故时的社会综合应急工作。2应急抢修队 队长:后勤主管 成员:电维修工 职责:发生事故时,组织人员实施救援行动;向指挥小组汇报事故情况,必要时向供电部门发出求援请求,事后总结应电路还是低压电路。如果高压电路出现故障,医院电工立即导入备用电源,应及时与供电部门抢修班联系,尽快恢复,保证用电;如果医院抵押电路出现故障时,应快速查明原因,按照操作规定恢复电路。

(二)部门科室应急程序 1各科室接到停电通知后,应该在允许情况下吧所有的及其电源切断,待电路恢复正常后再投入使用。2接到停电通知后,立即做好停电准备。如有抢救患者使用备用电源。3突然停电后,立即寻找抢救患者及其运转的动力方法,维持抢救工作,并开启应急灯照明等。并应及时通知电工或总值班。4危重患者手术中使用呼吸机的患者平时应在机旁备有简易呼吸器,遇突然停电,医护人员立即将呼吸机脱开,使用简易呼吸器维持呼吸。使用电动吸氮的患者,用50ml注射器接吸氮管吸氮。5如双线均突然出现供电故障,院内发电机供电前,医护人员则应首先保证病人抢救;护士应沉着镇静,上呼吸机者采用手抱球法,上监护仪者采用人工测血压脉搏,电动吸氮者则采用50毫升注射器接吸氮管抽吸等,严密观察并请变化,其余工作人员则立即电话通知电工,人事行政部,并采用应急灯供照明。6加强巡视病房,安抚患者,同时注意防火防盗。7电梯遇到突然停电后,后勤人员要做好乘客思想工作,向外面打电话,用人工方法把所有乘客放出去。六保障措施 1电工日常应做好发电机的维护保养工作,保证发电机随时投入使用。2电工平时要掌握供电知识和操作规范,注意操作安全。3临床科室常规备有应急灯电筒等照明用物,定期检查,保持完好状态。4后勤部门要组织进行应急停电演练,每年1-2次,通过演练,使大家熟悉掌握突发停电的应急处置程序,确保病人安全。电路还是低压电路。如果高压电路出现故障,医院电工立即导入备用电源,应及时与供电部门抢修班联系,尽快恢复,保证用电;如果医院抵押电路出现故障时,应快速查明原因,按照操作规定恢复电路。

(二)部门科室应急程序 1各科室接到停电通知后,应该在允许情况下吧所有的及其电源切断,待电路恢复正常后再投入使用。2接到停电通知后,立即做好停电准备。如有抢救患者使用备用电源。3突然停电后,立即寻找抢救患者及其运转的动力方法,维持抢救工作,并开启应急灯照明等。并应及时通知电工或总值班。4危重患者手术中使用呼吸机的患者平时应在机旁备有简易呼吸器,遇突然停电,医护人员立即将呼吸机脱开,使用简易呼吸器维持呼吸。使用电动吸氮的患者,用50ml注射器接吸氮管吸氮。5如双线均突然出现供电故障,院内发电机供电前,医护人员则应首先保证病人抢救;护士应沉着镇静,上呼吸机者采用手抱球法,上监护仪者采用人工测血压脉搏,电动吸氮者则采用50毫升注射器接吸氮管抽吸等,严密观察并请变化,其余工作人员则立即电话通知电工,人事行政部,并采用应急灯供照明。6加强巡视病房,安抚患者,同时注意防火防盗。7电梯遇到突然停电后,后勤人员要做好乘客思想工作,向外面打电话,用人工方法把所有乘客放出去。六保障措施 1电工日常应做好发电机的维护保养工作,保证发电机随时投入使用。2电工平时要掌握供电知识和操作规范,注意操作安全。3临床科室常规备有应急灯电筒等照明用物,定期检查,保持完好状态。4后勤部门要组织进行应急停电演练,每年1-2次,通过演练,使大家熟悉掌握突发停电的应急处置程序,确保病人安全。

第6篇:机房应急预案

机房应急预案

随着XXX信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是信息部门目前面临的一项重要任务。

为应对机房可能发生的突发事件,将正在发生或已发生事故的损害程度减轻到最低,确保员工安全,特制定本应急处置预案。1.1 机房突发事件分类

1.自然灾害:指地震、火灾等因自然因素引起的网络与信息系统的损坏。 2.事故灾难:指电力中断、网络损坏、软件、硬件设备故障等引起的网络与信息系统的损坏。

3.人为破坏:指人为破坏网络线路、通信设施,黑客攻击、病毒攻击、恐怖袭击等引起的网络与信息系统的损坏。 1.2 应急处理人员组织机构 员组织机构

1.3 应急机构人员岗位职责

1、应急总指挥职责

(1)保证在任何时间,及时协调应急行动所有涉及的岗位人员;(2)提供必须的紧急响应设备;(3)在紧急情况下全面负责紧急行动;(4)在必要时向外界求救,例如:1

19、110、120等。

2、应急副总指挥职责

(1)在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责;(2)根据获得的应急信息下达命令。

3、各相关设备负责人职责

(1)负责尽快收集信息向应急总指挥汇报事故情况;(2)负责现场临时设备抢救和对事态的控制;(3)听从上级指挥人员的指挥。1.4 信息与网络安全突发事件处理原则

1.预防为主。立足安全防护,加强预警,重点保护基础信息网络和关系信息安全、稳定的重要信息系统,从预防、监控、应急处理、应急保障等环节,在管理、技术、人员等方面采取多种措施充分发挥各方面的作用,共同构筑信息与网络安全保障体系。

2.快速反应。突发事件发生时,按照快速反应机制,及时获取充分而准确的信息,跟踪研判,果断决策,迅速处置,最大程度地减少危害和影响。

3.分级负责。按照“谁主管,谁负责”的原则,建立和完善安全责任制及联动工作机制。根据各负责人的职能,各司其职,加强各负责人的协调与配合,共同履行应急处置工作的管理职责。4.以人为本。把保障人员以及公共利益的安全作为首要任务。5.常备不懈。加强技术储备,规范应急处置措施与操作流程,定期进行预案演练,确保应急预案切实有效,实现网络与信息安全突发公共事件应急处置的科学化、程序化与规范化。1.5 机房应急开关机具体措施 机房各设备关闭顺序如下:

1.6 服务器及存储设备故障处理 1.6.1 排错流程

故障发生

1.6.2应急处置具体措施 服务器设备损坏应急处置措施

A、关键应用系统所在服务器设备损坏后,应立即查明原因,使用备份服务器替换损坏设备,并立即恢复应用系统正常使用;B、立即与设备提供商联系,请求派维修人员前来维修。服务器软件损坏紧急处置措施

A、迅速查找原因,尝试重启系统。使用备份进行恢复。必要时联系开发商;B、当发现服务器感染有病毒后,应立即将该机从网络上隔离出来。并启用杀病毒软件对该机进行杀毒处理,同时使用病毒检测软件对其他机器进行病毒扫描和清除工作。经技术人员确认确实无法查杀该病毒后,应作好相关记录,并迅速联系有关产品商研究解决;C、当因空调,电力等问题需要关闭所有服务器时,应遵循如下步骤: 先关闭所有应用服务器和数据库服务器,再关闭存储设备。启动所有服务器时,应先打开存储设备,再打开数据库服务器,最后打开应用服务器。

1.6.3 服务器突发情况记录 1.7 网络设备故障处理 1.7.1 网络设备排错流程 网络设备的排错流程

下面流程图是网络维护人员所应采取的排错模型,当发生网络故障时应按照此流程快速进行定位、排除故障。

1.7.2 网络系统故障突发事件分级

故障等级 故 障 现 象 1级 网络完全拥塞或设备宕机 网络或设备处理能力严重受影响,对最终客户的业务运作有严重影响

网络或设备故障对重要的客户(公司经理级或重要的部门)造成严重影响

2级 网络或设备的性能严重下降,对最终客户的业务运作产生重要影响 部分区域网络故障 一般网络节点发生故障 大部分客户的网络通讯质量下降

3级 网络或设备性能受损,但最终客户大部分业务仍可正常工作 报警出错和操作命令反常

4级 其它一般的故障,不影响系统的整体运行,不影响大部分客户的使用 1.7.3 应急措施

黑客攻击时的紧急处置措施

A、当发现网页内容被篡改、Internet接入路由器有未知用户登录或通过其他方式发现有黑客正在进行攻击时,应立即向信息部相关人员通报情况;

B、在信息部人员授权下,立即备份当时的log日志并采用端口限制方式阻断外部的入侵,观察被攻击的服务器等设备状态,同时向信息部领导汇报情况;

C、协调相关应用部门,与信息部有关技术人员一同负责被破坏系统的恢复与重建工作;

D、协助信息部人员协同有关部门共同追查非法信息来源; E、情况严重的,根据突发事件级别应及时向有关上级部门汇报。病毒安全紧急处置措施

A、当发现计算机感染有病毒后,应立即将该机从网络上隔离出来;或从网络设备状态发现病毒爆发应采取show mac-addre sh arp定位或IP查询将病毒机器所在的网络设备端口shutdown; B、通知维护人员对该设备的硬盘进行数据备份;

C、启用杀病毒软件对该机进行杀毒处理,同时进行病毒检测软件对其他机器进行病毒扫描和清除工作; D、如发现杀病毒软件无法清除该病毒,应立即通知用户并向及信息部负责人报告,经信息部技术人员确认无法查杀该病毒并同意格式化硬盘后,作好相关记录,并格式化硬盘; E、机器恢复后重新开启网络设备的相应端口;

F、认为情况极为严重,根据突发事件级别应及时向有关上级部门汇报。

广域网线路中断紧急处置措施

A、链路出现问题后,网络维护人员应立即信息部负责人报告,沟通地方节点技术人员共同迅速判断故障,查明故障原因;

B、如属我方管辖范围,由双方技术人员立即配合予以恢复。如遇无法恢复情况,立即进行备件更换或向有关厂商请求支援;

C、如属运营商管辖范围,立即与运营商维护部门申报故障,请求修复; D、根据突发事件级别应及时向有关上级部门汇报。局域网中断紧急处置措施

A、局域网中断后,网络维护人员应立即判断故障节点,查明故障原因,并向信息部领导汇报;

B、如属线路故障,更换新线路或重新安装线路;或从最近飞线至故障设备; C、如属路由器、交换机等网络设备(光模块)故障,应立即查找是否有相关备件可以替换,或与设备提供商联系更换设备,并调试畅通;

D、如属路由器、交换机配置文件破坏,应迅速按照备份配置文件重新配置,并调试畅通;如遇无法解决的技术问题,立即向有关厂商请求支援;

E、情况严重的,根据突发事件级别应及时向有关上级部门汇报。1.8 空调设备故障处理

若空调损坏,应第一时间通知厂家上门进行维修,并及时报告信息部相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备。1.9 消防设备故障处理

一旦机房发生火灾,应遵照下列原则:首先确保人员安全;其次保护关键设备、数据安全;三是保护一般设备安全;

人员疏散的程序是:机房工作人员立即按响火警警报,并通过119电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出;

人员灭火的程序是:首先切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。

1.10 电源设备故障处理

热力机房目前使用UPS系统,在紧急情况发生时,应按如下步骤进行关机:(1)确认所有负载均已安全关机。(2)关闭UPS负载电源。

(3)将UPS的系统启用开关切换到off 的状态。(4)将DC电池连接断路器切换到off的位置。(5)将所有电池拉出到红色电池断开线以外。(6)断开PDU上的断路器。(7)将PDU后面总输入断路器切换到断开位置。(8)将每个上行主电路断路器切换到断开位置。

第7篇:机房应急预案

主机运维应急预案简介

.崔志昂 上海超级计算中心 上海 201203 zacui@c.net.cn.魏玉琪 上海超级计算中心 上海 201203 yqwei@c.net.cn 引言:

高性能计算技术及应用水平已成为显示综合国力的一种标志。高性能计算机持续不间断地 为用户提供高性能计算服务,而运维应急预案是主机运行中处理突发事件的依据和方法,是主

机系统稳定运行的保障。本文简要介绍上海超级计算中心主机运维应急预案,供同行参考。

1.主机和运维管理制度简介

超级计算机是功能最强、运算速度最快、存

储容量最大的一类计算机。目前只有少数国家掌握 研发技术,系统造价非常昂贵,多用于国家高科技 领域和尖端技术研究,是国家科技发展水平和综合 国力的重要标志。上海超级计算中心作为上海信息 港主体工程之一,国家和上海市政府投资先后引 进神威-I超级计算机、神威-64P集群计算机、曙光 4000A超级计算机系统并投入商业化运行。

上海超级计算中心自2001年正式开通至今,这些高性能计算机系统已安全、稳定运行七年多时 间,上机用户取得了丰硕的科研成果和社会效益。在这七年中,为保障这些高性能计算机系统安全、稳定、不间断地运行,技术支持部在中心引进第一 台高性能计算机--神威-I超级计算机系统的同时,建 立了机房应急预案、运行记录、设备运行参数等基 础运维制度,在二期引进曙光4000A超级计算机系统 过程中,不断完善原有运维制度,并针对该主机系 统特点编写了大量操作方法和应急预案。

中心自2006年获得ISO27001(BS7799)信息安 全认证以来,技术支持部根据其要求规范了文档体 系建设,形成了机房管理制度、应急预案、操作方 法、运行情况记录的四大类运维文档。

正是这些运维管理制度的不断完善和有效执 行,才确保了资产价值高、服务对象广、社会影 响大的中心主机系统安全、稳定运行,保障重点项 目、用户服务的连续性。

2.应急预案重要性

上海超级计算中心机房运维管理文档划分为机 房管理制度、应急预案、操作方法、运行记录共四 大类(如图1所示)。

图1 应急预案分类

应急预案在应急系统中起着关键作用,它明确 了在突发紧急情况发生之前、发生过程中以及刚刚 结束之后,谁负责做什么、何时做,以及相应的策 略和资源准备等。它是针对可能发生的重大事故,按照其影响和后果严重程度,在应急准备、响应、操作各个方面预先做出的详细安排,是开展及时、有序和有效事故应急工作的行动指南。因此,应急 预案在这四类运维管理文档中处于最为重要的地位。

3.应急预案分类

应急预案按重要性和事件种类,可以划分为消

防预案、断电预案、空调预案、其他预案共4种,预 案各文档之间彼此独立又互为关联,具有非常强的 可操作性。制定预案的指导原则是尽一切可能,最 大限度地确保向用户提供的服务不中断。在紧急事 件发生的情况下,保证核心设备连续运行,避免存 储数据丢失。在事件处置完成后,能快速恢复高性 能计算服务。

3.1 消防预案

消防预案是主机房最重要的应急预案。该类预 案根据《上海超级计算中心灭火和应急疏散预案》 的原则并结合主机房主机设备和消防设备的运行特 性而制定。主要由《主机房消防应急预案》和《主 机房气体喷淋消防系统启动撤离及处置应急预案》 2个文档组成。

消防应急预案:该预案着重规范了火警事件发 生后,所有主机维护人员如何根据所属区域和现场 情况,判断和选择正确的处理方法,同时配合中心 物业人员处置,降低事件带来的影响。

对于设备发生烟雾,主机维护人员协同物业人 员寻找烟雾点予以切断相关区域电源;当设备发生 可以控制火情,协同物业人员灭火;当主机房发生 火灾而无法控制,应采取施救方法等措施。

气体喷淋预案:该预案描述主机房气体喷淋系统启

动的响应和确认并具体规定了撤离机房路线、善后处置。

这两个预案中,消防应急预案作为消防预案的主体,涉及到如何处理与消防有关情况的各个方 面。气体喷淋预案是主机房发生重大火灾时应对的 最终灭火手段和人员撤离引导方法。

3.2 断电预案

断电预案的重要性仅次于消防预案。该类预

案根据中心供配电系统实际情况和各种断电影响范 围下对主机运行的最小保障要求而制定的。主要由

《主机房断电应急预案》、《曙光4000A超级计算机 系统紧急关机操作方法》、《曙光4000A超级计算机 系统双路断电关机操作方法》等多个文档组成。

主机房断电应急预案:该预案用于断电情况

下,主机维护人员如何与中心物业部门联系控制主 机房供电情况,并且负责对主机系统运行受断电影 响程度做出正确判断。指导维护人员按影响程度,分别选用预案中对应的操作方法。本预案在所有断 电预案中起指导思想作用。紧急关机操作方法:该预案制定了主机系统在 紧急情况下,最快速度关机的操作步骤。主要用于 发生烟雾、明火或消防、断电预案需在数分钟内关 机断电的事件。

双路断电关机操作方法:该紧急操作预案主要 用于在外界双路供电全部中断情况下的操作。

该预案的关机原则是:根据实际电力供应考虑 操作步骤,宁慢勿快,在时间允许的情况下,最大 程度保证存储节点、SAN和SCSI存储设备、工程用户 的计算节点的运行,尽可能减少关闭范围,以确保 能在恢复供电的情况下,主机尽快恢复正常运行状 态,减少影响范围。

3.3 空调预案

超级计算机系统在运行中消耗大量电能,在提供高性能的计算能力同时产生大量的热量,必须 采用专用空调系统,以保持主机系统适当的温、湿 度、空气洁净度等运行环境需求。因此,专用空调 系统与主机系统密切相关,空调预案是主机房必备 的应急预案。

制定该预案的原因在于,断电情况下,空调与 主机系统存在互相牵制的现状。主机和空调系统均 为外界双路供电,主机系统配有UPS不间断电源系 统,而空调系统无UPS支持。在双路停电情况下,主 机系统可获得UPS电池组支持运行若干分钟,空调系 统无UPS支持只能停机。由于在无空调冷却情况下,主机系统会在短时间内积聚大量热量导致超过运行 警戒温度,主机系统在有可供电余量的情况下,仍 将被迫关机。因此,确保空调中断情况下的主机运 行环境是该预案的制定原则。

预案根据各台主机配备的空调系统特点制定,由《曙光机房空调系统故障应急预案》和《神威机 房空调系统应急预案》2个文档组成,这里仅介绍曙 光机房空调系统应急预案。

该预案的第一步:考虑增强主机系统散热效

果,采用打开主机机柜前后门,和机房周边木门,在通风道上布置有UPS支持的应急风扇,形成空气对 流,带走热空气,从而增强主机系统散热效果,降 低升温速度。

该预案的第二步:在采取上述措施并持续升温 到一定温度之上的情况下,考虑紧急关闭部分或全 部计算节点,减少热量生成,确保主机系统的核心 存储和网络系统不受影响,确保空调系统修复后,主机系统能快速恢复运行。

3.4 其他预案

除了固定的三类预案之外,技术支持部还根据 主机系统实际运行中出现的各种意外情况,随时制 定具有针对性的预案。

如《大楼顶棚坍塌应急操作方法》的制定,就

是由于2008年1月连续发生雨雪等灾害性天气,中心 大楼顶棚大量积雪且难融化,物业预计存在情况继 续恶化,有发生顶棚坍塌事故的可能,一旦发生将 影响一楼主机运行。

针对该突发的隐患,中心技术支持部制定应急 操作方法,对维护巡查频度范围、漏水可能发生位 置、如何处理受漏水影响的主机设备等操作步骤进 行严格界定。即使在最后,中心大楼顶棚经受住灾 害性天气的考验,该预案并未发挥作用,这正体现 了应急预案的备而不用的特点。而且通过各种意外

情况的迅速分析、应对和实践操练,不断锻炼主机 维护队伍,使之走向成熟。

4.在实际案例中,应急预案的作用

在主机系统年复一年的运行中,我们希望这些 设备正常稳定运行,应急预案永远不会被使用,然 而在实际运行中,总免不了因突发事件执行应急预 案。

而每次突发事件是检验应急预案制定是否科 学、有效的最好证明。

4.1 双路断电,UPS正常运行案例

2006年8月某天,因打雷导致供电一路跳闸自动 换至另一路供电,曙光机房2台空调掉电。

主机维护人员立即按应急预案操作,电话通知 物业人员恢复空调运行,恢复过程中所有空调相继 出现高温报警,机柜液晶屏平均温度35度,开启全 部曙光机柜前后门,打开神威-曙光玻璃门并调集应 急电扇,于12:45恢复正常。

12:50再次出现双路供电中断,曙光空调因无

UPS支撑全部断电,启动断电应急预案,开启

5、6号 木门,开启神威机房全部空调,布置电扇,将冷气 导入曙光机房,热量从6号木门的外部通道排出,选 择性杀除部分作业,至13:05供电恢复,曙光空调开 始工作,13:20环境恢复正常。全机在此过程中,正 常运行未停机,只损失了部分不重要的作业。

4.2 单路断电,UPS失效案例

2007年8月某天,因低压配电柜开关至UPS房间 X-JM柜电缆发生相对地短路,造成UPS机组逆变器 自身保护动作,关闭UPS机组,导致曙光主机系统失 电。

全机掉电后,主机维护人员迅速按应急预案

手 工 关 闭 所 有 电 源 开 关。1 0 : 3 0恢 复 供 电,温湿度恢复正常后,全机加电,恢复过程中修复

storage00

1、00

5、010三个盘阵的9个用户文件系统,修复15个节点加电故障,除cnode00

9、anode029电源

环 境 模块故障,于当日15:10全机系统恢复正常。

由于处置及时,主机受影响范围很小,在恢复 供电后数小时即成功开启全系统。

5.随时保持应急预案的适用性

主机长年累月的运行,故障和问题的发生,往 往是必然的,也是客观、无法回避的。因此,要求 在维护工作中,预先考虑到可能的问题和故障,制 定完善的应急预案。应急预案不可能包含所有的故 障和问题,但应根据维护经验,尽可能地设想各种 危机情况下的处置措施。做到预想到各种可能的问 题。

而在形成应急预案后,更重要的是持续地在运行中加以完善、测试和演练,尽可能模拟实际情 况,做到即使只有1名维护人员在场,也能在真正发 生危机时,以最短时间独立处置故障。

以目前中心的主机运维工作为例,三年内,仅 断电预案就已根据实际运行情况的变化,制定并更 新了5~6个版本,针对夏季突发断电也有专用预案。这样的措施,直接保障了2006年8月突发断电事件中 的主机连续运行。而2007年8月的突发断电事件中,由于预案在之前刚根据实际情况进行过演练和修 改,主机维护人员仅用半小时就完成所有应急操作 动作,整机仅有个别设备故障,确保了主机设备未 因突发断电而发生大范围损坏现象,恢复供电后直 接完成开机。

实践证明,完善而适用的应急预案能保障向用 户提供稳定的高性能计算服务。

6.结束语

完备而适用的应急预案能有效降低主机系统因 意外事件发生带来的运行风险,对可能发生的意外 来说,是一种事前防范措施。但对整个主机系统产 品而言,是一种事后防范措施。如果主机系统生产 厂商能把这些防范措施纳入整个系统设计过程中,使操作方法更加简便、更趋于人性化,这将帮助主 机维护人员更为妥善处理意外事件,用户得到更为 稳定的高性能计算服务。我们相信未来国产的高性 能计算机能做到这一点,期待着这一天早日到来。

(为帮助了解,特在附录中节选部分双路断电关机预案内容)

附录:《曙光4000A超级计算机系统双路断电关机操作方法》(省略具体操作步骤)

曙光4000A超级计算机系统双路断电关机操作方法

注意:

1、本方法专用于主机房发生双路同时断电紧急操作使用。(包括单线断电切换失败)。

2、本方法作为《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)-XXXX-XXXX-XXXX)的附件。

1.断电确认及操作:

主机房内一旦发现断电,并接物业明确通知为双路断电,首先执行如下操作(即确保节点温度):

1.1 打开机房门便于散热,..1.2 机房通道上布置应急风扇加强冷热空气对流,夏季:应急风扇布置..;冬季:应急风扇布置..,使曙光

机房的温度尽量降低。

1.3 打开所有机柜前、后门。

1.4 密切注意机房节点平均温度(专指各机柜液晶面板所示之环境温度值)。

2.紧急关机条件确认:

在完成上述操作后,密切观察主机房环境。一旦有如下任何一个条件满足:

2.1 自断电发生起,已达到XX分钟仍未恢复供电;

2.2 采取上述紧急通风措施,节点温度持续上升,超过XX℃;

可认定为紧急断电事件,即刻按下列紧急关机操作方法进行操作。

3.紧急关机操作步骤:

注意事项:

3.1 ..3.2 关机操作的全过程中,注意随时保持和物业的通讯联系。除根据情况随时联络外,应严格保证每XX分钟与物

业联系一次,询问UPS可支撑时间及恢复供电可能。(分机、手机、对讲机等)

3.3 应理解关机原则为:根据实际电力供应考虑操作步骤,宁慢勿快,在时间允许的情况下,最大程度保证X排节

点、存储节点、SAN和SCSI存储设备的运行,尽可能减少关闭范围,以确保恢复。

第一级操作:(首先执行)关闭主机系统外围设备..第二级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,执行如下操作)

关闭非重要用户计算节点(ABC组)..第三级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,执行如下操作)

关闭所有用户计算节点(党组)..第四级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,执行如下操作)

关闭SAN存储设备和LSF数据库服务器..第五级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,完成关机操作)

关闭SCSI磁盘阵列和所有存储节点..特别关注:

1.如时间非常紧急,UPS电池低于XX分钟:

直接执行关机脚本:..此脚本可分别将计算节点、接入节点、存储节点进行关闭。

2.如时间极其紧急,UPS电池低于XX分钟,可按《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)-XXXX-XXXX-XXXX),直接拉闸操作。

(上述二个方法仅用于突发情况,非极其必要情况下严禁使用,应使用前列方法操作)

3.如遇主机失电(如关机操作不及已掉电或突发自动掉电)应关闭所涉范围所有设备电闸开关。..

机房断电应急预案

机房停电应急预案

公司机房消防应急预案

机房火灾的应急预案

学校机房火灾应急预案(精选7篇)

《学校机房火灾应急预案(精选7篇).docx》
学校机房火灾应急预案(精选7篇)
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档
相关文章
猜你喜欢