
case
方案中心
基于对于此次搬迁的各项需求,结合业务可持续性要求和行业内外声誉,本次数据中心搬迁将遵从以下几大原则:
1、规范性原则
满足行业内外相关规定、中心机房布局及网络规划等要求。
2、 安全性原则
在保证信息系统稳定和数据安全的前提下实施机房搬迁。
3、业务影响最小化原则
搬迁方案考虑尽量减少停机时间,且停机时间尽可能安排在业务低谷时段或非服务时段,并制定合理且操作性强的搬迁方案、及有效的应急预案。
4、分步实施原则
搬迁工作涉及多套重要生产系统,为控制风险,应综合考虑系统架构、系统关联性、搬迁风险以及停机时间等因素,制定分步实施策略,合理安排各系统的搬迁顺序。
5、 经济性原则
充分考虑现有资产的有效利用,尽量保护已有投资,并合理投资满足搬迁需要,提高实施的经济性。
为确保本次搬迁项目的顺利进行,本次搬迁项目工作参加的单位预计有:x x x、北京银信长远科技股份有限公司、支持厂商和其他参与方。
搬迁工作中各参加单位职责如表。
职责分配表:
|
参加单位 |
人员组成 |
职责 |
|
Xxx |
管理人员 业务人员 |
1) 负责本业务板块系统搬迁的上传下达协调、通知工作; 2) 负责组织机房搬迁后的本业务板块系统业务测试工作; 3) 负责机房搬迁本业务板块的对外宣传和报备工作; 4) 对本业务板块系统搬迁各阶段工作成果进行确认。 |
|
北京银信 |
项目管理、 技术人员 |
1) 负责整个机房搬迁工程的集成工作; 2) 负责与相关厂家进行商务谈判,负责与相关厂商的商务协调工作,参与相关厂商的技术协调工作; 3) 在搬迁设计基础上,组织机房搬迁相关方完成搬迁实施方案的细化; 4) 执行质量控制,确保机房搬迁实施方案的有效实施; 5) 负责机房搬迁项目组内部各小组间的协调工作; 6) 组织、监督、检查搬迁项目组内各小组的工作任务; 7) 参加机房搬迁各个阶段的工作; 8) 负责所有应用及数据库系统的开、关机及数据备份及确认; 9) 保证搬迁设备、数据、系统在搬迁过程中物理安全; 10) 搬运设备; 11) 拆卸、安装设备; 综合布线整理,新、旧机房场地整理。 |
|
支持厂商 |
软件系统提供商支持人员、硬件设备提供商人员 |
1) 保修期内硬件设备厂商人员参加搬迁工作,提供备件,保修期结束的硬件设备厂商按照合同要求参加搬迁工作; 2) 2)根据需要对搬迁工作进行现场支持或远程电话支持。 |
|
运营商 |
客户经理 技术支撑人员 |
1) 新申请线路及相关设备的安装、调测; 2) 配合应用系统的割接、搬迁; 3) 保证网络切换后,提供稳定的通讯服务。保证通讯线路正确割接。 |
为确保本次搬迁项目稳步、有序、顺利地实施和完成,需成立机房搬迁工程领导小组,并由、、搬家以及其他提供技术支持的配合厂商等成立技术支持组,各组工作职责如下:
1. 搬迁工程领导小组:
1) 进行项目重大决策,控制项目总体规划、项目进度等工作;
2) 负责把握项目方向,调动各方资源和相关外部资源,监督项目管理相关制度的执行;
2. 业务支持组:
1) 负责机房搬迁过程中的业务指导;
2) 负责机房搬迁的对外宣传工作;
3) 负责进行系统搬迁后业务测试;
4) 准备搬迁应急的业务处理。
3. 技术支持组
各小组职责:
|
名称 |
负责内容 |
|
技术支持组组长 |
1) 组织搬迁方案的细化; 2) 对各个小组进行协调、调度; 3) 组织搬迁工程的实施,使搬迁工作按方案进行; 4) 确认各阶段工作是否按计划完成; 5) 对搬迁工作的质量进行负责。 |
|
网络组 |
1) 负责网络迁移工作; 2) 维护新旧机房间,新申请的线路、原有线路网络通畅; 3) 在旧机房保存网络设备的配置,确认可以关机后,通知拆卸安装组; 4) 在拆卸安装组安装完网络设备后,负责对其进行配置、调试。 |
|
主机应用组 |
1) 在系统搬迁之前,对操作系统、核心参数、数据、数据库进行备份。 2) 按照搬迁方案,执行数据库和应用系统的检查、备份、关闭、开启; 3) 在系统从旧机房搬迁到新机房后,对业务系统的运行状况进行监控。 |
|
拆卸安装组 |
1) 负责关闭主机设备、磁盘阵列、网络设备和存储设备的电源,将其从机柜上拆卸下来,首层包装,交由设备搬运组进行搬运; 2) 将设备拆包装,装入新机房指定机柜,连接好所有连线并按照机房标准布线规范对连线进行整理,开启电源,启动操作系统,在验证设备运行正常后,交主机应用组或网络组; 3) 对新旧机房搬迁后的现场进行清理。 |
|
设备搬运组 |
1) 负责提供包装材料; 2) 负责将设备装箱; 3) 负责设备从旧机房搬运到新机房的指定位置; 4) 负责设备拆箱; 5) 保证搬迁设备在搬迁过程中物理安全。 |
|
现场支持单位 |
1) 保修期内硬件设备厂商人员参加搬迁工作,提供备件,保修期结束的硬件设备厂商按照合同要求参加搬迁工作; 2) 业务组进行搬迁后业务确认; 3) 综合网上级中心局配合调试广域网线路。 4) 运营商负责新申请线路及相关设备的安装、测试,保证网络切换后,提供稳定的通讯服务;保证通讯线路正确割接。 |
|
远程支持单位 |
1) 提供技术指导; 2) 各系统应急指导。 |
|
后勤保障组 |
负责搬迁工作的后勤保障,包括搬迁通道的准备、搬迁保安工作。 |
新机房建设通过测试、验收,达到集团总部相关标准要求,是实施本次搬迁工程的前提条件,按照机房设计和相关标准要求,搬迁前须对新机房的各项指标进行测试、检验。
在建筑安全方面,需要检查机房地板、天花板、墙面、隔断玻璃、安全出口的材料是否符合要求,工程质量是否符合要求。
在布线安全方面,电力布线、网络布线的布线工艺是否达到要求,线缆质量是否达到要求。
在电气方面,检查内容包含以下几个部分:
1. 需要检查电力系统负荷、电力配线、配电柜、空气开关的质量、电气性能是否符合要求,配电线路是否按设计施工。
2. 直流电源系统的安装、输入、输出是否符合设计要求。
3. 机房照明的供电方式和照度是否符合设计要求。
4. 交流工作地、直流逻辑地、安全保护地、防雷保护地、综合接地等接地性能是否达到设计要求。
5. 消防报警、灭火系统是否达到设计要求。
6. 空调系统是否达到温度、湿度、新风量的要求。
7. 防雷系统是否达到强雷区机房的要求。
8. 监控系统,包含门禁、设备监视等是否达到设计要求。业务准备
● 提前确定相关系统业务验证单位,并将搬迁后业务验证操作分工到人。
● 业务部门需制定详细的业务验证方案,下发到相关验证人员,并做好明确的工作安排。
● 参与搬迁业务验证人员在搬迁之前,必须认真阅读搬迁业务验证案例和要求,搬迁日按时到岗,业务验证完毕接到撤退通知方可撤退。
● 编制技业联合预案、业务应急预案,包括:启动手工作业、上传下达、主管单位汇报、舆情控制等。
联系相关维保商做好搬迁专线迁移支持工作。
对旧机房的信息进行收集,例如服务器、网络设备基础信息,形成了此次搬迁的设备汇总信息。详见附表切换演练测试
在系统搬迁前,对所要搬迁的关键设备需要进行主、备机或生产环境与应急环境间的切换演练测试。以验证万一在搬迁过程中出现设备故障的情况下,备用设备和环境能正常使用。
搬迁的主机及存储设备上有大量的应用数据,保证在搬迁结束后为用户提供连续的、有效的服务。搬迁需做好相应的设备保险和备份措施,提前根据各个设备进行综合的测试,设备的重启动试验,并根据不同的用户应用程序、数据库以及用户要求采取不同的技术方案与备份措施,满足主机系统设备搬迁数据和设备的安全。
搬迁的数据备份包括数据备份与设备配置备份。
数据备份的内容为:
Ø 数据库备份
Ø 应用数据及配置备份
Ø 重要的文件系统备份
Ø 系统备份
Ø 配置备份内容为:
Ø 网络配置备份
Ø 存储配置备份
Ø 主机分区配置备份
Ø SAN交换机配置备份
对于已经备份完成的备份集,需要在新环境进行恢复测试,验证备份集的可用性。
搬迁前的设备配置备份、系统备份和数据备份非常重要,需要在n-1日晚上完成网络设备、存储设备、主机系统、数据库的备份。
我们和联合具有专业的IT设备搬运经验的搬运来完成此次设备的运输,搬运提供必须的起重机、叉车、平板推车多辆;提供必要的绳索(固定机器等用)、扣件、钢管、设备搬运的包装箱,海棉等。
按照所设计的搬运路线和机房设备的摆放位置,指导搬运将各设备推运至相应位置进行固定。以下是需要完成的工作概要:
Ø 现场勘测,确定搬迁路线;
Ø 配合物业管理人员对电梯承重的确认与检查;
Ø 结合每段搬迁通道的具体情况和条件制订具体搬迁方法;
Ø 物流察看搬迁现场环境;
Ø 确定新机房地板临时改造和烧制临时钢制搬迁通道的具体事宜;
Ø 落实3吨位以上的叉车及运输车辆2辆及熟练的叉车操作人员2名;
Ø 提供搬迁使用的设备底座和斜坡;
Ø 清除搬迁通道上的障碍物,确保搬迁工作能顺利进行;
搬迁过程中,根据搬迁人员情况协调搬迁人员及车辆在各机房的进出;协调物业对电梯做一次全面检查,以保障货梯电梯的安全性。
为了安全、顺利完成中心搬迁任务,新机房搬迁前拟从市州借调15人参与新机房的搬迁工作,所借调人员要求责任心强,吃苦耐劳,能加通宵夜班。具体分配如下:
1. 双中心保障: 8人
与现有参与到现有服务台监控日常保障中,实现双中心、双人、7*24小时值守和应急处理;
要求:信息技术出身。
2. 网络保障: 3人
网络支持贯穿整个新机房搬迁,不但要进行搬迁过程中各网络细节的调测、实施,还需要进行搬迁过程中各种应用异常的协助分析、处理,拟在搬迁前抽调内网络骨干加入中心支持的对伍,共同保障全信息网的平稳运行。
3. 搬迁随工质量保障:4人。
要求:现场管理经验丰富、细心,文字处理能力强。
职责:分别在新旧中心配合搬迁协助进行信息的核实、搬迁细节的关注、记录、总结、提示等。内自建信息系统需要支持准备:
自建系统在搬迁的过程中同样需要各支持厂商的准备。
为了将应用系统变更对搬家的影响降到最低,同时将全部精力投入到机房搬迁和保障,要求全在机房搬迁前2周左右开始,对各业务系统进行封版(含停止自助设备新增、密钥打印等终端变更工作)。封版期间,原则上不再进行信息系统更新。如在系统封版期内,确需进行提交的重大变更,需报领导小组审批后进行紧急更新。封版不包含集团、总行安排的全国版本软件升级。
Ø 根据搬迁规划中的批次要求,对相应网络或系统进行关停。
设备的关机严格参照图4-4,先停主机再停存储,最后停光纤交换机。项目组按照制定好的人员排班表进行如下过程:
(图4-4设备停机流程)
1. 设备关机,按照停机的文档的步骤进行设备停机及检查。
2. 设备下架,按照制定的拆机顺序表,按步骤进行设备下架工作。
3. 将设备运输到设备的包装区。
4. 对设备进行包装,大型设备进行整体打包。
5. 按照制定好的装车表,进行装车,并按照实际情况制定装箱单。
当设备到达新机房后,大批的设备和部件存放到暂存区之后,由于人多物杂,为了避免忙中出错,有条不紊和高效的完成设备安装等工作,搬迁的控制体系就尤为重要了,下图就是设备卸载和安装的控制图。
1. 当设备到达新机房后,紧后就安排人员将设备卸载到制定的区域,在设备卸载时候,工作人员按照《装箱单》将对设备的外包装等物理状态进行初步检查,确认运输过程是否对设备造成该损伤。
2. 按照搬迁控制图流程和设备进场顺序表,分组人员就设备运输到机房的相应位置。
3. 根据指定的设备位置进行设备固定和安装,按照制定的profile表以及线缆标示进行线缆连接。
在设备安装及连接无误之后,开始主机的上电测试,设备上电的顺序和下电顺序正好相反,请按照以下方法对设备按顺序开机,参考图《4-5开机流程检查》:
1. 在设备开机前将对电源环境以及设备的连接状态进行检查。
2. 检查通过之后,按照制定的设备开机顺序表和开机步骤文档进行设备起机。
3. 在设备正常启动后,将进行设备功能测试及错误检查。
4. 当设备启动失败后设备部件故障时候,启动设备恢复预案和系统应急预案。
5. 当所有设备及应用启动之后,进行系统功能检查以及系统联调。
. 开机流程检查
1) 搬迁当日,网络割接或恢复,系统开启,完成后进行技术、业务验证。
1) 由应用、系统、设备、网络团队对环境进行统一确认。
对新老机房的操作区域做卫生保洁:
Ø 对新老机房的操作区域做卫生保洁;
搬运完毕后物流人员对现场进行清理,将废弃包装、防尘、防震材料装车。
需重点保障的系统,是我们工作的重中之重,仅仅从备件准备上是无法满足降低风险要求的,还包括改变搬迁方式,搭建整体应用环境,提前部署新机房导轨。需要重点保障的系统涉及系统。
风险分析与应急方案
1. 由于机房搬迁涉及的设备和厂商较多,在进行机房搬迁时,搬迁现场最容易、也最可能出现局面的混乱而影响搬迁的质量;
2. 本次搬迁涉及到应用系统多,系统之间关系复杂,可能会由于搬迁顺序不当,造成系统之间关联关系被破坏,造成网络系统长时间停止对外服务;
3. 由于电路连接较多、网络结构复杂,搬迁时的电路割接相当繁琐,在搬迁过程中可能因协调不畅造成不可预测的风险:如设备未能及时就位导致搬迁计划时间延误,甚至造成错过电路割接时间或电路调试失败,影响整个系统切割和使用。
1. 新旧机房互联裸光纤、新中心机房新开通信专线、综合布线信息点通信质量不稳定、延迟、抖动等;
2. 通信运营商线路移机割接或新增电路不能及时到位,导致搬迁不能正常进行。
1. 部份设备长期使用,在设备断电后很可能不能正常重新启动,造成系统无法恢复运行和交付使用;
2. 本次搬迁为异地搬迁,在物理搬迁过程中,由于运动、振动、抖动等不可预测因素可能对设备产生意外损伤或损坏,从而造成设备搬迁就位后无法正常使用。
本次搬迁存在单点故障的信息系统23个,涉及15套磁阵,26台PC服务器。
搬迁过程中的设备风险主要有存储系统(磁阵)的单节点故障风险、PC Server故障风险,系统风险按重要性分主要有数据库故障风险、应用和中间件故障风险、操作系统故障风险,应用风险按重要性分主要有储蓄系统故障风险、其他对外营业应用故障风险、内部处理和管理应用故障风险。风险主要来源于设备的单点故障较多,单点故障主要原因是设备没有相应的备机或备用系统,在出现问题时只能利用更换故障部件去解决故障来恢复业务运行。风险规避
建立指挥沟通协调机制,确保搬迁过程中相关人员之间及时、有效沟通、协调、汇报,在项目开展过程中,参与项目的各个厂商和分包服务商要服从搬迁指挥部的统一指挥。在搬迁现场,所有的参与搬迁项目的工作人员都听命于现场总指挥,避免搬迁现场的场面混乱。
利用集团为中心局域网改造项目购置的新设备,和内自购的骨干网汇接路由器及网络列头柜交换机,在新中心机房预先搭建一套新的网络环境,并与旧机房导通,可以避免大部分老旧网络设备需要搬迁的风险。目前主要的风险点在于际网搬迁期间的设备风险。需要准备交换机,作为际网搬迁期间原有设备的备机。
通信线路风险应对方案:
目前新旧机房间采用的是两家不同运营商裸光纤进行链路聚合,在搬迁前须进行一次互备测试:在新旧机房核心交换机之间长ping,确保断开一家运营商光纤,另一家运营商光纤仍能保证新旧机房之间的正常通信。为避免搬迁过程中因跨运营商平台出现2层网络问题(如Mac地址学习不到,到网关不通等),服务器搬迁时采用逐个业务网段整体迁移模式,逐个网段进行迁移,使各业务系统服务器与网关保持在同一机房内。
为避免在搬迁当晚因专线链路传输问题进而影响搬迁进展,搬迁前将逐条对各专线点对点测试,发现有延迟的、抖动及时通知运营商传输解决,规避此类问题的发生。对于本次搬迁涉及的重要线路,在新机房采用新增专线方式,避免在搬迁当日线路移址的风险。
搬迁前对新机房信息点进行一次全面测试,发现有信息点不通,延时大、丢包等问题须提前予以解决。
根据日常维护的经验,我们对单点故障的设备,做了有针对性的备品备件准备(附表:)。比如最可能发生故障的硬盘和电源,我们的备件会覆盖到每一台有单节点故障的设备,根据不同的需要备不同数量的硬盘,电源及内存等等。故障发生时,尽快利用备品备件修复故障。
设备搬迁前,搬迁派出资深的硬件工程师,对PC服务器和存储做健康检查,对搬迁前发现的故障点,及时通知维保商做硬件维修,确认无误后在下架搬迁。
对网络设备和存储的配置,做到全面的配置备份。
对核心业务系统,除了配置整机,还会针对特殊环境搭建对应的生产备用环境,以便能在短时间内恢复生产。
搬迁日,涉及到重要系统的,除了协调技术支持资源外,还需由搬家派出资深的硬件工程师、系统工程师、存储工程师及数据库工程师,现场进行保障。通过硬件和人员保障,最快速的解决问题。除搬家外,与其它维保厂商以及原厂(参4.3.11、4.3.12 厂商支持准备)提前沟通,随时做好业务支持。
对于部分单节点无数据冗余的业务系统,光从硬件上无法完全满足系统安全的需求,经综合比较,我们将该部分系统采用虚拟化备份的方式(将物理机系统,通过当今流行的VMware Converter 备份软件,在线将系统转换到虚拟机,数据将集中存放于存储)。生成的虚拟机和真实的物理系统无大的差别,随时可顶替故障的物理机。
同时,我们会配置一台大容量NAS存储,配合虚拟机数据的存放的需求。
虚拟化备份的系统包括:
为了避免设备在物理搬迁工程中出现的损坏或丢失,搬迁要提前落实为物理搬迁购买保险。
由于搬迁项目实施周期长,有可能在搬迁过程中,人力资源发生困难,不能同时调试、搬迁预计的设备和系统。
l 搬迁过程牵涉人员众多,指挥协调难度大。需建立指挥沟通协调机制,确保搬迁过程中相关人员之间及时联络、汇报;配备足够的通讯工具等。
l 在同城局域网稳定可靠的前提下,可以调整进度安排,将每个阶段,分成更小的批次,减少每个阶段搬迁的系统数量,保证重点系统的搬运。
l 搬迁前安排重要人员充分休息,并考虑重要人员的备份安排。
l 禁止具体实施人员(含搬迁搬迁人员、支持人员)在实施当日(实施前、后