信息系统运维
我方将提供详细的网络平台运维方案,其中包括对应用服务服务器和计算机终端、应用系统、数据库服务器及网络存储系统的具体维护方案、和故障处理办法。
我方提供对系统运行维护工作流程规范;提供日常维护制度;巡检工作流程规范,并提供应用系统运行状况记录和日志记录的表格样式;方案提出运行故障处理工作流程规范及维护报告格式;方案提供预防性检测和工作流程规范,主要包括以下技术服务内容。
(一)热线电话支持
驻场人员及时接听故障服务热线电话,发现问题及时处理。故障处理过程要有专用的运维软件系统做好跟踪和记录。
(二)运维资产管理
服务商应对运维资产进行分类管理,建立资产台账,对设备的生命周期应进行评估和预警,提前向用户提供合理化解决方案。
(三)故障处理服务
服务商应提供网络平台站群系统日常运行中出现的数据库故障及问题、页面无法访问、系统无法连接数据库、网页乱码、页面兼容性问题、页面加载缓慢、网络故障、存储故障、windows和linux应用系统优化等日常问题的处理方法和预防措施。
对日常运行维护过程中的事件、变更、问题等应有服务管理平台进行记录,并将解决方案、实施方案等形成知识,建立知识库,方便运维人员查阅,提高运维效率。
(四)日常巡检服务
服务商应提供应用系统日常运行巡检服务,定期检查服务器运行状态,包括CPU、内存、磁盘运行等情况。编写日常应用运行状态监测制度规范;提供应用运行状态监测记录样表;提供应用系统运行状态监测日志的记录规范方法。
(五)运行监测服务
服务商应提供网站运行状况的24小时实施监测和报警服务。其中包括对应用服务器主机、中间件、数据库的检查和监测服务。系统发生故障可自动发送报警短信给管理和维护人员以便及时处理。
(六)数据备份和恢复服务
服务商应提供完善的应用系统和数据库运行维护方案,包括数据备份和恢复方案。提供在系统及服务器在出现宕机或服务器损坏无法启动时的解决方案,其中包括:操作系统恢复方案、数据库恢复方案、运维保障方案、系统运行监测方案、云平台迁移方案、系统后期稳定运行保障方案等。
(七)应急保障
根据网络平台与信息安全突发事件的严重程度和影响范围,制定应急事件分级标准和上报流程等,编制大市场网络平台信息安全事件应急预案。以应对攻击和病毒入侵、系统文件遭到破坏删除或数据库崩溃等情况。整理分析系统的应急保障措施,并对保障措施提升改进提出安全可靠的可行性解决方案。服务期内,至少组织一次全区性的网络与信息安全应急演练,针对演练发现的问题修订完善应急预案。
(八)安全防护
服务应为系统提供安全防护服务,包括对系统安全风险的防扩和安全漏洞的整改办法,针对SQL注入、XSS跨站攻击等系统安全风险和漏洞提出解决方案和应急保障措施的。能够根据检测出的系统安全漏洞,及时修复,并提供漏洞修复报告。
(九)培训服务
建立和完善运维流程规范、系统或设备操作手册、日常维护操作规程,并制定,培训计划对运维人员进行培训。包括数据库、服务器、中间件、网络管理员培训手册和管理优化和故障处理手册。
(十)应用系统优化
服务商应对应用系统、中间件和数据库系统进行优化配置。编写网络平台站点内容管理方案,资源目录系统的元数据集、元数据、资源目录的维护、管理、测试流程方法。
(十一)功能改进和技术开发服务要求
服务商应提供对系统的功能改进工作、调研分析、技术开发、功能策划、页面设计、功能扩展升级、系统程序更新和测试验证等各阶段的工作流程规范。提供系统的整合优化以及云平台迁移升级方案,提供系统安全防范措施办法,预防SQL注入、XSS等安全攻击。
(十二)备品备件维保服务
服务商应提供备品备件更换及维修服务,对服务器、存储硬盘,投影灯泡、交换机光纤模块等易损耗品提供备件备品保养和维修服务,在配件故障时能及时更换恢复,减少对业务系统的影响。
运维目标
保证所有维保硬件设备的正常运行
保证维保范围内所有的应用系统和数据库系统的稳定运行
保证维保范围内所有相关的生产数据不丢失
对维保范围内所有系统设备和应用相关的其他客户需求提供服务
保证所有生产系统设备7x24小时不间断的稳定运行
运维方式
人工运维+智能自动运维的方式,为客户网络平台的安全与稳定运行提供技术支撑和保障;保障机房基础设施安全稳定运行,不因基础设施故障导致设备出现宕机等事故。
人工运维主要是驻场客服以及技术等人员对维护项目要求的所有内容进行维护、配置以及管理等,包括资产管理、故障处理、日常巡检、数据备份和恢复等。我方会建立故障受理服务台,通过服务台记录业务故障和用户请求,上报和分发处置任务,跟踪和回访处置结果,实现故障处置和服务结果的可追溯、可监督,全面再现所有事件的处置过程。我方会根据甲方的要求对平台进行维护,包括网站前端界面运维,网站前端程序开发维护,网站后台程序开发维护等。
智能自动运维主要是通过监控工具实时对网站群服务端响应时间、网络延时、页面打开速度、页面报错统计追踪进行性能监控;对操作系统、数据库访问、页面访问等日志进行监控记录,建立统计报表并定期对日志进行分析审查。及时发现隐患故障,上报重大事件并启动预案,确保故障和事件处置的有效性、及时性。
除此之外,还可对系统的基础支撑设施如网络设备,终端设备,链路,安全设备以及存储等设备进行安全监控。
运维流程
①日常运维
为保障客户网络平台环境稳定运行,我方驻场人员每天上班前将对客户网络平台基础设施做一次检查,如:是否能连互联网,业务系统是否能访问,公司邮箱是否能使用等。通过此种方式,可确保企业办公人员开始上班能正常工作。主要检查范围:所有网络设备、主机系统、数据库、中间件、标准应用、机房温湿度、UPS 等并形成文档。
另外我方还会定期(具体时长可按甲方要求)对所有基础设备及系统进行巡检。
②事前管理
日常检查完成后,通过监控工具及软件的多种展现方式:物理拓扑、监控首页、智维分析,辅助运维人员掌控客户网络平台环境中存在的风险,做到提前预防。
物理拓扑:自动生成网络设备、主机实际连接关系,图形化方式实时呈现网络设备、主机性能和状态,IT 管理人员通过颜色变化可知晓当前设备情况,特别是对于红色负载的设备可查看最近负载变化情况,如出现持续性负载高,需即时解决,避免宕机等现象发生。
监控首页:自动统计运行情况以及被管对象关键指标 TOP5,运维人员对于环境中需要关注的点一目了然,即时化解存在的隐患。
③事中运维
我方将会根据甲方要求以及客户网络平台的特殊性,建立应急响应制度,编写应急响应预案,保障在异常事件及安全事件发生时能够安全、及时的处理故障,保证业务的连续性,将损失降低到甲方可接受的最低范围。
应急响应组织构成
④事后运维
当暂时的处理完异常及安全事件后,我方技术人员将会通过根除、恢复以及跟踪总结三个阶段完成事后运维。
根除阶段:主要措施有消除或阻断攻击源、找到并消除系统的脆弱性/漏洞、修改安全策略、加强防范措施、格式化被感染恶意程序的介质等。
恢复阶段:恢复的目标是把所有被破坏的系统和网络设备彻底的还原到他们 原来正常的任务状态。恢复阶段的行动集中在建立临时业务处理能力、修复原系统的损害,在原系统或新设施中恢复运行业务能力,重建信息系统等恢复措施。按照应急响应计划中事先制定的业务恢复优先顺序和步骤,顺次恢复相关的系统,恢复的优先顺序应依据BIA(业务影响分析)分析的结果来确定。
跟踪总结阶段:跟踪总结的目标是跟踪系统恢复后的安全状况,回顾并汇总所发生事件的相关信息。
运维内容
①硬件设备修复
②应用服务器维护
1.完成对现有主机的性能采集;
2.提供主机性能负载情况分析;
详细的主机基本管理参数
单个系统的CPU、内存增长趋势
单个系统的业务流量变化趋势
单个系统存储空间实时和变化情况
同时可对统计范围内的主机进行详细的实时分析数据,便于用户关联分析出需要重点关注的主机:
以实时CPU利用率的主机排行
实时内存利用率的主机排行
实时连续运行时间的主机排行
各个操作系统的存储空间已使用情况分析,给出使用率最高的20个设备
最近30天以CPU为评价指标的高负载和低负载设备列表
按照不同的操作系统进行数据分类,系统提供基础信息、运行信息、进程管理、事件与告警、硬件信息等各类管理信息:
以关联方式呈现主机上的承载数据库、中间件、标准应用的实时状态
图形化列出重点监控的硬件、日志、CPU性能、磁盘信息的实时信息
对于CPU性能、网卡等重要参数的最近3天数据分析
对主机进程分析
③数据库维护
1.完成对现有数据库的管理;
2.对数据库性能负载情况分析;
3.对数据库的表空间大小和会话数、缓存信息、锁信息进行重点监管;
检查数据库运行状况
④中间件
1.对现有中间件的性能采集;
2.对中间件性能负载情况分析;
运维管理
①系统运行维护工作流程规范
②日常维护制度
1.驻场客服接听客户的服务需求电话,并记录客户的基本情况及服务需求的内容。
对客户服务需求进行归档和整理,信息转入技术服务部。
技术服务部及时与客户联系,进一步了解故障情况,对能在电话中解答和处理的问题给予即时解决,对无法在电话中解决的问题,则安排人员到现场进行进一步排查,确定问题原因。如是一般操作和技术问题,现场予以解决;如需现场维修将派驻管辖区域维修人员全程服务,如设备出现需要更换,则带回,转到维修部或到采购中心向厂家调换。
维修部负责故障设备的维修和时间控制,维修完毕后发回客户,如需安装则派人员上门安装。
客户信息部对整个流程进行监督和控制,在维修后进行回访。同时,客户信息部对客户档案进行管理,对客户进行定期的回访。
2.作业流程
客服中心接听客户报修—→技术部经理安排技术人员—→技术人员上门维护并填写维护单—→请业主在维护单上签字并打分—→技术人员将维护单提交客服中心—→客服中心将维护单核对并与客户确认—→客服中心将维护单上分数统计交由行政部—→行政部将分数计入KPI考核。
3.紧急异常情况的及时处理
经验表明,任何实际的系统,在运行过程都难免出现某些紧急异常情况,我公司具有处理这类突发事件的能力,建立紧急异常情况的处理保障体系。
在工程项目保修期负责条款以及保修期后的维护合同中对这类紧急异常情况的处置作出明确规定。
建立并保存完整的系统文档。
我公司在系统调试交接时,将提供完整的完工图纸,软、硬件文档,操作、维护手册,设备清单等,并帮助业主建立系统的运行、管理和维护文档,以便在发生故障时能及时提供资料,迅速找到并排除故障,将损失减至最小。
③巡检工作流程规范
我方将负责客户网络平台相关的机房环境、计算机硬件、配套网络、基础软件和应用软件的巡检,制定巡检计划并交与甲方审核,审核通过后将按照计划进行巡检。
具体实施:
1、制定技术巡检计划,列出巡检重点、内容、要求,形成巡检检查表格;
2、收集设备运行故障和隐患。根据年度巡检重点、内容,调查设备近期运行情况,统计出各类型设备在运行过程中曾出现的故障。对反馈的问题进行分析、评估,做好相应的技术准备;对一些需要厂家解决的问题列出清单,及时与厂家沟通,制定解决方案,以供巡检过程中实施、解决。
3、确定巡检线路、时间,安排专业技术人员参加现场巡检,要求:
到每个部门时,由各部门的技术员进行配合;
3.1到每个部门后,应先向其部门负责人汇报巡检工作安排,与其技术员交流、沟通,掌握当前各设备运行情况,了解系统存在的问题;
3.2检查各相关设备运行维护情况,解决设备运行问题,如实填写巡检表,列出发现并已解决的问题以及未解决的问题。对已解决的问题详细说明解决办法,对未解决的问题提交后续跟踪、处理的限时解决方案或建议;
3.3向维护部门负责人通报巡检情况,在取得其的同意下,签署意见并盖章确认。
4、巡检返回后十个工作日内,在各巡检表基础上整理一份巡检总结报告,提交信息系统维护管理部门。
5、组织相关技术人员对专业巡检情况进行分析,列出巡检过程中处理、解决的故障详细表以及未解决的故障详细表,进一步督促厂家限时解决遗留的故障和问题。
④应用系统运行状况记录及日志记录表格样式
序号 | 项目 | 结果 |
1 | 中间件版本、补丁版本信息 | □正确 □不正确 |
2 | 中间件JDK版本是否存在已知BUG | □是 □否 |
3 | 中间件集群状态 | □正常 □不正常 |
4 | 中间件节点同步状态 | □正常 □不正常 |
5 | 中间件资源使用情况(TPV) | □正常 □不正常 |
6 | 中间件应用程序同步情况 | □正确 □不正确 |
7 | 中间件配置参数备份情况 | □正常 □不正常 |
8 | 中间件应用程序使用状况 | □正常 □不正常 |
9 | 中间件IHS功能完成情况 | □正常 □不正常 |
10 | 中间件IHS plugin-cfg.xml受否同步 | □正常 □不正常 |
11 | 中间件PMI度量显示是否正常 | □正常 □不正常 |
12 | 中间件连接池使用率是否峰值 | □是 □否 |
13 | 中间件日志检查 | □正常 □不正常 |
14 | 中间件版本是否存在已知严重BUG | □是 □否 |
15 | 中间件当前版本是否受官方support | □是 □否 |
序号 | 检查项 | 检查结果 | 备注 |
硬件部分 | |||
1 | 设备型号 | ||
2 | 设备序列号 | ||
3 | 设备管理地址 | ||
4 | 检查主机状态灯是否正常 | ||
5 | 检查主机硬件情况 | ||
软件部分 | |||
1 | 系统软件版本 | ||
2 | 检测配置是否合理 | 合理 | |
系统状态检查 | |||
1 | CPU使用是否正常 | ||
2 | 内存使用是否正常 | ||
3 | 所有接口是否工作正常 | ||
功能检查 | |||
1 | PING到所有业务连通性 | ||
2 | 路由表是否正常 | ||
3 | 设备管理远程是否正常 |
维护启动时间 | 维护响应时间 | |||||
维护启动人员 | 维护响应人员 | |||||
问 题 描 述 | ||||||
问 题 分 析 | ||||||
问题 解决 方案 | 响应方式 | □电话 □传真 □邮件 □远程 □现场 | ||||
问题解决时间 | ||||||
问题解决人员 | ||||||
是否更换 | □是 □否 | |||||
更换硬件型号 | ||||||
日常 维护 评价 | 服务质量 | □非常满意 □满意 □不满意 | ||||
技术平水 | □非常满意 □满意 □不满意 | |||||
响应速度 | □按合同约定 □未按合同约定 | |||||
故障修复时间 | □按合同约定 □未按合同约定 | |||||
维护 评价 结论 | 维护启动人员: | |||||
问题解决人员: |
⑤运行故障处理工作流程规范
一、故障管理
根据故障的影响范围及持续时间等因素,将故障分为特别重大故障(一级)、重大故障(二级)、较大故障(三级)、一般故障(四级)四个级别。具体分级标准参见《信息系统应急预案》。
系统出现故障,信息系统所在地维护部门或维护人员首先进行处理,同时判断系统类型和故障级别,根据系统类型和故障级别,故障处理应在要求的时限内完成,并同时向上级维护部门报告。故障处理时限要求参见《信息系统应急预案》。
故障升级要求
1、信息系统所在地维护部门处理不成功或无法自行处理,则向上级维护部门申告故障,根据系统类型和故障级别,故障申告应在要求的时限内完成,故障申告时限要求参见《信息系统故障管理办法》。
2、信息系统故障受理部门受理各单位故障申告,紧急情况下,可以利用电话申告和受理,但事后必须补填故障受理单。
3、信息系统维护部门对口故障处理人员接受故障派单后,应立即以电话、远程登陆等方式进行远程技术支持,必要时进行现场技术支持。对无法解决的故障,应立即向软硬件最终提供商、代理商或维保服务商(以下简称厂商)提出技术支持申请,督促厂商安排技术支持,必要时进行跟踪处理,与厂商一起到现场进行解决。现场技术支持响应须在要求的时限内完成,现场技术支持响应时限要求参见《信息系统应急预案》。
4、厂商技术人员现场处理故障时,公司维护人员应全程陪同并积极协助,并在故障解决后进行书面确认。
5、故障解决后,技术支持人员应立即向派单部门回单,派单部门对故障处理回单进行确认、评估,并通知申告单位进行业务验证。
6、参与故障处理的各方必须如实、及时填写故障处理单(表单格式参见《信息系统应急预案》),现场技术支持还须当地维护人员予以签字确认或维护部门盖章。
7、要建立重要紧急信息上报渠道,对于发生的重要紧急情况,应该立即逐级向上级主管部门报送,对业务影响较大的还应及时通知业务部门。
8、各级维护人员应拥有上级主管部门和相关业务部门的联系方式,包括电话、手机、传真等。
9、故障报告要求:发生较大(三级)或以上故障时,必须立即上报信息系统维护管理部门,如果是特别重大故障,应立即上报主管行领导。所有的较大(三级)或以上故障应在月度运维报告中进行记录,并在规定时限内向风险管理部门和内审部门提交故障分析报告(具体要求参见《信息系统故障管理办法》)。
10、对于系统隐患或暂时不能彻底解决的故障应纳入问题管理,每月应对存在的问题进行跟踪分析。
⑥预防性检测和工作流程规范
1、厂商维护手册建议的预定义处理作业;
2、系统告警和资源占用状态观察;
3、预防性维护工作,包括各类参数、数据备份、存储和管理;
4、性能指标观察和记录;
5、用户口令和权限审核;
6、日志审核。
数据备份、存储和管理应根据相关业务特性和需要制订作业实施步骤。
系统运行维护流程规范
系统功能升级流程规范
上一篇:无
下一篇:信息系统集成