80%的故障在人为,数据中心运维失误如何避免?

数据中心运维是老生常谈了,之所以运维的事情总被提起,是因为在数据中心的整个生命周期里,90%的时间都是在运维,运维的质量和效率直接决定了数据中心未来发展的潜力和速度。

 

运维的工作之复杂和枯燥程度往往超出人们预想,这也使得能在运维的工作上做久的人并不多,几乎三五年就要换一批人。数据中心运维的工作复杂性是由其系统特点决定的。

 

01标准化不统

 

数据中心是多种信息系统的综合体,涉及很多方面的技术,而且每种技术又会细分类别,这样产生了多种多样的差异化产品,虽然数据中心领域有公认的几个巨头企业,即便这样每个企业也难以覆盖到数据中心所有产品,这导致数据中心里的软硬件差异性较大,不同产品实现也有差异,使用习惯也不同,有的产品为了提升竞争力,支持了一些特有的先进技术,这些导致运维的工作中需要进行大量兼容性配置,做不到兼容的地方就需要掌握这些配置差异的地方,避免用错。

 

比如数据中心网络部分,这是数据中心里差异性最大的部分之一,这里面有不少协议都是私有协议,没有按照标准实现,这样在设备之间互通就存在问题。数据中心在进行网络扩容时,没有选择余地。还有不同网络企业的产品操作命令行风格也不同,相同功能协议的配置和运维的使用方法都不同,这也是云计算为何那么受数据中心欢迎的重要原因。

 

云计算实现的基础就是要求数据中心在计算、存储和网络硬件,以及软件、配置等等方面形成统一标准,只有这样才能部署云计算,这可给运维的工作带来了极大便利。运维的人员只需遵循一套统一标准来管理设备,可忽略不同产品之间的差异,极大提升了运维的工作效率。

 

02业务及设备需人工手动部署

 

在数据中心整个生命周期过程中,要经历无数次大大小小的各种业务割接、扩容、变更事件,数据中心业务发展越快,这类工作越频繁。传统数据中心在进行业务部署时,要进行大量的手工配置,这些配置一旦出错不仅影响到新业务上线,还可以对原有业务造成冲击,所以每次部署时,运维的人员每个操作都要小心翼翼。

 

数据中心里80%的故障都是人为故障,可见与机器相比,人是不够可靠的。机器只要我们提前给设置好既定程序,除非坏了,否则永远都会按照程序来走,人是感性思维的动物,经常受到外界的干扰,执行程序就可能会有错误。

 

 

人工手动部署业务不仅极大增加了运维的工作量,还增加了系统操作失误风险。如今,虽然不少的数据中心开始建设云管理平台,就是要用软件代替人工,由软件实现业务和设备的自动上下线,实现资源快速上线、扩容与下线。但是涉及到基础的线缆运维,特别是诸如六类网线、高密度光纤等仍然需要依靠大量的运维人员,而上面所谈到故障的80%都有可能是人为故障,那么我们不禁要问,繁琐的寻线工作,又如何确保最高的效率呢?

 

数据中心运维的周期里,运维的效率和质量都对整个数据中心机房起着重要的作用,如何提高运维质量,是否有个的方法呢?