数据中心最怕什么?
停电、网络受损…
数据中心运维人员最怕什么?
宕机、不常规故障、升级扩容…
随着数据中心建设的规模不断扩大,新技术迭代更新,承载数据中心业务的网络变得异常复杂。为了适应数据中心业务的发展,数据中心网络也在不断更新与变化,给运维工作带来了极大的难度。数据中心宕机事故也难免发生,这不仅增加了数据中心运维人员的工作量,更重要的是给数据中心带来了巨大的损失,就连全球知名的互联网巨头也经常享受这般“待遇”。
互联网巨头宕机不断,运维工作成难题
3月3日凌晨,阿里云出现宕机故障,导致购买阿里云服务的企业网站或互联网公司APP无法正常使用。一大波程序员、运营和运维不得不从被窝里爬起来干活。针对阿里云此次宕机,58高级架构师沈剑称,事故持续了3个小时左右,事后观察了2个小时。
5月3日凌晨3点43分开始,微软Azure在全球范围内出现了大面积宕机,整个过程持续了将近2个小时,直到5点30分才完全恢复。受Azure宕机影响,包括Microsoft 365,Dynamics和DevOps在内的微软主要服务均出现使用问题。
6月3日凌晨2点58分开始,谷歌在全球范围内遭遇了大规模中断,包括Gmail、YouTube和Google Drive在内基于谷歌云架构服务的诸多谷歌服务均受到影响。用户访问谷歌服务出现各种错误提醒,并且阻止用户访问电子邮件、上传YouTube视频等。
6月25日消息,亚马逊在官网证实云计算服务出现了宕机,导致部分网络用户和多个AWS区域的网络连接受到了影响。出现故障的节点在AWS美东1区,共计33个服务受到影响,其中9个处于完全中断状态。
宕机事故频发,运维难度“更上一层楼”
一次次宕机事件证明了数据中心运维工作的重要性,但似乎不能避免。如今随着科技的进步万物互联时代的到来,数据中心作为重要基础设施发挥着重要作用,虽然数据中心在国内的发展只有十多年的时间,但已经从只有UPS、空调和IT设备的普通机房时代,进入到囊括互联网、大数据、AI、云服务等全方位服务、动辄拥有数万机柜,自然冷、风墙、水下数据中心、液冷服务器等新技术不断被创造和应用的新时代。这样一来,运维管理面临着更大的挑战,运维难度也“更上一层楼”。
首先,超大规模的数据中心带来的人员、组织和效率的变化。以前万平米以内的数据中心,人工巡检一次2-4小时,现在数十万平米,需要更多的运维人员分布在不同的责任区,增加了管理的难度和成本;其次,电压等级提高,安全风险增加。以往运维人员接触的是低压,现在供电设备、发电机、冷机都是高压供电,维护安全要求提升;此外,规模集中,导致风险集中,事故影响更大。例如上文中谈到的数据中心宕机事故,导致全球大面积的服务和应用中断,损失惨重,因此运维管理的压力超前。
减少人为失误,提升运维管理的专业技能
据数据调查显示,数据中心的宕机事故70%是由人为失误造成的,因此在数据中心规模不断扩大的同时,运维人员要通过提升自身的技能和专业水平以应对数据中心意外事件的发生:
- 建立一套完备的人员技能评价体系,从多方面考核运维人员技能能力,能够有效帮助运维人员提高运维技能,促进运维人员主动学习自动提升。
- 运维经验在线学习,建立运维经验库,实现在线运维经验共享交流平台,提供运维知识在线实习和学习的渠道。
- 实操环境在线模拟,提供运维模拟实践操作环境,有效隔离操作风险,帮助快速提高运维实际水平。
- 理论技能在线评测,依托海量IT云平台组件题库,定期考核,随机出题,实现运维理论能力的在线实时自动测评。
- 实操技能在线测评,构建轻量化在线运维操作、在线编程环境,实现运维操作技能与研发技能的在线实时自动评测。
- 通过自动评测提升效率,实现运维理论技能与实操技能的在线科学自动评测,提高评测效率,确保能力客观公正的体现。
弥补人工运维不足,智能运维应运而生
如今,数字化时代已经到来,数据中心规模和容量都在成倍增长,随之而来的运维管理复杂度和难度也越来越大,从脚本运维、工具运维到平台运维演进至今,人力已接近极限,随即智能运维应运而生。如今更多的数据中心企业诸如腾讯、华为、京东等开始加大研发力度投入到智能运维的浪潮中来,将人工智能与运维结合,基于已有运维数据(日志、监控信息、应用信息等),通过机器学习的方法来提升运维效率,从而逐步取代人工的运维。相信未来数据中心将会越来越智能化。