虽然大多数组织都做好了面对小规模中断的准备,但他们不能仅仅因为更大、更复杂的危机似乎不太可能发生而忽视它。
IT 团队准备应对的典型中断是常见事件,例如磁盘故障或断电。但是,企业必须解决更多 IT 灾难场景才能得到充分保护。
许多 IT 灾难的根源通常是负责恢复的人员没有考虑硬件故障或意外或恶意丢失数据以外的任何事情。遗憾的是,威胁和场景总是在不断变化,因此灾难恢复计划也必须这样做。
有许多形式的灾难会影响 IT 服务的可用性,有些灾难可能比其他组织更与单个组织相关。评估哪些风险最有可能威胁到公司的基础设施和服务是一个谨慎的举动。风险评估矩阵是一种工具,可以帮助确定灾难发生的可能性及其严重程度。
以下是灾难恢复团队必须准备的五种可能的 IT 灾难场景,以及有关如何做到这一点的提示,无论业务规模和类型、位置和基础架构如何。
失败的备份
失败的备份是最常见的 IT 灾难之一。企业可以更换硬件和软件,但如果数据和所有备份都消失了,那么将它们恢复可能是不可能的,或者非常昂贵。
系统管理员必须定期测试他们从备份还原的能力,以确保备份正常工作,并且还原过程没有一些看不见的致命缺陷。同时,应始终存在多代备份,其中一些备份集在异地进行。
自然灾害
自然灾害可以有多种形式,包括火灾、洪水和地震。虽然灾难的类型可能因地区而异,但几乎所有灾难都可能损坏硬件并导致数据丢失。许多会使工作场所长时间无法进入。
一些组织可能没有意识到他们的办公室位于洪泛平原或地震多发地区,直到为时已晚。缓解此类问题需要一定程度的前瞻性规划。
故障进入云以保持核心服务工作的能力意味着,虽然并非每个应用程序都可用,但那些对运行业务至关重要的应用程序是可用的。建设基础设施,使远程工作成为一种可行的选择,是为各种自然灾害做准备的另一种方式。
能够故障到云中并在异地工作需要一些深思熟虑、规划和应用,但如果发生灾难,会带来巨大的回报。维修和更换建筑物和硬件所需的时间可能比人们估计的要长,而在恢复期间无法运作的企业将面临严重财务损失的风险。
灾难恢复团队可以使用风险评估矩阵来确定不同 IT 灾难场景的可能性和严重性。
勒索软件攻击
勒索软件不仅是企业可能发生的最具破坏性的灾难之一,而且可能也是最有可能发生的灾难。只需要一个具有足够权限的人点击错误的链接就会造成混乱。
防御勒索软件既不是微不足道的,也不是便宜的。许多现代勒索软件都具有智能功能,可以确保在破坏几代备份之前不会激活。
有许多方法可以降低勒索软件攻击的风险,但没有一种单一的预防工具。使应用程序和操作系统补丁保持最新状态,扫描电子邮件以查找可疑附件,限制对外部媒体的访问并提供良好的用户教育将有所帮助。
网络中断
不幸的是,这种 IT 灾难场景经常发生。例如,重型机械可能会切断电缆,使网络无法访问。随着越来越多的 IT 系统基于 SaaS,网络中断是一个越来越紧迫的问题。网络连接对于加入和使用 SaaS 系统至关重要。
幸运的是,近年来,解决这个问题的方法变得容易获得且价格低廉。辅助线路是小型企业的一种选择,大多数网络路由器都提供 4G 或 5G 网络作为备份。虽然不理想,但它使网络中断不再是灾难,而是带来更多不便。整合备份连接确实有成本,但当替代方案是办公室里挤满了无法工作的员工时,这可能是值得的。
硬件故障
硬件故障可以有多种形式,包括系统不使用 RAID、单个磁盘丢失导致整个系统瘫痪、网络交换机故障和电源故障。
大多数基于硬件的 IT 灾难场景都可以相对容易地缓解,但代价是增加了复杂性和价格标签。一个示例是数据库服务器。这样的服务器可以变成具有高度可用性存储和网络的数据库集群。这样做的成本很容易使单个非冗余服务器的成本增加一倍。管理员还必须接受培训才能管理这样的环境。
硬件故障也会影响云。但是,它通常被抽象出来,并且有多个数据副本需要重新生成并继续。