您还未登录! 登录 | 注册 | 帮助  

您的位置: 首页 > 软件开发专栏 > 系统/运维 > 正文

运维如何才能不背锅?这份灾备秘籍了解一下

发表于:2018-11-13 作者:英方云 来源:今日头条

不出所料,这次云硬盘故障,运维人员又“背锅”了。


运维要想不背锅,就需要从掌握灾备知识做起。不管你是西二旗的小王、陆家嘴软件园的小孙,还是科兴科学园的小张,今天,就让我们重新武装自己,一起温习数据及业务保护的那些知识,早日摆脱背锅侠的宿命。

备份


备份是指数据或系统的备份,它是容灾的基础,是指为防止系统出现操作失误或故障导致的数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其它存储介质的过程。

运维如何才能不背锅?这份灾备秘籍了解一下

按照备份的数据量,可以分为全量备份、增量备份、差量备份,可以从下图看出它们之间的差异:

运维如何才能不背锅?这份灾备秘籍了解一下

按照备份时间频率,可以分为定时备份、实时备份。


定时备份——是指有时间间隔的数据备份方式,比如一天一次,一周一次,或者一个月一次,定时备份不能保证数据的零丢失。

实时备份——是指无时间间隔的数据备份方式,通过实时数据复制,保证主备两端的数据读写一致,确保数据的零丢失。

根据数据备份时服务器是否停机又可分为冷备和热备;按照数据存储介质之间的距离又可以分为本地备份和异地备份。

通过网络进行备份是热备的主要方式,其主要的传输模式如图:

运维如何才能不背锅?这份灾备秘籍了解一下

备份是DBA的重要法宝。备份是第一位,有了安全的数据备份,哪怕遭遇一般的灾难,也可以从容应对。

快照


快照是指一种快速数据保护技术,快照是某个数据集在某一特定时刻的镜像,也称为即时拷贝,是数据集的一个完整可用的副本。

快照实现的技术方式包括:写时复制 (COW)、I/O重定向 (I/O Redirect)、镜像分离 (Split Mirror)、克隆快照(COW with Copy)、持续数据保护(CDP)等。

运维如何才能不背锅?这份灾备秘籍了解一下

快照有两个作用:


一是能够进行在线数据恢复,当存储设备发生应用故障或者文件损坏时可以进行及时数据恢复,将数据恢复成快照产生时间点的状态。

二是为存储用户提供额外的数据访问通道,当原数据进行在线应用处理时,用户可以访问快照数据,还可以利用快照进行测试等工作。

目前主流的快照技术包括镜像分裂快照技术、按需备份快照技术、指针重映射快照技术、增量快照技术等。

快照产品一般有三种基本形式:基于存储设备、卷级别和文件系统级别。

归档


归档是把不常访问的数据迁移到其他存储设备上。迁移后可以选择在原系统中留下归档存根,用户通过对归档存根直接访问,自动回调归档数据,从而实现透明访问归档数据。

归档的特点包括改变了系统中的数据及状态;可大量节省在线存储空间,提高在线存储性能;提高备份/恢复速度,并节省备份介质。

归档的主要应用对象:文件系统、NAS;邮件系统:MS Exchange、Lotus Domino;文档系统:SharePoint等。

运维如何才能不背锅?这份灾备秘籍了解一下

归档的技术路线:


首先设定一个时间线,把文件分成常用数据和历史数据两个部分。

其次要定期进行归档操作,把历史数据存放于归档存储,归档后的文件/邮件在原处可留下存根;用户访问存根,归档文件/邮件自动回调。

最后,归档后,只需要对常用数据进行备份,大大减少备份数据量;同理,只要恢复常用数据,系统就能工作,大大降低恢复时间。

CDP


CDP(Continual Data Protection)是一种连续数据保护技术,它兼具数据备份与数据恢复的功能,通过CDP实时备份技术,可以实现到秒级的细粒度抓捕效果。

目前,主流的CDP有很多维度,包括基于存储数据块的,存储快照的,操作系统IO层的。

采取不同的技术维度,所获得的数据还原细粒度也有所差别,根据恢复的细粒度的大小,业界将CDP分为真CDP(True CDP)和准CDP(Near CDP)。

真CDP技术是持续不间断的监控并备份数据变化,可以恢复到过去任意时间点,是真正的实时备份,不会造成数据的丢失。准CDP是指接近持续数据保护,数据备份存在延时,也就是意味着存在部分数据丢失的风险。

运维如何才能不背锅?这份灾备秘籍了解一下

根据用户对RPO的要求以及灾备策略的不一样,CDP技术方案选择有很大自主性,但是随着数据量的增长和业务信息化的加快,未来的趋势将是以真CDP为主。英方i2CDP属于真CDP技术,能够提供细粒度数据持续保护,可恢复至任意历史时间点。

上面的备份、快照、归档和CDP,其实都是为了数据和业务的恢复。


狭义的恢复(Recovery)定义是指重新创建生产系统应用或计算环境的过去操作状态,包含完全恢复和小颗粒恢复两种模式。

运维如何才能不背锅?这份灾备秘籍了解一下

广义的灾难恢复(国内通常简称为灾备或容灾)则属于业务连续性的技术层面。在用户信息服务中断后,需要快速调动各种资源,在异地重建信息技术服务平台(包括基础架构、通信、系统、应用及数据),灾难恢复也包括本地的恢复与重建。

容灾


通俗地讲,这就是容灾的范畴。容灾,从广义上讲,任何提高系统可用性的措施都可称之为容灾,它的主要作用是帮助用户快速恢复系统正常功能,持续对外提供服务。

它分为本地容灾、异地容灾、云容灾。


本地容灾,一般指主机集群,当某台主机出现故障,不能正常工作时,其他的主机可以替代该主机,继续进行正常的工作。

异地容灾,一般指在与生产机房有一定距离的异地建立与生产机房类似的信息平台(备份中心),并采用特定的技术将生产中心的数据传输到该备份中心,从而在生产中心发生较大的灾难如火灾或地质灾害时,仍能对生产数据进行保护的容灾系统。

云容灾,一般指云数据中心的物理机或虚拟机容灾。云主机系统由大量服务器组成并分布在不同的地点,同一时间为大量用户服务,因此云计算系统采用分布式存储的方式存储数据,用冗余存储的方式(集群计算、数据冗余和分布式存储)保证数据的可靠性。这种方式保证分布式数据的高可用、高可靠和经济性,即为同一份数据存储多个副本。

综上,评判数据保护和容灾方案优劣的两个重要参考指标是:RTO和RPO。


运维如何才能不背锅?这份灾备秘籍了解一下

RTO是指灾难发生后,从系统宕机导致业务停顿之刻开始,到系统恢复至可以支持业务部门运作,业务恢复运营之时,此两点之间的时间。RTO可简单的描述为企业能容忍的恢复时间。

RPO是指灾难发生后,容灾系统能把数据恢复到灾难发生前时间点的数据。它是衡量企业在灾难发生后会丢失多少生产数据的指标。RPO可简单的描述为企业能容忍的最大数据丢失量。

总而言之,不管是在本地还是云端,或者两者之间的灾备,数据实时备份、数据恢复粒度越小和容灾切换接管越快,将是未来灾备领域数据和业务保护的趋势。