APP下载

Tech Talk・云技术有话聊 | 深信服混合云容灾技术解析

消息来源:baojiabao.com 作者: 发布时间:2024-05-10

报价宝综合消息Tech Talk・云技术有话聊 | 深信服混合云容灾技术解析

6 月 9 日,信服云容灾技术负责人 XiaSiming 在信服云《Tech Talk・云技术有话聊》系列直播课上分享了《深信服混合云容灾技术解析》,详细介绍了信服云容灾的价值、混合云容灾技术介绍、容灾场景实践等内容。以下是他分享的内容摘要,想要了解更多可以关注"深信服科技"公众号观看直播回放。

一、容灾价值

随着互联网业务的蓬勃发展,云计算平台承载着用户的更多业务,容灾在很大程度上可以保障用户的业务安全。

容灾包括合规要求、安全事件、灾难故障等,针对运维人员少、技术水平有限、预算有限等问题,信服云容灾技术方案为用户打造了简单、可靠、灵活、高性价比的解决方案。

信服云容灾主要以下四个特点:

简单易用:为用户提供云平台一体化的运维体验,不需要专业的灾备能力也能实现灾备。

安全可靠:确保数据一致性,容灾恢复效果,闲时可验证,及时可恢复。

灵活配置:灵活的灾备策略(CDP、定时备份)、保留策略,满足本异地分级保护需求。

高性价比:相比自建机房,整体成本更优,上限实施更快,且可提供贴身运维式服务,降低用户自身运维压力。

混合云容灾技术介绍

容灾是指虚拟机在生产中心(主站点)保存一份备份,同时在容灾中心(备站点)保存一份副本。随时可以在主站点和备站点根据需要通过备份来恢复虚拟机,当用户虚拟机业务因意外停止工作时,可以通过切换站点使业务继续正常工作的系统。

深信服混合云容灾当前实现的是虚拟机级别的容灾。在容灾过程中,用户虚拟机业务不会受到影响。

根据业务重要程度的不同,可以实现不同 RPO (Recovery Point Object) 的容灾保护级别。容灾保护可以分为备份保护和 CDP 保护(持续数据保护)。容灾恢复包括灾难恢复和计划内恢复;恢复后虚拟机运行在备站点。当主站点恢复正常后,可将业务虚拟机从备站点回迁到主站点运行。

容灾流程操作的第一步是创建一个容灾保护策略。将需要保护的虚拟机加入到容灾保护策略中。根据虚拟机业务的重要程度,定义容灾保护的 RPO。创建容灾保护策略后,会在备站点同时创建一个对应的容灾备机。容灾保护根据 RPO 的不同要求,有备份保护和 CDP 保护。

在备份保护过程中,会通过 bitmap 来读取虚拟机磁盘上新增的 I / O 数据,转化成 qcow2 保存在主站点的备份存储上。同时定时将该备份文件传输到备站点的备份存储上进行保存。

在 CDP 保护过程中,当受保护的业务有 IO 操作时,会将所有的 IO 操作通过日志文件的形式保存到主站点存储块上。同时实时将 IO 文件传输到备站点的存储块上进行保存。当主站点发生灾难时,需要在备站点恢复虚拟机业务。通过传输到备站点的备份点快速恢复虚拟机,同时对虚拟机进行开机操作。主站点恢复正常后,将运行在备站点的虚拟机回迁到主站点。此外,也会对备站点虚拟机进行一次备份,确保回迁后的虚拟机不丢失数据,然后再将备站点的增量备份传输回主站点,最后在主站点进行覆盖恢复。

备份分为全量备份、增量备份。在全量备份过程中,虚拟机会在 BITMAP 将磁盘数据的全部数据块都标记为脏,然后将全量数据从虚拟机运行存储中读取出来,写入到 qcow2 备份文件中。在此期间,虚拟机在备份过程中会监控磁盘数据块的变化情况,并记录在 BITMAP 中,便于后续进行增量备份。在增量备份中,虚拟机会通过 BITMAP 读取磁盘上的增量脏数据,将数据写入备份存储的 qcow2 文件中,同时通过 BITMAP 记录新的脏数据块。一般情况下,在某个存储首次备份或者某个备份点损坏时,才会进行全量备份,其他情况一般都进行增量备份。

对于 CDP 备份,虚拟机所有的 I / O 操作落盘后,复制出一份 I / O,写入到指定配置的 I / O 日志存储中,将 I / O 操作记录成 I / O 日志文件保存。

CDP 备份过程中,会实时记录 I / O 日志,定期(最短 1s)生成一致性的 RP 点。CDP 只记录用户进行的 I / O 操作,但并不会去记录原始磁盘的状态。需要依赖虚拟机所做的备份点。IOLOG 和备份点相结合,才能真实还原某个时间点磁盘的真实状态。

信服云 CDP 备份优势体现在这五个方面:

1.同时进行虚拟机 IO 数据备份

虚拟机启动时,不需要等待 CDP 数据同步完成,就可以开启业务,同时进行虚拟机 IO 数据的备份。

2.缓存异步复制

对虚拟机的 IO 数据采用了缓存异步复制技术,开启 CDP 功能后,会从 qemu 的 block 层复制 IO 数据到 iolog buffer,然后由 cdp_worker 服务异步写入到 iolog 系统,整个过程对虚拟机的 io 性能无任何影响。

3.虚拟机的 CDP 能够动态开启和关闭

虚拟机的 CDP 能够动态开启和关闭,在实际使用中会比较灵活。例如,对正在运行的虚拟机,不需要重启或中断业务,就可以开启 CDP。

4.虚拟机与 CDP 在逻辑上进行故障隔离

虚拟机与 CDP 在逻辑上进行了故障隔离,当 CDP 模块出现故障时,不会影响虚拟机的业务。当故障消除后,CDP 模块会自动恢复运行。

5.快速浏览指定 CDP 备份内的文件

支持快速浏览指定 CDP 备份内的文件,方便用户快速从 CDP 备份中获取数据文件。

由于备份记录的是一段时间磁盘数据的变化量,那么备份点就会存在冗余数据,为了尽量减少冗余量,合理利用存储资源,需要对备份进行定期清理。清理备份是根据备份点的时间,从最早的备份点开始清理。依赖 QEMU COMMIT 的原理,将前一个备份跟后一个备份进行合并,去掉其中重复的数据。容灾主站点的 IOLOG 的清理,是直接删除 I / O 日志。而备站点是通过回放的方式,将 IOLOG 合并成一个备份。

在数据传输优化上,信服云使用性能更高的 lz4 来替换原生的 zlib 压缩算法,将单核的压缩性从 100MB/s提升到 700MB/s,同时满足万兆带宽场景,QEMU 压缩线程的 CPU 消耗从 1000% 降低到 200%。

三、容灾场景实践

容灾场景实践分为本地数据中心容灾到云上、云上跨区域容灾、云上容灾到本地数据中心。

本地数据中心容灾到云上

该场景主要针对的是用户的业务运行在线下资源池,需要将线下的资源池的业务容灾到线上的信服云上。此时需要在用户线下和线上之间,打通链路后将线下的业务数据备份通过容灾网关传输到线上的数据中心中,然后保存在线上的共享存储中,当用户出现故障时,即可随时从线上的共享存储拉起虚拟机,将业务恢复到线上的数据中心。当需要将线上的数据回迁回线下数据中心时,可将线上数据中心虚拟机产生的脏数据通过容灾网关回迁到线下的数据中心,整个流程即可对用户的线下资源池进行业务保护。

云上跨区域容灾

云上跨区域容灾该场景主要针对的是用户本身的业务虚拟机已经运行在信服云的云平台上。当用户需要将信服云平台上的数据容灾到另外一个资源池,实现异地容灾,以确保数据的安全性。此时需要将线上的两个数据中心之间链路进行打通,打通后线上数据中心 A 可以将用户的业务数据通过容灾网关容灾到线上数据中心 B 以达到容灾的效果。

云上容灾到本地数据中心

此场景主要针对的是用户的业务运行已经运行在信服云的云平台上。用户需要将云上的业务容灾到异地的线下的私有云场景,此时用户的业务运行在信服云的云平台上,需要先打通信服云平台跟线下的私有云之间的网络链路,通过信服云容灾网关将线上的业务数据从共享存储中读取出来生成备份,然后将备份传输到线下资源池中,存储到线下资源池的备份存储中。当出现业务故障时,可随时在线下资源池通过恢复拉起的方式将线下虚拟机在线下资源池进行拉起,拉起完成后可随时将线下的数据通过容灾网关回迁到线上的数据中心,以达到故障容灾的效果。

2022-12-19 18:07:25

相关文章