服务器虚拟机备份方案|数据自动备份与快速恢复

阿木 发布于 4 小时前 1 次阅读


若数据备份选错,恢复时便会两行泪,笔者所在公司,有着从物理机到云服务器的混合架构备份策略,曾踩过坑,也填过坑,今日将真实操作细节全盘托出。

云服务器备份这样做才稳

我们公司在云上运行着20多台服务器,于2025年初将备份方案完全彻底地重新推倒。以往采用本地机房对云服务器进行备份,当带宽达到满负荷时需要40小时,而恢复的时间则更为漫长。如今直接在云平台购置冷存储桶,每周日凌晨2点开展全量备份,增量备份则每天进行一次。核心ERP系统除了进行定时备份外,还专门单独设置了一台处于同区域不同可用区的从库,运用MySQL主从复制方式,将延迟控制在3秒以内。

云存储硬盘,我们所挑选的堪称是标准型低频访问层级,历经半年的时间,如今存储成本相较于之前运用本地NAS的情形而言,降低幅度达到了37%。恢复测试,每一个季度会开展一回,在上一次进行模拟主库崩溃之时,从库在短短5分钟内便成功完成接管,业务方面几乎没有察觉到任何异样。云厂商自身所携带的快照,我们同样予以采用使用,不过仅仅保留最近的3份,其主要目的在于应对误操作以后的回滚情况。

物理机与虚拟机混搭备份术

机房之中,存在着4台HP DL380物理机,它们运行着核心交易库,每一台都配备了双路金牌处理器以及512GB内存。这三台主库构建了Rose Mirror HA集群,心跳线进行直连,切换时间大约在25秒左右。与此同时,还有一台虚拟机运行着相同版本的MySQL,并通过半同步复制来接收主库binlog,平常并不对外提供服务,每过两周便手动进行拉起以验证数据的一致性。

该虚拟化集群存有6台超融合宿主机,其上运行着45台虚拟机。所有具备状态的数据虚拟机均进行了两份备份,其一为源于备份软件的策略备份,其二是存储端的快照联动备份。宿主机自为DELL PowerEdge R750,有着本地RAID10缓存以及后端全闪存,备份窗口被控制于凌晨业务低峰段落,有着本地RAID10缓存以及后端全闪存,备份窗口被控制于凌晨业务低峰段落,有着本地RAID10缓存以及后端全闪存,备份窗口被控制于凌晨业务低峰段落。

主从技术不止用于高可用

所有产生重要数据的服务器,均延展了我们的主从备份,并非仅局限于数据库。像是在Redis集群里,采用了伪哨兵模式,当主节点物理机出现故障而挂掉时,从节点虚拟机会自动升级为主节点,并且开发测试环境也被要求搭建从库。文档服务器运用了MongoDB复制集,其三节点分布于两台物理机以及一台虚拟机之上,多数派写策略确保了数据不会错失丝毫。

让人最为头疼的主从同步方面,存在着延迟监控这一状况。我们自行构建了Prometheus告警,也就是当Seconds_Behind_Master超出30秒的时候,便会通过钉钉发出报警。曾经有一回,因为归档表被批量删除,致使主库压力急剧增大,从库延迟达到了15分钟,所幸及时察觉并进行了限流。如今,开展核心业务的从库升级成了SSD云盘后,它的IOPS提升了4倍,延迟在平日里稳定处于1秒之内。

网络隔离是备份的隐形防线

数据服务器全都放置于单独的VLAN内,其网段同办公网、应用网通过三层路由相隔离开来。应用服务器要访问数据库,必定得经由防火墙策略,源IP仅仅开放特定的几个,像Nginx网关以及跳板机之类。备份服务器同样处于这个隔离区域,备份流量经由独立的万兆存储网传输,不会占用业务带宽。

去年进行等保测评那会儿,对备份恢复流程予以检查,审计发觉,我们所拥有的备份数据存储卷挂载路径设置了端口级白名单,就连备份软件的管理口都将公网访问给禁用掉了。安全团队每隔一个季度就对防火墙规则开展一次刷新操作,一旦IP过期便即刻进行清理。如此一来,哪怕前端应用遭受了攻破,攻击者也没办法朝着横向方向抵达备份系统。

备份软件选型交过昂贵学费

2019年公司所采购的备份一体机,仅支持定时备份,于每天凌晨2点运行一次。去年8月,某CRM系统在下午4点遭遇勒索病毒加密,恢复时发觉当天备份尚未执行,仅能找回前一天的,丢失了将近20小时的订单数据。随后采购了支持CDP的备份软件,花费12万,不过是值得的。

目前运用Zerto开展持续数据保护工作,将I/O级别进行实时复制,复制至另一台灾备存储,RPO从24小时缩减至5秒以内,RTO也从6小时降低到40分钟,CDP日志占用空间的确很大,我们设定了保留72小时,并且每周进行全备并归档至磁带库,选择备份软件千万不要仅仅着眼于采购价,恢复时效才属于真正的成本负担。

分级备份让每一分钱都值

应用服务器当中,有35台是不存数据的,这些全都采用镜像部署方式,在部署之后,会定期把打包好的镜像导出为OVF模板,并存储到NAS当中。像Tomcat、Nginx这类组件,每一周都会进行一次全面备份,且会保留最近4周的备份。由于这类应用服务器是无状态的,所以在恢复的时候,直接新开启虚拟机并挂载负载均衡器即可,根本无需从备份中恢复单个文件。

按重要级划分的虚拟机快照策略有三档:核心业务虚拟机,每晚进行快照,且保留7天;普通业务,每3天进行快照,保留5份;测试机,仅在变更前手动进行快照。备份存储空间,去年扩容至80TB,实际利用率达67%。由Veeam统一调度所有备份任务,每天生成报表,未完成的作业自动重试3次。

你们公司所具备的备份方案,能够抵挡住勒索病毒吗,有没有开展过真正意义上的随机文件恢复演练呢,前往评论区去聊一聊你备份过程中的惨痛经历,若认为文章具备价值请进行点赞转发,以此让更多同行得以看到这些实实在在的经验。