互联网时代,服务器机房可谓心脏,大型机房出故障是小概率事件。但即便如此,还是可能出现自然灾害、断电、光缆被挖断等黑天鹅事件。如果没有完善的容灾系统,不能及时恢复,就会出现用户信息丢失、资金损失的情况,后果不堪设想。
9 月 20 日,杭州云栖大会ATEC主论坛现场上演了一场特别的技术秀。蚂蚁金服副CTO胡喜现场模拟挖断支付宝近一半服务器的光缆。结果只过了 26 秒,模拟环境中的支付宝就完全恢复了正常。
这是由支付宝工程师策划的一次特别技术演练,他们基于支付宝的真实机房,在两个城市各单独搭建了两个模拟机房,以测试当两个机房同时下线后的系统稳定性。
蚂蚁金服副CTO胡喜解释,这次是演习。而在真实环境下,如果支付宝部署在两个城市的两个机房同时出问题,跑在这两个机房上的支付宝账户恢复正常的速度是分钟级。
据了解,这一机房架构叫“三地五中心”,即在三座城市部署五个机房,一旦其中一个或两个机房发生故障,支付宝的底层技术系统会将故障城市的流量全部切换到运行正常的机房,并且能做到数据保持一致且零丢失。
目前互联网和金融科技行业普遍采用的是“两地三中心”部署架构,即在一个城市设两个机房,在另一个城市设一个冷备机房。
胡喜强调,这个架构,绝不仅仅是多设立了两个机房那么简单,它非常考验一家公司分布式架构、数据库、中间件及相关金融核心技术的能力。而这正是支付宝创立前十年修炼技术内功的结果。“支付宝的技术目标之一就是保证金融级别的系统稳定和安全能力。”
曾有行业人士做过概率计算,两个城市多个机房同时故障的概率极低,基本不会发生。而即便发生了,现场的演习也展示出支付宝强大的容灾能力。
胡喜在现场和大家开起了玩笑:“这次演练,告诉了大家一个好消息,一个坏消息。好消息是,支付宝很安全,很稳定,至少要陪大家再过 102 年,坏消息是,不管剪多少光缆,花呗还是要还的。”