本月初,谷歌云经历了有史以来最大的失误之一,价值 1350 亿美元的澳大利亚养老基金 UniSuper 的谷歌云账户由于谷歌方面的某种失误而被清空。当时,UniSuper 表示,它丢失了在谷歌存储的所有内容,甚至包括备份,这导致其 647,000 名成员停机两周。谷歌云首席执行官和 UniSuper 首席执行官就此事发表了联合声明,并表示了很多歉意,想必也有很多担心的客户想知道他们的退休基金是否消失了。
事发后,我们立即得到的解释是:“此次中断是由一系列前所未有的事件引起的,在配置 UniSuper 的私有云服务时,无意的错误配置最终导致 UniSuper 的私有云订阅被删除。”两周后,Google Cloud 对该问题的内部审查已经结束,该公司发布了一篇博客文章,详细说明了发生的事情。
Google 在帖子顶部有一个“TL;DR”,听起来就像是 Google 员工输入错误。
在使用内部工具为客户首次部署 Google Cloud VMware Engine (GCVE) 私有云时,Google 操作员无意中错误配置了 GCVE 服务,原因是将一个参数留空。这导致了意想不到的、未知的后果,即默认客户的 GCVE 私有云为固定期限,并在该期限结束时自动删除。事件触发器和下游系统行为均已得到纠正,以确保不会再次发生这种情况。
谷歌此次失误中最令人震惊的是突然且不可逆转地删除了客户账户。难道不应该有保护措施、通知和确认措施来防止意外删除某些内容吗?谷歌表示确实有,但这些警告是针对“客户发起的删除”的,在使用管理工具时不起作用。谷歌表示,“没有发送客户通知,因为删除是由于谷歌操作员使用内部工具时将参数留空而触发的,而不是由于客户删除请求。任何客户发起的删除都会先通知客户。”
广告
在多次停机更新期间,UniSuper 表示无法访问 Google Cloud 备份,因此不得不深入研究第三方(可能更新程度较低)商店以恢复正常运行。在恢复期的狂热时期,UniSuper 表示“UniSuper 在两个地区进行了重复备份,以防止中断和丢失。但是,当删除 UniSuper 的私有云订阅时,会导致这两个地区的数据都被删除……UniSuper 已与其他服务提供商建立了备份。这些备份最大限度地减少了数据丢失,并显著提高了 UniSuper 和 Google Cloud 完成恢复的能力。”
谷歌在事后分析中表示:“存储在同一地区的谷歌云存储中的备份数据没有受到删除的影响,并且与第三方备份软件一起,对快速恢复起到了重要作用。” 这两种说法很难统一,尤其是在两周的恢复期内。备份的目的是为了快速恢复;因此,要么 UniSuper 的备份没有被删除,也没有发挥作用,导致两周的停机时间,要么如果它们没有被部分或完全删除,它们本来是有效的。
谷歌在博文中多次强调,这个问题只影响了单个客户,以前从未发生过,也不应该再发生,也不是谷歌云的系统性问题。以下是博文中完整的“补救措施”部分:
此后,Google Cloud 已采取多项措施确保此类事件不会再次发生,其中包括:
- 我们弃用了触发此事件序列的内部工具。现在,此过程已完全自动化,并由客户通过用户界面进行控制,即使需要特定的容量管理也是如此。
- 我们清理了系统数据库并手动检查了所有 GCVE 私有云,以确保其他 GCVE 部署不受风险。
- 我们修正了针对此类部署工作流程设置删除 GCVE 私有云的系统行为。
谷歌表示,云端仍然“采取了软删除、提前通知和人工介入等多种保护措施”,并且确认这些保护措施仍然有效。
资讯来源:由a0资讯编译自THECOINREPUBLIC。版权归作者A0资讯所有,未经许可,不得转载