Google emite pedido de desculpas e relatório de incidente por indisponibilidade de nuvem que durou horas

Google pediu desculpas por uma grande interrupção que a empresa disse ter sido causada por várias camadas de atualizações recentes falhas.
A empresa divulgou um relatório de incidente na noite de sexta-feira que explicava as horas de inatividade na quinta-feira. Mais de 70 serviços de nuvem do Google pararam de funcionar corretamente em todo o mundo , derrubando ou interrompendo dezenas de serviços de terceiros, incluindo o Cloudflare. , OpenAI e Shopify . Gmail, Google Agenda, Google Drive, Google Meet e outros produtos originais também apresentaram problemas.
"Pedimos profundas desculpas pelo impacto que esta interrupção teve", escreveu o Google no relatório de incidente. "Os clientes do Google Cloud e seus usuários confiam seus negócios ao Google, e faremos melhor. Pedimos desculpas pelo impacto que isso teve não apenas nos negócios de nossos clientes e seus usuários, mas também na confiança em nossos sistemas. Estamos comprometidos em fazer melhorias para ajudar a evitar interrupções como esta no futuro."
Thomas Kurian, CEO da unidade de nuvem do Google, também publicou sobre a interrupção em um post no X na quinta-feira, dizendo "lamentamos a interrupção que isso causou aos nossos clientes".
Em maio, o Google adicionou um novo recurso às suas "verificações de política de cotas" para avaliar solicitações de entrada automatizadas, mas o novo recurso não foi testado imediatamente em situações reais, escreveu a empresa no relatório de incidente. Como resultado, os sistemas da empresa não sabiam como lidar adequadamente com os dados do novo recurso, que incluíam entradas em branco. Essas entradas em branco eram então enviadas para todas as regiões de data center do Google Cloud, o que provocou as falhas, escreveu a empresa.
Os engenheiros resolveram o problema em 10 minutos, segundo a empresa. No entanto, o incidente continuou por sete horas depois disso, com o acidente causando sobrecarga em algumas regiões maiores.
Ao lançar o recurso, o Google não utilizou sinalizadores de recursos, uma prática cada vez mais comum no setor que permite uma implementação lenta para minimizar o impacto caso ocorram problemas. Os sinalizadores de recursos teriam detectado o problema antes mesmo que o recurso se tornasse amplamente disponível, afirmou o Google.
No futuro, o Google mudará sua arquitetura para que, caso um sistema falhe, ele ainda possa operar sem falhas, afirmou a empresa. O Google afirmou também que auditará todos os sistemas e aprimorará sua comunicação, "tanto automatizada quanto humana, para que nossos clientes obtenham as informações necessárias o mais rápido possível para reagir a problemas".
— Jordan Novet, da CNBC, contribuiu para esta reportagem.
CNBC