Início Noticias A Amazon pediu desculpas aos clientes afetados pela enorme interrupção da AWS

A Amazon pediu desculpas aos clientes afetados pela enorme interrupção da AWS

13
0

A Amazon Web Services (AWS) pediu desculpas aos clientes afetados pela grande interrupção de segunda-feira, depois que algumas das maiores plataformas do mundo ficaram offline.

Havia Snapchat, Reddit e Lloyds Bank Mais de 1.000 sites e serviços foram relatados como fora do ar O dia 20 de outubro resultou em problemas no centro de operações da gigante da computação em nuvem na Virgínia do Norte, EUA.

Em um resumo detalhado da causa da interrupção, a Amazon disse que ela foi causada por erros que impediram seus sistemas internos de associar sites a endereços IP para localizar computadores.

“Pedimos desculpas pelo impacto que este evento teve em nossos clientes”, disse a empresa.

“Sabemos o quanto nossos serviços são importantes para nossos clientes, suas aplicações e usuários finais, e seus negócios

“Sabemos que este evento impactou muitos clientes de forma significativa”.

Embora muitas plataformas, como os jogos online Roblox e Fortnite, tenham voltado a funcionar poucas horas após a interrupção, alguns serviços sofreram um tempo de inatividade prolongado.

Isso inclui o Lloyds Bank, com alguns clientes enfrentando problemas até o meio da tarde, bem como o aplicativo de pagamentos americano Venmo e o site de mídia social Reddit.

A interrupção teve um impacto de longo alcance – até mesmo interrompendo o sono de alguns proprietários de camas inteligentes.

A Eight Sleep, que fabrica “cápsulas” de sono com opções de temperatura e altura que exigem conexão com a internet, disse que trabalharia para tornar seus colchões “à prova de interrupções”. Alguns superaquecem e até ficam presos em uma posição dobrada.

Muitos especialistas disseram que a interrupção mostrou o quão dependente a tecnologia é do domínio da Amazon no setor de computação em nuvem, um mercado amplamente dominado pela AWS e pelo Microsoft Azure.

A empresa disse que “faria tudo o que puder” para aprender com o evento e melhorar sua disponibilidade.

Em um longo resumo da interrupção de segunda-feiraA Amazon disse que encontrou um problema no US-EAST-1 – seu maior cluster de data centers que alimenta a maior parte da Internet.

Os processos complexos do banco de dados regional que armazena e gerencia registros do Sistema de Nomes de Domínio (DNS), permitindo que URLs de sites sejam compreendidos pelos computadores, estão efetivamente fora de sincronia.

De acordo com a Amazon, isso desencadeou uma “condição de corrida inativa” – ou em outras palavras, descobriu um bug latente que poderia ter acontecido em uma sequência improvável de eventos.

Um atraso no processo, que a Amazon disse ter ocorrido na manhã de segunda-feira, teve um efeito indireto que fez com que seus sistemas parassem de funcionar corretamente.

Grande parte desse processo é automatizado, o que significa que é feito sem intervenção humana.

Dr. Junad Ali, engenheiro de software e membro do Instituto de Engenharia e Tecnologia, disse à BBC que a raiz dos problemas da Amazon era a “automação falha”.

“A razão técnica específica é que uma automação defeituosa quebrou os sistemas internos de ‘catálogo de endereços’ naquela região”, disse ele.

“Então eles não encontraram nenhum dos outros sistemas-chave.”

Tal como outros, o Dr. Ali acredita que isto realça a necessidade de as empresas serem mais resilientes e diversificarem os seus fornecedores de serviços em nuvem “para que possam fazer failover para outros centros de dados e fornecedores quando um não estiver disponível”.

“Neste caso, aqueles que tiveram pontos únicos de falha nessas regiões amazônicas eram suscetíveis de serem colocados off-line”, disse ele.

O link da fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui