Início Empresas Escala infinita: a arquitetura por trás do Azure AI Superfactory

Empresas

Escala infinita: a arquitetura por trás do Azure AI Superfactory

Por

12 Novembro 2025

Hoje, estamos inaugurando o próximo local de Fairwater no datacenter Azure AI em Atlanta, Geórgia. Este datacenter construído especificamente se conecta à nossa primeira unidade de Fairwater em Wisconsin, à geração anterior de supercomputadores de IA e à primeira superfábrica de IA em escala planetária do mundo, com uma extensa área de cobertura de datacenter global do Azure. Repletos de poder computacional mais denso do que nunca, cada local de Fairwater é projetado de forma eficiente para atender às demandas sem precedentes de computação de IA, ampliar os limites da inteligência do modelo e capacitar cada pessoa e organização no planeta para alcançar mais.

Para atender a essa demanda, reinventamos a forma como projetamos datacenters de IA e os sistemas que executamos dentro deles. Fairwater é diferente do modelo tradicional de datacenter em nuvem e usa uma única rede plana que pode integrar milhares das mais recentes GPUs NVIDIA GB200 e GB300 em um supercomputador enorme. Essas inovações são o resultado de décadas de experiência no projeto de datacenters e redes, bem como do aprendizado obtido no suporte às maiores operações de treinamento em IA do planeta.

Embora o design do datacenter Fairwater seja perfeito para treinar modelos de fronteira da próxima geração, ele também foi construído pensando nos fungos. O treinamento evoluiu de uma tarefa única para uma série de cargas de trabalho com diferentes requisitos (como pré-treinamento, ajuste fino, aprendizagem por reforço e geração de dados sintéticos). A Microsoft implantou um backbone AI WAN dedicado para integrar cada site de Fairwater em um sistema elástico abrangente que maximiza a utilização da GPU do sistema combinado e a alocação dinâmica de diferentes cargas de trabalho de IA.

Abaixo, examinamos algumas das inovações tecnológicas interessantes que apoiam a Fairwater, desde a forma como construímos datacenters até a rede entre locais.

Densidade máxima de contagem

A infraestrutura moderna de IA está cada vez mais limitada pelas leis da física. A velocidade da luz é agora uma restrição importante à nossa capacidade de integrar aceleradores, computação e armazenamento com latência eficiente. Fairwater foi projetado para maximizar a densidade computacional para minimizar a latência dentro e entre racks e maximizar o desempenho do sistema.

Uma das principais alavancas para impulsionar a densidade é melhorar o resfriamento em grande escala. Os servidores de IA nos datacenters de Fairwater estão conectados a um sistema de resfriamento em toda a instalação projetado para longevidade, com um sistema de circuito fechado que reutiliza continuamente o fluido após um enchimento inicial sem evaporação. A água utilizada no abastecimento inicial é equivalente à que 20 casas utilizam num ano, e a química da água por si só indica que ela é necessária (está projetada para mais de 6 anos), tornando-a altamente eficiente e durável.

O resfriamento baseado em líquido também proporciona uma transferência de calor muito maior, permitindo-nos calcular a potência em nível de rack e linha (~140kW por rack, 1.360 kW por linha) da forma mais densa possível dentro do datacenter. O resfriamento avançado nos ajuda a aproveitar ao máximo essa computação densa em operações em estado estacionário, permitindo que grandes tarefas de treinamento sejam executadas com eficiência em alta escala. Depois de percorrer um sistema de caminhos de placas frias em toda a frota de GPU, o calor é dissipado por uma das maiores plantas de resfriamento do planeta.

A camada de rack resfria diretamente o líquido.

Outra forma de aumentar a densidade computacional é projetando um edifício de datacenter de dois andares. Muitas cargas de trabalho de IA são muito sensíveis à latência, o que significa que apenas a duração da execução pode afetar significativamente o desempenho do cluster. Cada uma das GPUs da Fairwater está conectada a todas as outras GPUs, de modo que o método de construção do datacenter de dois andares permite a colocação de racks em três dimensões para reduzir o comprimento do cabo, melhorando assim a latência, a largura de banda, a confiabilidade e o custo.

Um diagrama de uma arquitetura de rede de duas camadas — Arquitetura de rede de duas camadas.

Energia de alta disponibilidade e baixo custo

Estamos inovando para atender essa computação com energia confiável e econômica. O local de Atlanta foi selecionado tendo em mente a energia resiliente da concessionária e é capaz de atingir disponibilidade 4×9 ao custo de 3×9. Ao garantir energia de rede altamente disponível, também podemos renunciar às abordagens tradicionais de resiliência para frotas de GPU (como geração no local, sistemas UPS e distribuição com fio duplo), economia de custos para os clientes e tempo de colocação no mercado mais rápido para a Microsoft.

Também trabalhamos com nossos parceiros do setor para desenvolver um código de solução de gerenciamento de energia para mitigar oscilações de energia causadas por trabalhos em grande escala, um desafio crescente na manutenção da estabilidade da rede à medida que a IA exige escala. Isso inclui uma solução orientada por software que introduz cargas de trabalho suplementares durante períodos de atividade reduzida, uma solução orientada por hardware onde as GPUs impõem seus próprios limites de energia e uma solução de armazenamento de energia no local para mascarar mais flutuações de energia sem usar energia extra.

Aceleradores e sistemas de rede de última geração

O design de datacenter de classe mundial da Fairwater é alimentado por servidores especialmente desenvolvidos, aceleradores de IA de última geração e sistemas de rede inovadores. Cada datacenter Fairwater executa um cluster único e coerente de GPUs NVIDIA Blackwell interconectadas com uma arquitetura de rede avançada que pode escalar de forma confiável além dos limites da rede Clos tradicional com switches da geração atual (várias centenas de milhares de GPUs em uma rede plana). Isto requer inovação em redes escaláveis, redes escaláveis e protocolos de rede.

Em termos de expansão, cada rack de aceleradores de IA possui 72 GPUs NVIDIA Blackwell, conectadas via NVLink para comunicação de latência ultrabaixa entre racks. Os aceleradores Blackwell fornecem a mais alta densidade de computação disponível atualmente, com suporte para formatos numéricos de baixa precisão, como FP4, para aumentar o total de FLOPS e permitir o uso eficiente da memória. Cada rack fornece 1,8 TB de largura de banda de GPU para GPU, com mais de 14 TB de memória em pool disponível em cada GPU.

Uma imagem de um rack de GPU densamente povoado com rede orientada por aplicativos — Racks de GPU densamente povoados com rede orientada por aplicativos.

Esses racks usam redes escaláveis para criar pods e clusters que permitem que todas as GPUs atuem como um único supercomputador com contagens mínimas de saltos. Conseguimos isso com uma rede back-end baseada em Ethernet de duas camadas que suporta clusters grandes com conectividade de GPU para GPU de 800 Gbps. Contar com um amplo ecossistema Ethernet e SONiC (Software para Redes Abertas na Nuvem – que é nosso próprio sistema operacional para nossos switches de rede) nos ajuda a evitar a dependência de fornecedores e a gerenciar custos, já que podemos usar hardware comum em vez de soluções proprietárias.

Trabalhamos com parceiros como OpenAI e NVIDIA para desenvolver um protocolo de rede personalizado inovador — Multi-Path Reliable Connected (MRC) — para permitir controle profundo e otimização de rotas de rede. Melhorias no corte de pacotes, pulverização de pacotes e telemetria de alta frequência são componentes-chave de nossa rede de IA otimizada. Juntas, essas tecnologias fornecem controle avançado de congestionamento, detecção e retransmissão mais rápidas e balanceamento de carga ágil, garantindo desempenho ultraconfiável e de baixa latência para cargas de trabalho modernas de IA.

Escala planetária

Mesmo com estas inovações, as exigências computacionais para grandes tarefas de formação (agora medidas em biliões de parâmetros) estão rapidamente a exceder as limitações de potência e espaço de uma única instalação. Para atender a essas necessidades, construímos uma rede óptica AI WAN dedicada para ampliar as redes de expansão e expansão da Fairwater. Aproveitando a nossa escala e décadas de experiência em hiperescala, entregamos 120.000 novas milhas de fibra nos EUA no ano passado – expandindo o alcance e a confiabilidade das redes de IA em todo o país.

Com esse backbone de alto desempenho e alta resiliência, podemos conectar diretamente várias gerações de supercomputadores em uma superfábrica de IA que excede em muito a capacidade de um único local em locais geograficamente diversos. Isso dá aos desenvolvedores de IA a capacidade de aproveitar nossa extensa rede de datacenters de IA do Azure, redes de expansão e expansão dentro de um site, bem como AI WAN em todos os continentes para distribuir o tráfego com base em suas necessidades entre os sites.

Este é um afastamento significativo do passado, onde todo o tráfego tinha que passar pela rede escalável, independentemente dos requisitos de carga de trabalho. Isso não apenas fornece aos clientes uma rede adequada à finalidade em um nível mais granular, mas também nos ajuda a maximizar a flexibilidade e a utilização de nossa infraestrutura.

Juntando tudo

A nova unidade de Fairwater em Atlanta representa o próximo salto na infraestrutura de IA do Azure e reflete nossa experiência na execução da maior operação de treinamento em IA do planeta. Ele combina inovações revolucionárias em densidade computacional, estabilidade e sistemas de rede para atender com eficiência à enorme demanda por poder computacional que estamos vendo. Integra-se profundamente com outros datacenters de IA e com a plataforma Azure mais ampla para formar a primeira superfábrica de IA do mundo. Juntas, essas inovações fornecem uma infraestrutura flexível e adequada à finalidade que pode atender a todo o espectro de cargas de trabalho modernas de IA e permitir que cada pessoa e organização no planeta alcance mais. Para os nossos clientes, isto significa fácil integração da IA em cada fluxo de trabalho e a capacidade de criar soluções inovadoras de IA que antes eram inatingíveis.

Saiba mais sobre como o Microsoft Azure pode ajudá-lo a simplificar a IA e fortalecer o ciclo de vida de desenvolvimento aqui.

Scott Guthrie responsável por Soluções e serviços de computação em nuvem em hiperescala, incluindo Azure, a plataforma de computação em nuvem da Microsoft, soluções generativas de IA, plataformas de dados e informações e segurança cibernética. Estas plataformas e serviços ajudam organizações em todo o mundo a resolver desafios urgentes e a impulsionar a transformação a longo prazo.

O link da fonte

Densidade máxima de contagem

Energia de alta disponibilidade e baixo custo

Aceleradores e sistemas de rede de última geração

Escala planetária

Juntando tudo

ARTIGOS RELACIONADOSMais do autor

Reduzindo a divisão da IA: como as organizações de fronteira estão transformando os negócios

Cuidado com agentes duplos: como a IA pode fortalecer — ou fraturar — sua segurança cibernética

O próximo capítulo da parceria Microsoft-OpenAI

ARTIGOS RELACIONADOS Mais do autor