Cabos de rede conectados a chassi de servidor em data center
Infraestrutura de IA

OpenAI lança o protocolo MRC para acelerar redes de IA

OpenAI, AMD, Broadcom, Intel, Microsoft e NVIDIA uniram forças para apresentar o protocolo MRC, que promete reduzir gargalos e falhas em supercomputadores de IA.

Danilo Gato

Danilo Gato

Autor

7 de maio de 2026
10 min de leitura

Introdução

A notícia mais relevante para quem constrói infraestrutura de IA chegou em 5 de maio de 2026, quando a OpenAI divulgou o protocolo MRC, Multipath Reliable Connection, desenhado para acelerar e estabilizar redes de treinamento em larga escala. O protocolo MRC é fruto de uma colaboração com AMD, Broadcom, Intel, Microsoft e NVIDIA, e foi disponibilizado como especificação aberta no Open Compute Project.

O tema importa porque, em treinamento síncrono, qualquer pacote atrasado pode travar milhares de GPUs esperando sincronização. O protocolo MRC combate exatamente esses gargalos, combinando packet spraying em centenas de caminhos simultâneos, topologias multi-plane e roteamento por fonte baseado em SRv6, tudo para manter as GPUs produtivas mesmo diante de congestionamentos e falhas.

Ao longo do artigo, o foco recai no que muda no design de redes para IA, por que o protocolo MRC eleva a previsibilidade do desempenho e como aplicar, de forma prática, princípios como multi-plane, packet trimming e SRv6 em programas de expansão de data centers.

Por que redes de IA precisavam de um redesenho

Treinar modelos de fronteira implica milhões de trocas de dados por etapa, e basta uma transferência lenta para criar efeito dominó no job. Em clusters imensos, as causas mais comuns desse atraso são congestionamento e falhas de links e dispositivos. A OpenAI descreve esse fenômeno como um amplificador de falhas no treinamento síncrono, e identifica dois desafios centrais, evitar congestionamentos evitáveis e reduzir o impacto de falhas inevitáveis.

O protocolo MRC nasce para reduzir a cauda de latência, aquele pior caso que dita o ritmo da sincronização. Ele estende RoCE, um padrão da IBTA, e incorpora técnicas como packet spraying e load balancing adaptativo, mas com mudanças essenciais no transporte para lidar com dados chegando fora de ordem direto na memória da GPU, minimizando jitter e reenvios caros.

O que é o protocolo MRC, em termos práticos

O protocolo MRC espalha os pacotes de uma mesma transferência por centenas de caminhos simultâneos e por múltiplos planos da rede. Cada pacote carrega o endereço final de memória, o que permite gravação out-of-order no destino, preservando confiabilidade sem forçar caminho único. Se um caminho degrada, o remetente troca de rota em microsegundos, mais rápido do que o tempo típico de convergência de um fabric com roteamento dinâmico. Esse comportamento, aliado ao packet trimming, reduz falsos positivos de perda por congestionamento e limita outliers.

No detalhe, a especificação do protocolo MRC define como o transporte estende o RC do RoCEv2 para spraying multipath, SACKs, NACKs, probes de confiabilidade e controle de congestionamento, além de como o roteamento por fonte com SRv6 é estruturado. A revisão 1.0, publicada em 21 de março de 2026, foi submetida ao OCP por um grupo conjunto de AMD, Broadcom, Intel, Microsoft, NVIDIA e OpenAI.

Multi-plane, menos estágios de switching e mais resiliência

Adotar multi-plane altera o desenho do cluster, pois um NIC de 800 Gb/s é dividido em 8 links de 100 Gb/s conectados a switches distintos, criando vários planos paralelos. Essa mudança permite construir uma rede full-bisection para cerca de 131 mil GPUs com apenas dois níveis de switches, reduzindo custo, potência e caminhos longos. Em vez de três ou quatro camadas a 800 Gb/s, obtém-se duas camadas a 8×100 Gb/s, com mais diversidade de caminho e latência menor.

Sem o protocolo MRC, porém, o multi-plane poderia piorar colisões de fluxo, já que o tráfego único por caminho deixaria planos inteiros subutilizados e criaria hotspots. O protocolo MRC resolve isso com spraying inteligente e balanceamento adaptativo, aposentando rotas congestionadas e redistribuindo tráfego automaticamente.

![Cabos Ethernet conectados a chassi de rede]

Packet spraying, trimming e SRv6, a tríade que derruba a cauda de latência

Spraying: cada conexão do protocolo MRC mantém estado leve para um grande conjunto de caminhos, substituindo os piores quando detecta ECN e sinais de perda. Isso evita hotspots e espalha a carga para reduzir variação de latência, crítica aos coletivos como all-reduce. Packet trimming: quando um switch iria descartar um pacote por congestionamento, ele corta o payload e envia o cabeçalho ao destino, que solicita a retransmissão específica, reduzindo a chance de confundir perda por congestionamento com falha real. SRv6: com roteamento por fonte, pacotes carregam sua sequência de segmentos, permitindo contornar falhas de modo determinístico e operar com um plano de controle estático, eliminando classes inteiras de bugs de roteamento dinâmico.

O white paper técnico detalha resultados de produção, inclusive como a combinação multi-plane mais protocolo MRC e SRv6 permite gerenciar supercomputadores com centenas de milhares de GPUs com uma equipe operacional enxuta, sem depender de intervenção humana para cada flap. Também lista NICs e switches suportados nas implementações iniciais, como NVIDIA ConnectX-8, AMD Pollara e Vulcano, Broadcom Thor Ultra e switches NVIDIA Spectrum-4 e Spectrum-5, com suporte em Cumulus, SONiC e Arista EOS.

De laboratório à produção, o que já roda com o protocolo MRC

Segundo a OpenAI, o protocolo MRC já equipa seus maiores supercomputadores com GPUs NVIDIA GB200, incluindo o site em Abilene, Texas, operado com a Oracle Cloud Infrastructure, e os megadatacenters Fairwater da Microsoft. A empresa afirma que o protocolo MRC foi usado para treinar múltiplos modelos de fronteira e que a especificação está aberta no OCP para a comunidade.

Cobertura independente também destacou os objetivos do protocolo MRC, reduzir congestionamento e o impacto de falhas conforme clusters escalam para centenas de milhares de GPUs, e a contribuição do consórcio ao OCP para acelerar adoção em Ethernet AI-native.

Fabricantes parceiros reforçaram o movimento. A AMD publicou, em 6 de maio de 2026, análise do protocolo MRC e sua implementação em NICs 400G e 800G, com ênfase em programabilidade e controle de congestionamento no mundo real. A NVIDIA, em 6 de maio de 2026, posicionou o protocolo MRC como parte do stack Spectrum-X Ethernet para IA em escala Blackwell, ressaltando a colaboração com a OpenAI.

![Corredor com racks de servidores em data center]

Impacto estratégico, custo total e a curva Ethernet vs InfiniBand

O protocolo MRC reforça a tese de que Ethernet, quando pensada para IA, pode combinar previsibilidade e escala com custos inferiores ao de topologias proprietárias. Reportagem do Data Center Knowledge nota que a indústria busca latência previsível e resiliência conforme caminha para centenas de milhares de GPUs, e que o anúncio reforça a tração de um Ethernet especializado para IA, inclusive com dados de mercado de 2025 favorecendo Ethernet em back-ends de IA.

Na prática, o protocolo MRC cria margens operacionais porque ataca desperdícios ocultos, GPUs ociosas pela cauda de latência e reinícios após falhas. Em termos de TCO, menos estágios de switching, menos óticas e menor potência por bissecção implicam economia direta, enquanto maior utilização efetiva reduz custo por token treinado. Tudo isso decorre de arquitetura, não de um único knob de QoS, um ponto que o paper e o post da OpenAI enfatizam.

Como aplicar os conceitos do protocolo MRC na sua arquitetura

  • Topologia primeiro. Adotar multi-plane com breakout de 800 Gb/s para 8×100 Gb/s e dois estágios de switching reduz latência, custo e impacto de falhas. Planejar 4 a 8 planos, dependendo da escala, favorece diversidade de caminhos.
  • Transporte alinhado à carga. O protocolo MRC mostra como transportar dados de coletivos com spraying e reorder em hardware, mantendo write e write-with-immediate do RoCEv2. Em ambientes sem o protocolo MRC oficial, aproximar o comportamento com spray por ECMP consistente, buffers maiores e SACKs pode mitigar caudas, ainda que sem os mesmos ganhos.
  • SRv6 com controle simples. Migrar para roteamento por fonte estático, guiado por telemetria de tráfego em NICs, pode cortar tempos de reconvergência e eliminar classes de bugs de protocolos dinâmicos.
  • Packet trimming e telemetria. Implementar mecanismos de trim e sinalização explícita de congestão reduz reenvios desnecessários. Monitorar EVs, SACKs e NACKs orienta ajustes finos de janelas de congestion control, como descrito na especificação.

Além da engenharia, convém alinhar fornecedores. O anúncio cita produção com GPUs NVIDIA GB200 e switches Spectrum de última geração, além de implementações com AMD e Broadcom. Se o roadmap de hardware contempla NICs e switches compatíveis, o caminho para um piloto de protocolo MRC fica mais curto.

Estudos de caso e cenários de adoção

  • Treinamento massivo em um único site. O site de Abilene, Texas, operado pela OCI e vinculado ao projeto Stargate, aparece como referência pública. Em cenários assim, o protocolo MRC favorece dois estágios de switching e spraying cross-plane para manter sincronização estável durante picos e manutenções.
  • Megafábricas distribuídas. O Fairwater, revelado pela Microsoft em 2025, foi concebido como um supercomputador com rede plana para IA. Nesse contexto, o protocolo MRC com SRv6 reduz o custo de complexidade operacional e melhora previsibilidade ao atravessar eventos de falha.
  • Ethernet AI-native via OCP. A abertura da especificação no OCP deve acelerar suporte no ecossistema e a padronização de perfis de congestion control, APIs e telemetria para spraying path-aware. Para equipes de compras, isso reduz risco de lock-in e assegura roadmap multivendor.

Reflexões e insights

Redes de IA evoluem de simples “meios de transporte” a componentes de primeira ordem no desempenho de modelos. O protocolo MRC mostra que ganhos expressivos não vêm apenas de links mais rápidos, mas de desenho de topologia, transporte e controle em conjunto. A mensagem estratégica, fazer o simples escalar com previsibilidade. Dois estágios de switching, roteamento por fonte e spraying adaptativo, com hardware preparado, valem mais do que tentar domar o caos com planos de controle hipercomplexos.

Outra leitura importante, a disputa Ethernet versus InfiniBand na IA caminha para um meio termo pragmático. À medida que Ethernet ganha features específicas para IA, como no stack citado pela NVIDIA para Spectrum-X com suporte ao protocolo MRC, a pergunta deixa de ser “qual é mais rápido no pico” e passa a ser “qual mantém mais GPUs úteis mais tempo”. O protocolo MRC pende a balança para eficiência sustentada.

Conclusão

O protocolo MRC, anunciado em 5 de maio de 2026, consolida um novo patamar para redes de treinamento de IA ao atacar diretamente a cauda de latência e a resiliência do fabric. Multi-plane, spraying e SRv6, aliados à abertura pelo OCP, oferecem um caminho claro para levar previsibilidade a clusters com centenas de milhares de GPUs. Para líderes de infraestrutura, a oportunidade está em traduzir essas ideias em pilotos com hardware compatível e métricas de utilização reais.

No curto prazo, equipes podem colher benefícios adotando princípios do protocolo MRC, mesmo sem uma migração total. No médio prazo, com fornecedores alinhados, o protocolo MRC tende a virar referência de mercado para Ethernet AI-native. A lição é objetiva, redes não são mero pano de fundo da IA, são alavancas diretas de custo, tempo de treinamento e tempo de colocação de modelos no mercado.

Tags

RedesSupercomputadoresTreinamento de IA