Sakana AI lança Fugu Ultra para orquestração multiagente
Fugu Ultra chega como um orquestrador de modelos que coordena múltiplos LLMs via uma única API, com foco em tarefas complexas de engenharia, ciência e raciocínio, e com métricas que disputam com modelos de ponta.
Danilo Gato
Autor
Introdução
Fugu Ultra é o novo orquestrador multiagente da Sakana AI e foi lançado em 22 de junho de 2026, com a proposta de coordenar diferentes LLMs a partir de uma única API e competir com modelos de fronteira em engenharia, ciência e raciocínio. A página oficial da empresa detalha que o Fugu Ultra busca ficar lado a lado de modelos como Fable 5 e Mythos Preview, sem expor clientes a riscos de controles de exportação e sem amarrar o stack a um único fornecedor.
O interesse por orquestração multiagente cresceu porque tarefas reais raramente se resolvem em um único passo. A Sakana AI coloca a orquestração como próxima fronteira, apoiada em dois trabalhos aceitos no ICLR 2026, Conductor e TRINITY, que descrevem um coordenador aprendendo, em linguagem natural, a dividir e delegar problemas para times de agentes.
Este artigo mostra como o Fugu Ultra funciona, como se posiciona frente a alternativas, quais resultados e casos de uso já foram divulgados, além de pontos de atenção que equipes técnicas devem considerar antes de adotar.
O que é o Fugu e por que orquestração importa
Fugu é apresentado como um sistema multiagente que se comporta como um único modelo. Em vez de construir manualmente fluxos com vários agentes e regrinhas de roteamento, você envia uma requisição para um endpoint, e o Fugu decide quando resolver direto, quando dividir a tarefa e como coordenar especialistas, inclusive verificando e sintetizando resultados. A Sakana reforça que o próprio Fugu é um modelo de linguagem treinado especificamente para delegar, comunicar entre agentes e combinar saídas em uma resposta confiável.
A linha entre roteamento e orquestração total é importante. Ao contrário de um simples dispatcher que escolhe qual LLM chamar, a proposta é usar um modelo coordenador que projeta scaffolds de agentes em linguagem natural. Isso aparece nas comunicações da empresa e em coberturas como a do VentureBeat, que descreve um blueprint experimental com um modelo de 7 bilhões de parâmetros para treinar um Conductor, hoje productizado no Fugu.
Essa abordagem conversa com um cenário mais amplo, em que organizações querem reduzir dependência de um único provedor e ganhar resiliência. A nota de lançamento cita diretamente interrupções de acesso e novas fronteiras regulatórias, defendendo que a inteligência coletiva, com pools de agentes trocáveis, é um hedge prático contra riscos de fornecedor único.
Modelos disponíveis, API e compatibilidade
A Sakana disponibiliza duas variantes. Fugu, que prioriza latência e serve bem a chat, revisão de código e fluxos interativos. Fugu Ultra, que maximiza qualidade de resposta em problemas longos e difíceis, coordenando um conjunto mais profundo de agentes quando precisão e profundidade importam. Ambos são acessíveis por uma API compatível com OpenAI, segundo o anúncio.
Relatos de terceiros acompanham esse posicionamento. Matérias e posts recentes descrevem o Fugu como um serviço comercial que orquestra GPT, Claude e Gemini entre outros, com o Ultra voltado a workloads exigentes, enquanto o Mini ou a variante base busca menor latência. Embora nomes de variantes variem em coberturas, a estrutura de desempenho versus latência aparece de forma consistente.
Do ponto de vista de integração, a promessa de uma única API para orquestração completa é o grande apelo. Esse caminho elimina boa parte da complexidade de acoplar LangGraph, MCP, tool use customizado e observabilidade por conta própria. Várias análises independentes destacam que a Sakana está levando o que antes era paper e protótipo para um produto com postura de plataforma.
Como o Fugu Ultra trabalha, do ponto de vista técnico
A peça central é um coordenador treinado para projetar fluxos em linguagem natural. Em vez de regras fixas, o Conductor aprende quando e como delegar para agentes especialistas, como verificar evidências e como recombinar respostas. Os pôsteres técnicos divulgados pela equipe descrevem exatamente essa ideia, incluindo o TRINITY, um coordenador evoluído, e o Conductor focado em aprender a orquestrar agentes.
Na prática, isso cria um pipeline em que o Fugu pode: planejar passos, selecionar modelos conforme a tarefa, chamar ferramentas se necessário, comparar hipóteses, iterar até convergir e, por fim, entregar uma síntese. A Sakana informa que o Fugu pode inclusive chamar instâncias de si mesmo de forma recursiva, quando a tarefa pede.
![Diagrama de orquestração do Fugu]
Essa estratégia se conecta a resultados vistos em benchmarks e em relatos de uso antecipado. A empresa afirma que o Ultra foi usado em pesquisas de IA, reprodução de artigos, análises de cibersegurança e investigações de literatura e patentes, onde a coordenação de muitos passos, comparação de evidências e revisões sucessivas fazem diferença.
Benchmarks, números e o que observar neles
A Sakana publicou gráficos de comparação que colocam o Fugu e o Fugu Ultra frente a modelos como GPT 5.5, Opus 4.8 e Gemini 3.1 Pro em suítes de codificação, raciocínio, ciência e tarefas agentic. O texto diz que os escores de baseline são os divulgados pelos provedores, e que Fable 5 e Mythos Preview não são parte do pool do Fugu por não serem publicamente acessíveis. A empresa direciona para um relatório técnico com mais detalhes.
![Gráfico de benchmarks do Fugu]
Relatos externos reforçam a leitura de que o Fugu Ultra disputa cabeça a cabeça com os melhores, inclusive em discussões de comunidade que destrincham números em suítes como SWE-Bench Pro, LiveCodeBench e GPQA. Importa notar que os números podem ter variações entre fontes, já que há benchmarks reportados por provedores e por terceiros. A recomendação é sempre ler a página oficial e o technical report, e comparar com medições internas no seu domínio.
Em paralelo, a cobertura do VentureBeat situa o Fugu no contexto de um coordenador de 7B usado como blueprint experimental, o que ajuda a entender o racional do produto. A matéria também relata a existência de variantes alinhadas a baixa latência e máxima performance, o que se conectaria às duas linhas do produto.
Casos de uso reais que fazem sentido agora
A Sakana lista aplicações que tiram proveito de orquestração profunda. Entre elas, reprodução de papers, segurança ofensiva e defensiva com escopo restrito, revisão de código com achados adicionais e investigações de patentes e literatura. A ênfase está em rotinas longas, com verificação de evidência e síntese final, onde a coordenação de múltiplos modelos supera uma chamada única a um LLM.
Sinais parecidos aparecem em análises de terceiros. Publicações independentes situam Fugu como um competidor provável para stacks que vendem coordenação de agentes e roteamento inteligente, e apontam ganhos justamente em tarefas que exigem várias etapas e instrumentos, como engenharia de software com testes, ciência aplicada e pesquisa automatizada.
No meu dia a dia, a utilidade dessa proposta cresce quando há requisitos de robustez, reexecução e rastreabilidade de evidências. Um pipeline de scratchpad para planejamento, chamadas a agentes distintos por etapa, comparação de hipóteses e consolidação final tende a ganhar consistência com um coordenador que foi treinado para isso e não só configurado via if-else. O Fugu Ultra se ancora exatamente nessa diferença, segundo a documentação técnica e o material do lançamento.
Limitações, riscos e pontos de atenção
Apesar dos avanços, há trade-offs que precisam ser considerados. Discussões na comunidade destacam que uma orquestração que depende de um pool de modelos de terceiros pode herdar riscos de políticas de uso, disponibilidade e mudanças contratuais. Também há alertas sobre observabilidade, já que um roteador de caixa preta complica auditoria de por que um dado agente fez X ou Y, o que pode ser impeditivo em setores regulados. Essas críticas não invalidam o produto, mas são tópicos práticos que times técnicos precisarão endereçar com logs, traces e contratos.
Outro ponto de atenção é a transferência dos ganhos de benchmark para tarefas proprietárias. A própria Sakana coloca que benchmarks contam uma parte da história e que o valor aparece de forma mais clara em fluxos longos e realistas. Em outras palavras, avalie no seu dataset, com suas ferramentas, antes de ligar em produção.
Como começar e onde Fugu Ultra pode economizar tempo e custo
O lançamento informa disponibilidade geral via um único endpoint e dois modelos acessíveis por assinatura para uso cotidiano e um plano pay as you go para cargas mais intensivas e enterprise. A compatibilidade com a API da OpenAI simplifica pilotos, já que muito código e tooling atual já fala esse dialeto.
Em termos de ROI, há três ganhos práticos que aparecem cedo em pilotos de orquestração multiagente eficaz:
- Redução de engenharia de prompt e fluxo hardcoded, já que o coordenador aprende a decompor e delegar, o que reduz manutenção de grafos de agentes. A literatura técnica do Conductor e do TRINITY sustenta esse vetor.
- Melhor cobertura de erros em tarefas com verificações e retentativas embutidas, por exemplo revisão de código com testes, análises de segurança com recon e retestes, e pesquisa científica com reprodutibilidade parcial. Esses são casos citados no anúncio.
- Hedge estratégico contra choques de fornecedor, já que o Fugu pretende contornar indisponibilidades com um pool trocável de agentes, ainda que isso traga dependências contratuais que precisam ser mapeadas.
Dicas de implementação para times de produto e dados
- Trate o Fugu Ultra como um coordenador inteligente, não como um substituto universal. Use o Ultra onde a profundidade compensa, e mantenha a variante base para interações rápidas. Isso segue a estratégia declarada de balancear latência e qualidade.
- Instrumente logs de decisão do coordenador. Se a tarefa é compliance sensível, capture traces que mostrem qual agente foi acionado, com qual racional, e que evidência foi checada. As críticas de observabilidade deixam claro o risco de tratar isso como caixa preta.
- Valide benchmarks com ground truth interno. Use subconjuntos reais de tickets, PRs, relatórios de vulnerabilidade e reprodutibilidade de paper, para medir se o ganho posicionado pela Sakana se manifesta no seu contexto.
- Planeje caminhos de fallback. Mesmo com pool trocável, políticas de uso de terceiros mudam. Tenha listas de agentes alternativos e critérios de swap bem definidos, o que é consistente com a visão de resiliência do próprio lançamento.
Reflexões e insights
O movimento da Sakana AI destaca uma tese clara. Em vez de perseguir sempre modelos maiores, vale investir em coordenação aprendida de times de agentes. Essa tese está alinhada com a literatura recente e com a demanda do mercado por eficiência operacional, reprodutibilidade e soberania de stack. O fato de o Fugu Ultra competir em métricas públicas e, ao mesmo tempo, rodar como serviço com uma API simples, transforma o tema em decisão de plataforma e não só em escolha de modelo.
Há espaço, porém, para amadurecer o que cerca a orquestração. Observabilidade, governance de agentes e contratos de acesso a modelos terceiros são camadas que ainda exigem engenharia cuidadosa. A boa notícia é que o próprio ecossistema de ferramentas para agentes evolui, e um coordenador treinado tende a se beneficiar desse avanço de forma incremental.
Conclusão
Fugu Ultra chega com posicionamento ambicioso, ancorado em pesquisa recente e em uma proposta clara de valor. A ideia de um modelo coordenador que aprende a decompor, delegar, verificar e sintetizar coloca a orquestração multiagente como peça central de produtividade para tarefas complexas. Os materiais oficiais e a cobertura especializada sustentam que a variante Ultra disputa com modelos de fronteira em benchmarks relevantes, enquanto a API compatível com OpenAI e a disponibilidade geral reduzem atrito de adoção.
O passo certo agora é testar com dados reais do seu domínio, instrumentar observabilidade e definir políticas de fallback. Se a sua operação precisa de profundidade de raciocínio e de workflows longos com verificação rigorosa, Fugu Ultra tem chance de acelerar entregas sem travar sua arquitetura em um único fornecedor. À medida que novos modelos chegam ao mercado, um bom orquestrador tende a ficar melhor, não mais complexo.
