Poolside lança Laguna M.1 e XS.2 open-weights

Introdução

A palavra chave aqui é Laguna XS.2 e Laguna M.1. Em 28 de abril de 2026, a Poolside colocou no ar dois movimentos que mexem com o ecossistema de IA para código, lançou o modelo Laguna M.1 e abriu os pesos do Laguna XS.2. Além disso, apresentou prévias do agente de terminal Pool e do ambiente Shimmer, uma VM instantânea para construir e testar aplicações com seus modelos.

O anúncio combina ambição técnica e pragmatismo para desenvolvedores. O Laguna M.1 chega como o modelo mais capaz da casa para trabalho agentic e tarefas de longo horizonte, enquanto o Laguna XS.2 traz pesos abertos sob licença Apache 2.0 e um pacote de otimizações para rodar localmente com desempenho competitivo. Ambos estão gratuitos por tempo limitado via API oficial e também pelo OpenRouter, o que reduz a fricção para testes e POCs.

Por que este lançamento importa para quem constrói software

Quando um laboratório decide liberar pesos abertos de um modelo feito para agentes de código, o efeito dominó aparece rápido. O Laguna XS.2, com 33 bilhões de parâmetros totais e 3 bilhões ativados por token, foi pensado para tarefas de engenharia de software com ferramentas e iteração longa, e chega com licença Apache 2.0. Isso significa liberdade para fine-tuning, quantização e serving sem amarras comerciais, um incentivo direto para produtos B2B, extensões de IDE e plataformas de automação.

Ao mesmo tempo, o Laguna M.1 ocupa o topo da pilha na Poolside. São 225 bilhões de parâmetros totais e 23 bilhões ativados, com foco explícito em workstreams longos de programação orientada por agentes. Para equipes que precisam de raciocínio persistente, operações com múltiplas chamadas de ferramenta e manutenção de contexto em escala, é uma proposta clara. E, sim, com janela de contexto de seis dígitos, há margem para históricos grandes e dumps de logs. O OpenRouter já lista o M.1 como gratuito em seu lançamento, com 131.072 tokens de contexto.

Do ponto de vista de produto, a prévia do agente de terminal Pool e do ambiente Shimmer fecha o ciclo. O Pool conecta rapidamente a modelos e ferramentas, e o Shimmer oferece uma VM instantânea com o agente instalado para construir web apps, APIs e CLIs. Isso favorece um loop apertado de experimentação, execução, teste, correção e medida, exatamente o que times modernos precisam para validar hipóteses rápidas.

![Ilustração de IA e código]

Laguna M.1, capacidade para longos horizontes

Posiciono o Laguna M.1 como uma opção para pipelines exigentes de engenharia. A ficha técnica no anúncio oficial fala em 225B de parâmetros totais, 23B ativados, com foco em agentes de código e long-horizon work. Combinado ao contexto de 131.072 tokens mostrado no OpenRouter, dá para planejar estratégias de janelas deslizantes, checkpoints de raciocínio e buffers de logs, úteis em refactors grandes, correções complexas e criação de features sobre bases de código extensas.

A disponibilidade gratuita por tempo limitado via API oficial e no OpenRouter ajuda a diminuir o custo de troca para testes A/B, comparações com bases internas e validação de segurança com dados mascarados. Em ambientes com compliance estrito, é uma chance de medir value for money antes de compromissos comerciais.

No ecossistema de benchmarks, a Poolside destaca o foco agentic, o que implica avaliações que consideram múltiplos passos, chamadas de ferramenta e execução sandbox. O blog detalha o uso do Harbor Framework do Laude Institute, com até 500 passos, exceções para casos como Terminal-Bench 2.0, e parâmetros de amostragem constantes, o que ajuda na reprodutibilidade. Para quem compara modelos, consistência metodológica é tão importante quanto o número final.

Laguna XS.2, pesos abertos e engenharia para rodar local

O Laguna XS.2 é a cartada aberta. São 33B de parâmetros no total, 3B ativados por token, desenhado para trabalho agentic local, com Sliding Window Attention e quantização FP8 no KV cache para reduzir memória por token. A licença Apache 2.0 dá liberdade real para uso comercial e não comercial. A model card no Hugging Face confirma janela de contexto de 131.072 tokens, suporte nativo a raciocínio intercalado e orientações para rodar com vLLM, Transformers, TRT‑LLM e Ollama, inclusive com suporte MLX em Macs.

Benchmarks publicados indicam resultados competitivos em tarefas como SWE-bench Verified, Multilingual, Pro e Terminal-Bench 2.0. O XS.2 reporta, por exemplo, 68,2 por cento em SWE-bench Verified e 30,1 por cento no Terminal-Bench 2.0, com notas metodológicas sobre número de execuções e ambiente de sandbox. Para equipes, os números são um ponto de partida, não o fim da conversa, mas colocam o modelo no mapa entre opções populares de 24B a 35B.

Outro detalhe relevante é a rapidez de adoção na stack de inferência. O card descreve suporte chegando em Transformers após a 5.6.2, integração em vLLM via PR e caminho para TRT‑LLM com overlay mínimo. Para quem mantém infra multi runtime, isso encurta tempo entre teste e produção. E, com instruções diretas para Ollama, a barreira para um dev individual rodar localmente fica baixa.

![Imagem de notebook com IDE aberta]

Agentes de código na prática, Pool e Shimmer em prévia

Agentes precisam de duas coisas para gerar impacto além do demo, um harness confiável para orquestrar passos e um ambiente de execução com tooling e isolamento. A Poolside publica que usa um agent harness interno e que seus produtos em prévia, o Pool e o Shimmer, agora estão disponíveis para acelerar o uso dos modelos. O Pool é um agente de terminal, leve, com suporte ao Agent Client Protocol. O Shimmer é uma VM instantânea com o agente instalado, ideal para criar e iterar web apps, APIs e CLIs sem perder tempo com setup.

Para equipes de plataforma, a combinação sugere um fluxo, abrir um sandbox no Shimmer, conectar repositórios, ativar o Pool, instrumentar ferramentas como shell, testes, linter e formatadores, e guiar o agente com metas mensuráveis. Para segurança, a execução sandbox com limites de CPU e RAM, descrita nos métodos de benchmark, indica boas práticas que também podem ser replicadas em infraestrutura própria.

O que muda para times de engenharia, dados e produto

Vejo algumas mudanças práticas imediatas, primeiro, redução do custo de experimentação. Com o Laguna XS.2 liberado em pesos abertos, fica viável testar quantização, compilar kernels específicos e ajustar parâmetros de scheduler para o seu hardware. Segundo, diminuição do lock-in. A licença Apache 2.0 e a presença no Hugging Face diluem risco de dependência de um endpoint único. Terceiro, aceleração de prototipagem de agentes. O Pool e o Shimmer criam um caminho de menor atrito do prompt para o produto.

Em contrapartida, há responsabilidades, modelos agentic em código exigem políticas de acesso a ferramentas, controles de escrita em repositórios, políticas de segredo e revisão humana obrigatória para ações destrutivas. A boa notícia é que a própria metodologia de benchmark da Poolside, com ambientes sandbox e parâmetros estáveis, aponta direções para engenharia de confiabilidade e segurança.

Como começar hoje, passos práticos

Avaliar rapidamente via OpenRouter, como o M.1 está gratuito por tempo limitado e com 131.072 de contexto, dá para rodar cenários exigentes sem custos iniciais, monitorando latência e consumo de tokens.
Testar local com o XS.2, o card no Hugging Face traz guias para vLLM, Transformers e TRT‑LLM, além de comandos para Ollama, úteis para Macs com MLX. Começar com amostras de 0,7 de temperatura e top_k 20 replica a configuração de avaliação.
Integrar o agente Pool no seu editor via Agent Client Protocol, configurar ferramentas seguras, e rodar com logs persistentes para auditoria. Em paralelo, usar o Shimmer para sandboxes reproduzíveis compartilháveis entre time e stakeholders.
Medir além do acerto pontual, tempo até o PR, taxa de testes verdes na primeira execução e número de interações ferramenta por tarefa são métricas que refletem o valor de um agente em engenharia.

Debaixo do capô, otimizações e pesquisa aplicada

A Poolside publicou um texto técnico que aprofunda como treina e opera os modelos. Há menção a dados sintéticos e automixing, ao otimizador Muon, a um setup assíncrono de reinforcement learning on‑policy para agentes e a uma fábrica de modelos chamada Titan. Um ponto interessante é a engenharia para sincronizar checkpoints entre treinamento e inferência com GPUDirect RDMA, movendo centenas de gigabytes em segundos, algo crítico para iterações rápidas. Esse pano de fundo explica a ênfase em tarefas longas e em suporte nativo a raciocínio intercalado.

No XS.2, o uso de Sliding Window Attention combinado com camadas de atenção global em proporção 3 para 1, mais KV cache em FP8, sinaliza uma busca por throughput com memória contida. A decisão de manter 3B de parâmetros ativados em um MoE de 33B totais equilibra custo e capacidade, e ajuda a rodar em uma única GPU local mais potente ou em instâncias acessíveis na nuvem. Para quem precisa massificar agentes em edge labs ou developers machines, esse desenho é prático.

Benchmarks, leitura crítica e decisões de adoção

Benchmarks ajudam a comparar, mas em agentes de código o caminho real inclui setup, ferramentas e limites de execução. A Poolside descreve que usou o Harbor Framework com até 500 passos e ambiente sandboxado, e manteve parâmetros idênticos entre modelos para isolar diferenças. O card do XS.2 lista percentuais em suítes como SWE-bench e Terminal-Bench 2.0, com médias em múltiplas execuções. Em decisões de compra, sugiro replicar localmente o subset de tarefas que refletem o seu mix de linguagens, build systems e topologia de serviços, além de medir qualidade de PRs e retrabalho.

Para dar contexto de mercado, veículos especializados já destacam a guinada da Poolside para pesos abertos do XS.2 com foco em builders e pesquisadores, mantendo o M.1 principalmente atrás de API. Isso tende a impulsionar integrações de terceiros e toolings de IDE, e coloca pressão em concorrentes para oferecer caminhos semelhantes de experimentação local.

Custos, infraestrutura e governança

Rodar um MoE de 33B com 3B ativos muda a conta de TCO. Quantização do KV para FP8 e atenção deslizante encurtam pegada de memória, o que pode habilitar execução em GPUs de 24 a 36 GB com folga para contexto grande. No lado servidor, vLLM e TRT‑LLM com rota de PRs abertos encurtam o caminho para produção. Em governança, vale estabelecer camadas claras, permissões do agente a ferramentas, limites de escrita em repositórios, política de segredos e gates de revisão humana com diffs explicados.

Roadmap provável e sinais para observar

Iterações abertas do XS.2, o anúncio fala em progresso aberto contínuo na família Laguna, o que sugere novas revisões públicas e relatórios técnicos.
Maturação do stack de inferência, quando PRs em vLLM, TRT‑LLM e Transformers viram releases estáveis, equipes ganham confiança para produção.
Produtos de agente, a evolução do Pool e do Shimmer dirá muito sobre a ambição de produto da Poolside e seu foco em DX.

Conclusão

A chegada do Laguna M.1 com foco em tarefas longas e do Laguna XS.2 com pesos abertos, mais a prévia de Pool e Shimmer, cria um pacote coerente para acelerar agentes de código. Para líderes técnicos, o recado é simples, testar agora enquanto o acesso está gratuito, montar um harness de avaliação com suas tarefas reais e desenhar uma trilha segura para colocar agentes assistindo seus times sem quebrar processos.

O momento favorece experimentação responsável. Com XS.2 aberto sob Apache 2.0, integração rápida em runtimes populares e M.1 disponível via API e OpenRouter, dá para validar valor sem compromissos pesados. Equipes que medirem resultados no que importa, tempo até PR útil, taxa de testes verdes, retrabalho e satisfação do dev, vão extrair o melhor dessa nova safra de modelos agentic.