Arte de capa com referência a Laguna XS.2 e Laguna M.1
Inteligência Artificial

Poolside lança Laguna M.1, abre pesos do XS.2, prévia Pool

Dois modelos focados em código chegam de uma vez. Laguna M.1 mira tarefas longas, Laguna XS.2 sai com pesos abertos sob Apache 2.0, e ainda tem prévia dos agentes Pool e do ambiente Shimmer para acelerar ciclos de desenvolvimento.

Danilo Gato

Danilo Gato

Autor

29 de abril de 2026
10 min de leitura

Introdução

A palavra chave aqui é Laguna XS.2 e Laguna M.1. Em 28 de abril de 2026, a Poolside colocou no ar dois movimentos que mexem com o ecossistema de IA para código, lançou o modelo Laguna M.1 e abriu os pesos do Laguna XS.2. Além disso, apresentou prévias do agente de terminal Pool e do ambiente Shimmer, uma VM instantânea para construir e testar aplicações com seus modelos.

O anúncio combina ambição técnica e pragmatismo para desenvolvedores. O Laguna M.1 chega como o modelo mais capaz da casa para trabalho agentic e tarefas de longo horizonte, enquanto o Laguna XS.2 traz pesos abertos sob licença Apache 2.0 e um pacote de otimizações para rodar localmente com desempenho competitivo. Ambos estão gratuitos por tempo limitado via API oficial e também pelo OpenRouter, o que reduz a fricção para testes e POCs.

Por que este lançamento importa para quem constrói software

Quando um laboratório decide liberar pesos abertos de um modelo feito para agentes de código, o efeito dominó aparece rápido. O Laguna XS.2, com 33 bilhões de parâmetros totais e 3 bilhões ativados por token, foi pensado para tarefas de engenharia de software com ferramentas e iteração longa, e chega com licença Apache 2.0. Isso significa liberdade para fine-tuning, quantização e serving sem amarras comerciais, um incentivo direto para produtos B2B, extensões de IDE e plataformas de automação.

Ao mesmo tempo, o Laguna M.1 ocupa o topo da pilha na Poolside. São 225 bilhões de parâmetros totais e 23 bilhões ativados, com foco explícito em workstreams longos de programação orientada por agentes. Para equipes que precisam de raciocínio persistente, operações com múltiplas chamadas de ferramenta e manutenção de contexto em escala, é uma proposta clara. E, sim, com janela de contexto de seis dígitos, há margem para históricos grandes e dumps de logs. O OpenRouter já lista o M.1 como gratuito em seu lançamento, com 131.072 tokens de contexto.

Do ponto de vista de produto, a prévia do agente de terminal Pool e do ambiente Shimmer fecha o ciclo. O Pool conecta rapidamente a modelos e ferramentas, e o Shimmer oferece uma VM instantânea com o agente instalado para construir web apps, APIs e CLIs. Isso favorece um loop apertado de experimentação, execução, teste, correção e medida, exatamente o que times modernos precisam para validar hipóteses rápidas.

![Ilustração de IA e código]

Laguna M.1, capacidade para longos horizontes

Posiciono o Laguna M.1 como uma opção para pipelines exigentes de engenharia. A ficha técnica no anúncio oficial fala em 225B de parâmetros totais, 23B ativados, com foco em agentes de código e long-horizon work. Combinado ao contexto de 131.072 tokens mostrado no OpenRouter, dá para planejar estratégias de janelas deslizantes, checkpoints de raciocínio e buffers de logs, úteis em refactors grandes, correções complexas e criação de features sobre bases de código extensas.

A disponibilidade gratuita por tempo limitado via API oficial e no OpenRouter ajuda a diminuir o custo de troca para testes A/B, comparações com bases internas e validação de segurança com dados mascarados. Em ambientes com compliance estrito, é uma chance de medir value for money antes de compromissos comerciais.

No ecossistema de benchmarks, a Poolside destaca o foco agentic, o que implica avaliações que consideram múltiplos passos, chamadas de ferramenta e execução sandbox. O blog detalha o uso do Harbor Framework do Laude Institute, com até 500 passos, exceções para casos como Terminal-Bench 2.0, e parâmetros de amostragem constantes, o que ajuda na reprodutibilidade. Para quem compara modelos, consistência metodológica é tão importante quanto o número final.

Laguna XS.2, pesos abertos e engenharia para rodar local

O Laguna XS.2 é a cartada aberta. São 33B de parâmetros no total, 3B ativados por token, desenhado para trabalho agentic local, com Sliding Window Attention e quantização FP8 no KV cache para reduzir memória por token. A licença Apache 2.0 dá liberdade real para uso comercial e não comercial. A model card no Hugging Face confirma janela de contexto de 131.072 tokens, suporte nativo a raciocínio intercalado e orientações para rodar com vLLM, Transformers, TRT‑LLM e Ollama, inclusive com suporte MLX em Macs.

Benchmarks publicados indicam resultados competitivos em tarefas como SWE-bench Verified, Multilingual, Pro e Terminal-Bench 2.0. O XS.2 reporta, por exemplo, 68,2 por cento em SWE-bench Verified e 30,1 por cento no Terminal-Bench 2.0, com notas metodológicas sobre número de execuções e ambiente de sandbox. Para equipes, os números são um ponto de partida, não o fim da conversa, mas colocam o modelo no mapa entre opções populares de 24B a 35B.

Outro detalhe relevante é a rapidez de adoção na stack de inferência. O card descreve suporte chegando em Transformers após a 5.6.2, integração em vLLM via PR e caminho para TRT‑LLM com overlay mínimo. Para quem mantém infra multi runtime, isso encurta tempo entre teste e produção. E, com instruções diretas para Ollama, a barreira para um dev individual rodar localmente fica baixa.

![Imagem de notebook com IDE aberta]

Agentes de código na prática, Pool e Shimmer em prévia

Agentes precisam de duas coisas para gerar impacto além do demo, um harness confiável para orquestrar passos e um ambiente de execução com tooling e isolamento. A Poolside publica que usa um agent harness interno e que seus produtos em prévia, o Pool e o Shimmer, agora estão disponíveis para acelerar o uso dos modelos. O Pool é um agente de terminal, leve, com suporte ao Agent Client Protocol. O Shimmer é uma VM instantânea com o agente instalado, ideal para criar e iterar web apps, APIs e CLIs sem perder tempo com setup.

Para equipes de plataforma, a combinação sugere um fluxo, abrir um sandbox no Shimmer, conectar repositórios, ativar o Pool, instrumentar ferramentas como shell, testes, linter e formatadores, e guiar o agente com metas mensuráveis. Para segurança, a execução sandbox com limites de CPU e RAM, descrita nos métodos de benchmark, indica boas práticas que também podem ser replicadas em infraestrutura própria.

O que muda para times de engenharia, dados e produto

Vejo algumas mudanças práticas imediatas, primeiro, redução do custo de experimentação. Com o Laguna XS.2 liberado em pesos abertos, fica viável testar quantização, compilar kernels específicos e ajustar parâmetros de scheduler para o seu hardware. Segundo, diminuição do lock-in. A licença Apache 2.0 e a presença no Hugging Face diluem risco de dependência de um endpoint único. Terceiro, aceleração de prototipagem de agentes. O Pool e o Shimmer criam um caminho de menor atrito do prompt para o produto.

Em contrapartida, há responsabilidades, modelos agentic em código exigem políticas de acesso a ferramentas, controles de escrita em repositórios, políticas de segredo e revisão humana obrigatória para ações destrutivas. A boa notícia é que a própria metodologia de benchmark da Poolside, com ambientes sandbox e parâmetros estáveis, aponta direções para engenharia de confiabilidade e segurança.

Como começar hoje, passos práticos

  • Avaliar rapidamente via OpenRouter, como o M.1 está gratuito por tempo limitado e com 131.072 de contexto, dá para rodar cenários exigentes sem custos iniciais, monitorando latência e consumo de tokens.
  • Testar local com o XS.2, o card no Hugging Face traz guias para vLLM, Transformers e TRT‑LLM, além de comandos para Ollama, úteis para Macs com MLX. Começar com amostras de 0,7 de temperatura e top_k 20 replica a configuração de avaliação.
  • Integrar o agente Pool no seu editor via Agent Client Protocol, configurar ferramentas seguras, e rodar com logs persistentes para auditoria. Em paralelo, usar o Shimmer para sandboxes reproduzíveis compartilháveis entre time e stakeholders.
  • Medir além do acerto pontual, tempo até o PR, taxa de testes verdes na primeira execução e número de interações ferramenta por tarefa são métricas que refletem o valor de um agente em engenharia.

Debaixo do capô, otimizações e pesquisa aplicada

A Poolside publicou um texto técnico que aprofunda como treina e opera os modelos. Há menção a dados sintéticos e automixing, ao otimizador Muon, a um setup assíncrono de reinforcement learning on‑policy para agentes e a uma fábrica de modelos chamada Titan. Um ponto interessante é a engenharia para sincronizar checkpoints entre treinamento e inferência com GPUDirect RDMA, movendo centenas de gigabytes em segundos, algo crítico para iterações rápidas. Esse pano de fundo explica a ênfase em tarefas longas e em suporte nativo a raciocínio intercalado.

No XS.2, o uso de Sliding Window Attention combinado com camadas de atenção global em proporção 3 para 1, mais KV cache em FP8, sinaliza uma busca por throughput com memória contida. A decisão de manter 3B de parâmetros ativados em um MoE de 33B totais equilibra custo e capacidade, e ajuda a rodar em uma única GPU local mais potente ou em instâncias acessíveis na nuvem. Para quem precisa massificar agentes em edge labs ou developers machines, esse desenho é prático.

Benchmarks, leitura crítica e decisões de adoção

Benchmarks ajudam a comparar, mas em agentes de código o caminho real inclui setup, ferramentas e limites de execução. A Poolside descreve que usou o Harbor Framework com até 500 passos e ambiente sandboxado, e manteve parâmetros idênticos entre modelos para isolar diferenças. O card do XS.2 lista percentuais em suítes como SWE-bench e Terminal-Bench 2.0, com médias em múltiplas execuções. Em decisões de compra, sugiro replicar localmente o subset de tarefas que refletem o seu mix de linguagens, build systems e topologia de serviços, além de medir qualidade de PRs e retrabalho.

Para dar contexto de mercado, veículos especializados já destacam a guinada da Poolside para pesos abertos do XS.2 com foco em builders e pesquisadores, mantendo o M.1 principalmente atrás de API. Isso tende a impulsionar integrações de terceiros e toolings de IDE, e coloca pressão em concorrentes para oferecer caminhos semelhantes de experimentação local.

Custos, infraestrutura e governança

Rodar um MoE de 33B com 3B ativos muda a conta de TCO. Quantização do KV para FP8 e atenção deslizante encurtam pegada de memória, o que pode habilitar execução em GPUs de 24 a 36 GB com folga para contexto grande. No lado servidor, vLLM e TRT‑LLM com rota de PRs abertos encurtam o caminho para produção. Em governança, vale estabelecer camadas claras, permissões do agente a ferramentas, limites de escrita em repositórios, política de segredos e gates de revisão humana com diffs explicados.

Roadmap provável e sinais para observar

  • Iterações abertas do XS.2, o anúncio fala em progresso aberto contínuo na família Laguna, o que sugere novas revisões públicas e relatórios técnicos.
  • Maturação do stack de inferência, quando PRs em vLLM, TRT‑LLM e Transformers viram releases estáveis, equipes ganham confiança para produção.
  • Produtos de agente, a evolução do Pool e do Shimmer dirá muito sobre a ambição de produto da Poolside e seu foco em DX.

Conclusão

A chegada do Laguna M.1 com foco em tarefas longas e do Laguna XS.2 com pesos abertos, mais a prévia de Pool e Shimmer, cria um pacote coerente para acelerar agentes de código. Para líderes técnicos, o recado é simples, testar agora enquanto o acesso está gratuito, montar um harness de avaliação com suas tarefas reais e desenhar uma trilha segura para colocar agentes assistindo seus times sem quebrar processos.

O momento favorece experimentação responsável. Com XS.2 aberto sob Apache 2.0, integração rápida em runtimes populares e M.1 disponível via API e OpenRouter, dá para validar valor sem compromissos pesados. Equipes que medirem resultados no que importa, tempo até PR útil, taxa de testes verdes, retrabalho e satisfação do dev, vão extrair o melhor dessa nova safra de modelos agentic.

Tags

modelos de linguagemengenharia de softwareagentesbenchmarking