Subquadratic revela SubQ, LLM com 12M de tokens

Introdução

Subquadratic revela SubQ, LLM com 12 milhões de tokens de contexto e atenção esparsa, uma proposta que quebra a barreira prática dos milhões de tokens com arquitetura subquadrática. O anúncio, feito em 5 de maio de 2026, apresenta uma pesquisa que chega a 12 milhões de tokens, além de um preview de 1 milhão de tokens para uso inicial, com o objetivo de tornar longos contextos realmente utilizáveis.

O tema importa porque o custo e a latência de atenção densa explodem com o tamanho do contexto. A Subquadratic afirma ter reduzido o compute de atenção em quase mil vezes no limite de 12 milhões de tokens, com ganhos de velocidade relevantes já em 1 milhão de tokens. Isso abre espaço para ler repositórios inteiros, coleções de documentos extensas e históricos longos sem pipelines frágeis de RAG.

O artigo aborda o que foi lançado, como funciona a atenção esparsa subquadrática do SubQ, benchmarks e custos reportados, impactos práticos para times de produto e engenharia, limitações e primeiros passos para avaliar a tecnologia. Para referência e palavra-chave, a discussão ganhou tração pública via https://x.com/alex_whedon/status/2051663268704636937.

O anúncio em detalhes

Em 5 de maio de 2026, a Subquadratic apresentou o SubQ 1M-Preview, descrito como o primeiro LLM totalmente subquadrático, com compute que escala linearmente com o comprimento do contexto. A empresa também divulgou ter um resultado de pesquisa operando até 12 milhões de tokens. Além do modelo, foram anunciados três produtos em beta privado, a API de contexto completo, o SubQ Code, agente de linha de comando para carregar um repositório inteiro de uma vez, e o SubQ Search, ferramenta de pesquisa de longo contexto.

A companhia levantou 29 milhões de dólares em rodada seed para sustentar o roadmap. A cobertura do mercado reforçou os números de contexto e a estratégia de produtos, ressaltando que a janela de 12 milhões de tokens visa reduzir a dependência de arquiteturas agentic complexas e de pipelines de recuperação custosos.

Por que a atenção esparsa subquadrática muda o jogo

A dor de cabeça dos LLMs longos é simples. Atenção densa compara cada token com todos os outros, custo quadrático, que dobra o tamanho da entrada e quadruplica as operações. A Subquadratic afirma adotar um mecanismo próprio de atenção esparsa subquadrática, chamado SSA, projetado para longas sequências com foco em recuperação, raciocínio e engenharia de software. Segundo a empresa, o SSA alcança 7,2 vezes de aceleração de input em 128 mil tokens e mais de 50 vezes de prefill em 1 milhão de tokens, em comparação com atenção densa em seus testes de arquitetura.

Esse movimento não nasce do nada. O ecossistema pesquisa alternativas subquadráticas há anos, como variantes de atenção esparsa, modelos de espaço de estados e extensões de FlashAttention para padrões esparsos. Trabalhos recentes exploram token selection e sparsidade adaptativa, reforçando a direção de que contextos longos exigem menos interações explícitas e mais priorização.

Benchmarks, custo e velocidade, o que os dados indicam

A Subquadratic publicou números de avaliação em long context. Em RULER 128K, o SubQ 1M-Preview teria alcançado 95 por cento de acurácia, com alegada superioridade de velocidade e custo em relação a modelos densos. A página técnica também menciona desempenho em MRCR v2 e SWE-Bench Verified, sugerindo paridade ou vantagem frente a modelos de referência em tarefas que exigem leitura e raciocínio distribuído no contexto. Esses resultados, segundo a empresa, foram verificados por terceiros.

Além dos scores, o ponto sensível é custo. A cobertura do lançamento destaca uma redução de ordens de magnitude em cenários de 1 milhão de tokens, e a própria empresa fala em quase mil vezes menos compute no teto de 12 milhões. O objetivo é simples, tornar viáveis fluxos contínuos e contextos persistentes que hoje morrem no orçamento.

![AI long-context visualization]

Aplicações práticas imediatas para times de engenharia

Leitura de repositórios inteiros. SubQ Code é um agente de CLI pensado para planear, executar e revisar mudanças com o repositório completo em uma única janelada de contexto, sem orquestrar enxames de agentes. O resultado prático é menos overhead e menos risco de inconsistência entre subagentes.
Pesquisa profunda com latência baixa. SubQ Search promete combinar ingestão massiva de documentos com respostas em modo chat, útil para due diligence, revisão regulatória e investigações técnicas.
Suporte a históricos longos. Em ambientes de suporte, vendas e governança, manter meses de interações no mesmo contexto reduz repetição e melhora continuidade de raciocínio.

Na prática, a maior janela de contexto, se acompanhada de custo previsível, substitui boa parte dos hacks de RAG e chunking. Essa substituição não é binária, ainda haverá espaço para recuperação eficiente, porém o balanço muda quando o modelo consegue ler muito mais, com estabilidade e sem degradar a qualidade.

O que observar nos próximos meses

Validação independente. A comunidade técnica costuma exigir auditorias de terceiros para confirmar acurácia, latência e custos em cargas realistas. Benchmarks como RULER explicam bem a metodologia de avaliação de long context, e servem como referência ao interpretar resultados.
Generalização de raciocínio em longos horizontes. Parte da literatura alerta que algumas abordagens esparsas perdem qualidade em raciocínio denso quando a compressão de estado é agressiva. Pesquisas recentes propõem mecanismos de seleção adaptativa para compensar. O mercado vai testar se o SubQ mantém consistência ao longo de jornadas longas de engenharia e pesquisa.
Ecossistema e tooling. Um API com 12 milhões de tokens abre novas classes de ferramentas, editores e IDEs com contexto persistente, além de camadas de memória e análise de repositórios sem segmentação. A expectativa é que apareçam SDKs, templates e exemplos de fluxo específicos para o SubQ.

![Codebase-scale reasoning]

Perguntas frequentes que times vão fazer

A janela de 12 milhões está disponível para todos, já. Segundo a empresa, o resultado de pesquisa opera em até 12 milhões e o beta privado expõe uma API de contexto completo, com SubQ 1M-Preview disponível para início de uso. Solicitações de acesso são feitas por waitlist.
Como fica a comparação com modelos de nuvem que anunciam 1 milhão de tokens. A Subquadratic alega que outros modelos perdem desempenho bem antes do limite anunciado, enquanto o SubQ manteria acurácia e custo controlado em longos contextos. A verificação independente e testes cativos serão essenciais para validar essa diferença.
O modelo é aberto. Não, o posicionamento atual é comercial, com possibilidade de customização para casos de clientes, sem abertura de pesos no curto prazo, segundo cobertura do lançamento.

Como testar com pragmatismo

Construa um conjunto de casos reais, não apenas synthetic needles. Misture tarefas de cópia exata, recuperação distribuída e planejamento multiarquivo. Traga uma base real, um repositório completo ou um conjunto documental pesado.
Compare latência e custo de ponta a ponta. Coloque lado a lado o fluxo com RAG e chunking versus o contexto completo do SubQ, usando as mesmas métricas de sucesso e teto de custo.
Avalie estabilidade de raciocínio ao longo do tempo. Teste sessões com muitas rodadas, commits encadeados e revisões, valide consistência de decisões e referências entre etapas.
Audite logs e trilhas de decisão. Em atenção esparsa, interessa entender quando e como o modelo “olha” para regiões do contexto. Mesmo sem interpretabilidade perfeita, padrões de sucesso e falha surgem ao inspecionar os resultados repetidamente.

Onde a atenção esparsa se encaixa na fronteira de pesquisa

A linha de pesquisa que reduz interações para escapar do custo quadrático inclui extensões de FlashAttention e propostas recentes de seleção intercalada de tokens. O fio condutor é dar prioridade seletiva ao que importa, escalando linearmente ou quase linearmente com o contexto. O SubQ adota essa família de ideias com implementação própria, focada em workloads de engenharia. O pano de fundo acadêmico mostra que, em contextos longos, sparsidade bem orquestrada supera implementações densas em tempo por passo, principalmente quando a taxa de sparsidade é alta.

Há ressalvas, claro. Parte da literatura nota que atenção subquadrática exige políticas de retenção cuidadosas para não degradar raciocínio complexo. Esse equilíbrio, precisão versus eficiência, é o que times devem medir em pilotos de produção.

Conclusão

A Subquadratic colocou o longo contexto no centro da mesa, com um LLM que promete 12 milhões de tokens, custo previsível e velocidade prática. Se as alegações de benchmarks e economia se confirmarem em cenários reais, repositórios inteiros em um único passe deixam de ser demonstração e viram rotina, com implicações diretas em produtividade e qualidade de software.

O avanço tem menos glamour acadêmico do que parece e mais pragmatismo de engenharia. Escalar contexto com custo linear muda a economia do que é possível construir com IA. No curto prazo, o caminho é simples, rodar pilotos com seus dados, medir latência e custo ponta a ponta, validar qualidade e decidir onde o contexto completo elimina gambiarras. Se a curva fechar, o próximo ciclo de produtos inteligentes passa a ser desenhado a partir do problema, não da restrição do contexto.