Subquadratic revela SubQ, LLM com 12M de tokens e atenção esparsa
SubQ estreia com janela de contexto de 12 milhões de tokens, arquitetura subquadrática e produtos focados em código e pesquisa, prometendo velocidade e custos menores
Danilo Gato
Autor
Introdução
Subquadratic revela SubQ, LLM com 12 milhões de tokens de contexto e atenção esparsa, uma proposta que quebra a barreira prática dos milhões de tokens com arquitetura subquadrática. O anúncio, feito em 5 de maio de 2026, apresenta uma pesquisa que chega a 12 milhões de tokens, além de um preview de 1 milhão de tokens para uso inicial, com o objetivo de tornar longos contextos realmente utilizáveis.
O tema importa porque o custo e a latência de atenção densa explodem com o tamanho do contexto. A Subquadratic afirma ter reduzido o compute de atenção em quase mil vezes no limite de 12 milhões de tokens, com ganhos de velocidade relevantes já em 1 milhão de tokens. Isso abre espaço para ler repositórios inteiros, coleções de documentos extensas e históricos longos sem pipelines frágeis de RAG.
O artigo aborda o que foi lançado, como funciona a atenção esparsa subquadrática do SubQ, benchmarks e custos reportados, impactos práticos para times de produto e engenharia, limitações e primeiros passos para avaliar a tecnologia. Para referência e palavra-chave, a discussão ganhou tração pública via https://x.com/alex_whedon/status/2051663268704636937.
O anúncio em detalhes
Em 5 de maio de 2026, a Subquadratic apresentou o SubQ 1M-Preview, descrito como o primeiro LLM totalmente subquadrático, com compute que escala linearmente com o comprimento do contexto. A empresa também divulgou ter um resultado de pesquisa operando até 12 milhões de tokens. Além do modelo, foram anunciados três produtos em beta privado, a API de contexto completo, o SubQ Code, agente de linha de comando para carregar um repositório inteiro de uma vez, e o SubQ Search, ferramenta de pesquisa de longo contexto.
A companhia levantou 29 milhões de dólares em rodada seed para sustentar o roadmap. A cobertura do mercado reforçou os números de contexto e a estratégia de produtos, ressaltando que a janela de 12 milhões de tokens visa reduzir a dependência de arquiteturas agentic complexas e de pipelines de recuperação custosos.
Por que a atenção esparsa subquadrática muda o jogo
A dor de cabeça dos LLMs longos é simples. Atenção densa compara cada token com todos os outros, custo quadrático, que dobra o tamanho da entrada e quadruplica as operações. A Subquadratic afirma adotar um mecanismo próprio de atenção esparsa subquadrática, chamado SSA, projetado para longas sequências com foco em recuperação, raciocínio e engenharia de software. Segundo a empresa, o SSA alcança 7,2 vezes de aceleração de input em 128 mil tokens e mais de 50 vezes de prefill em 1 milhão de tokens, em comparação com atenção densa em seus testes de arquitetura.
Esse movimento não nasce do nada. O ecossistema pesquisa alternativas subquadráticas há anos, como variantes de atenção esparsa, modelos de espaço de estados e extensões de FlashAttention para padrões esparsos. Trabalhos recentes exploram token selection e sparsidade adaptativa, reforçando a direção de que contextos longos exigem menos interações explícitas e mais priorização.
Benchmarks, custo e velocidade, o que os dados indicam
A Subquadratic publicou números de avaliação em long context. Em RULER 128K, o SubQ 1M-Preview teria alcançado 95 por cento de acurácia, com alegada superioridade de velocidade e custo em relação a modelos densos. A página técnica também menciona desempenho em MRCR v2 e SWE-Bench Verified, sugerindo paridade ou vantagem frente a modelos de referência em tarefas que exigem leitura e raciocínio distribuído no contexto. Esses resultados, segundo a empresa, foram verificados por terceiros.
Além dos scores, o ponto sensível é custo. A cobertura do lançamento destaca uma redução de ordens de magnitude em cenários de 1 milhão de tokens, e a própria empresa fala em quase mil vezes menos compute no teto de 12 milhões. O objetivo é simples, tornar viáveis fluxos contínuos e contextos persistentes que hoje morrem no orçamento.
![AI long-context visualization]
Aplicações práticas imediatas para times de engenharia
- Leitura de repositórios inteiros. SubQ Code é um agente de CLI pensado para planear, executar e revisar mudanças com o repositório completo em uma única janelada de contexto, sem orquestrar enxames de agentes. O resultado prático é menos overhead e menos risco de inconsistência entre subagentes.
- Pesquisa profunda com latência baixa. SubQ Search promete combinar ingestão massiva de documentos com respostas em modo chat, útil para due diligence, revisão regulatória e investigações técnicas.
- Suporte a históricos longos. Em ambientes de suporte, vendas e governança, manter meses de interações no mesmo contexto reduz repetição e melhora continuidade de raciocínio.
Na prática, a maior janela de contexto, se acompanhada de custo previsível, substitui boa parte dos hacks de RAG e chunking. Essa substituição não é binária, ainda haverá espaço para recuperação eficiente, porém o balanço muda quando o modelo consegue ler muito mais, com estabilidade e sem degradar a qualidade.
O que observar nos próximos meses
- Validação independente. A comunidade técnica costuma exigir auditorias de terceiros para confirmar acurácia, latência e custos em cargas realistas. Benchmarks como RULER explicam bem a metodologia de avaliação de long context, e servem como referência ao interpretar resultados.
- Generalização de raciocínio em longos horizontes. Parte da literatura alerta que algumas abordagens esparsas perdem qualidade em raciocínio denso quando a compressão de estado é agressiva. Pesquisas recentes propõem mecanismos de seleção adaptativa para compensar. O mercado vai testar se o SubQ mantém consistência ao longo de jornadas longas de engenharia e pesquisa.
- Ecossistema e tooling. Um API com 12 milhões de tokens abre novas classes de ferramentas, editores e IDEs com contexto persistente, além de camadas de memória e análise de repositórios sem segmentação. A expectativa é que apareçam SDKs, templates e exemplos de fluxo específicos para o SubQ.
![Codebase-scale reasoning]
Perguntas frequentes que times vão fazer
- A janela de 12 milhões está disponível para todos, já. Segundo a empresa, o resultado de pesquisa opera em até 12 milhões e o beta privado expõe uma API de contexto completo, com SubQ 1M-Preview disponível para início de uso. Solicitações de acesso são feitas por waitlist.
- Como fica a comparação com modelos de nuvem que anunciam 1 milhão de tokens. A Subquadratic alega que outros modelos perdem desempenho bem antes do limite anunciado, enquanto o SubQ manteria acurácia e custo controlado em longos contextos. A verificação independente e testes cativos serão essenciais para validar essa diferença.
- O modelo é aberto. Não, o posicionamento atual é comercial, com possibilidade de customização para casos de clientes, sem abertura de pesos no curto prazo, segundo cobertura do lançamento.
Como testar com pragmatismo
- Construa um conjunto de casos reais, não apenas synthetic needles. Misture tarefas de cópia exata, recuperação distribuída e planejamento multiarquivo. Traga uma base real, um repositório completo ou um conjunto documental pesado.
- Compare latência e custo de ponta a ponta. Coloque lado a lado o fluxo com RAG e chunking versus o contexto completo do SubQ, usando as mesmas métricas de sucesso e teto de custo.
- Avalie estabilidade de raciocínio ao longo do tempo. Teste sessões com muitas rodadas, commits encadeados e revisões, valide consistência de decisões e referências entre etapas.
- Audite logs e trilhas de decisão. Em atenção esparsa, interessa entender quando e como o modelo “olha” para regiões do contexto. Mesmo sem interpretabilidade perfeita, padrões de sucesso e falha surgem ao inspecionar os resultados repetidamente.
Onde a atenção esparsa se encaixa na fronteira de pesquisa
A linha de pesquisa que reduz interações para escapar do custo quadrático inclui extensões de FlashAttention e propostas recentes de seleção intercalada de tokens. O fio condutor é dar prioridade seletiva ao que importa, escalando linearmente ou quase linearmente com o contexto. O SubQ adota essa família de ideias com implementação própria, focada em workloads de engenharia. O pano de fundo acadêmico mostra que, em contextos longos, sparsidade bem orquestrada supera implementações densas em tempo por passo, principalmente quando a taxa de sparsidade é alta.
Há ressalvas, claro. Parte da literatura nota que atenção subquadrática exige políticas de retenção cuidadosas para não degradar raciocínio complexo. Esse equilíbrio, precisão versus eficiência, é o que times devem medir em pilotos de produção.
Conclusão
A Subquadratic colocou o longo contexto no centro da mesa, com um LLM que promete 12 milhões de tokens, custo previsível e velocidade prática. Se as alegações de benchmarks e economia se confirmarem em cenários reais, repositórios inteiros em um único passe deixam de ser demonstração e viram rotina, com implicações diretas em produtividade e qualidade de software.
O avanço tem menos glamour acadêmico do que parece e mais pragmatismo de engenharia. Escalar contexto com custo linear muda a economia do que é possível construir com IA. No curto prazo, o caminho é simples, rodar pilotos com seus dados, medir latência e custo ponta a ponta, validar qualidade e decidir onde o contexto completo elimina gambiarras. Se a curva fechar, o próximo ciclo de produtos inteligentes passa a ser desenhado a partir do problema, não da restrição do contexto.
