MIT lança Recursive Language Model, 10M sem context rot
Novo framework de inferência do MIT propõe uma virada prática no uso de LLMs, permitindo lidar com entradas de até 10 milhões de tokens sem degradação de contexto, custos previsíveis e ganhos reais em tarefas longas
Danilo Gato
Autor
Introdução
Recursive Language Model é o conceito que recoloca a discussão de longo contexto no eixo. Em vez de aumentar a janela e torcer para não surgir context rot, o MIT propõe que a LLM programe o próprio processo de leitura e raciocínio, navegando por 10 milhões de tokens como se o prompt fosse um ambiente externo. O anúncio detalhado, com resultados em benchmarks e código disponível, foi publicado pela VentureBeat e se baseia em trabalho acadêmico de Alex L. Zhang, Tim Kraska e Omar Khattab.
A importância do tema é objetiva. O mercado correu para ampliar janelas, mas os dados mostram limites claros. Modelos comerciais chegaram a centenas de milhares de tokens, e a própria Google divulgou 1 milhão de tokens em produção no Gemini 1.5 Pro, com experimentos de 10 milhões, porém isso não resolve a queda de qualidade à medida que a complexidade cresce. A promessa do RLM é atacar a causa, não apenas o sintoma.
Este guia explica como o Recursive Language Model funciona, por que ele difere de janelas gigantes, o que os testes mostraram, e como levar a ideia para casos práticos com Python, RAG e agentes.
O problema do longo contexto, além do tamanho
A corrida por mais tokens é real, mas não basta. Mesmo com janelas extensas, aplicações se degradam quando a tarefa exige relacionar pontos distantes, fazer leituras múltiplas e raciocinar sobre estruturas densas. É o contexto acessível, mas não utilizável. Documentação oficial e relatórios de fornecedores reconhecem ganhos de janela, ao mesmo tempo em que equipes percebem quedas de precisão conforme as conversas se alongam.
A Google reportou 1 milhão de tokens em produção no Gemini 1.5 Pro, e testes internos atingindo 10 milhões, o que reforça que escala de entrada é possível. O que não está garantido é o raciocínio confiável em tarefas com dependências espalhadas. É exatamente essa lacuna que o MIT pretende preencher com os RLMs, mudando o paradigma de leitura passiva para exploração ativa do contexto.
Como funciona o Recursive Language Model
A ideia central é tratar o texto longo como variável externa em um ambiente de execução, tipicamente um REPL Python. Em vez de empurrar milhões de tokens para a janela da LLM, o sistema carrega o corpus como string, fornece metadados, e a LLM escreve código para vasculhar o conteúdo, abrindo subchamadas recursivas quando encontra trechos relevantes. O modelo atua como programador que sabe onde olhar e quando aprofundar.
Na prática, o pipeline segue quatro passos. Primeiro, o contexto é carregado fora do modelo, por exemplo em memória local ou objeto de armazenamento. Segundo, a LLM obtém um resumo estrutural e decide como segmentar. Terceiro, ela emite código para buscar, grepar, particionar e inspecionar trechos, acionando subchamadas dedicadas para raciocínio local. Quarto, os resultados das folhas retornam ao nó raiz, que sintetiza a resposta. O paper formaliza esse procedimento como estratégia geral de inferência, denominada Recursive Language Models.
Essa mudança reduz a entropia informacional no contexto imediato do modelo e permite uso seletivo de atenção. Em vez de diluir foco em milhões de tokens, a LLM só carrega, a cada passo, o que precisa. Isso melhora precisão, estabilidade e custo por consulta, já que a execução fragmenta o problema e evita avaliações globais desnecessárias.
![Stata Center, sede do CSAIL no MIT]
O que os resultados mostram
Os pesquisadores compararam RLMs com modelos base e agentes populares em tarefas de longo contexto, incluindo recuperação e QA multi-hop, e reportaram ganhos robustos na escala de 10 milhões de tokens. Em benchmarks como BrowseComp-Plus, entradas entre 6 e 11 milhões de tokens derrubaram modelos base, que marcaram 0 por cento. O RLM, por sua vez, atingiu mais de 90 por cento, superando agentes de resumo e abordagens como CodeAct. O mesmo padrão apareceu em OOLONG-Pairs, onde a dificuldade cresce quadraticamente com o tamanho do input, e nos testes de entendimento de código.
O paper de dezembro de 2025 descreve formalmente que RLMs ampliam, em até duas ordens de magnitude, a capacidade efetiva de processar prompts além da janela de contexto, ao mesmo tempo em que superam modelos base e scaffolds comuns em quatro tarefas de longo contexto. A ênfase está na estratégia de inferência, não na troca de arquitetura, o que facilita adoção incremental.
Por que janelas grandes não bastam
Janelas maiores ajudam em tarefas lineares ou do tipo aguja no palheiro, em que basta localizar um fato específico. Porém, quando a tarefa exige cruzar definições distantes, normalizar nomenclatura, seguir referências em cadeia e comparar pares, o custo cognitivo explode. Documentação e comunicados apontam, de um lado, ganhos de janela. Do outro, alertam para a necessidade de gestão cuidadosa quando a soma entre entrada e saída se aproxima do limite, e para o impacto prático de tarefas que excedem uma única requisição. Esse contexto reforça a necessidade de estratégias como RLMs.
Em suma, aumentar contexto dá fôlego, mas não resolve a degradação sistemática quando a complexidade cresce. O RLM muda a pergunta. Em vez de quanto cabe na janela, pergunta qual parte precisa entrar na janela agora.
Aplicações práticas que já fazem diferença
- Due diligence e auditoria de grandes contratos. Um RLM identifica estruturas do documento, localiza definições, captura referências cruzadas e faz subchamadas por seção, evitando que cláusulas críticas se percam em resumos agressivos. O motor só carrega trechos essenciais a cada passo, preservando sinal e reduzindo custo.
- Análise de bases de código extensas. Em vez de tentar ler um repositório inteiro de uma vez, o RLM usa Python para mapear diretórios, encontrar pontos de entrada, seguir imports e abrir subchamadas para entender funções e contratos, consolidando respostas no nó raiz. Resultados reportados indicam ganhos substanciais em benchmarks de entendimento de código.
- Pesquisa e revisão literária. Ao tratar um acervo como coleção navegável, a LLM consulta índices, executa buscas por regex e conserva traços de navegação, o que torna reproduzível o caminho até uma conclusão. Isso reduz vieses comuns em pipelines de resumo recursivo.
Integração com stacks existentes, do RAG a agentes
RAG continua útil para estreitar o espaço de busca, mas sofre quando dependências relevantes estão dispersas. RLMs podem orquestrar RAG como etapa preliminar e, depois, explorar o corpus original com precisão, programando leituras locais e chamadas recursivas. O resultado é um híbrido em que RAG recupera, e RLM garante raciocínio composicional sobre o material integral.
Com agentes, o papel do RLM é coordenar. O nó raiz define o plano, pede ferramentas e dispara subchamadas de linguagem para raciocínio profundo. Em vez de um agente percorrer tudo cegamente, o RLM controla o escopo a cada passo. O próprio MIT vem explorando frameworks correlatos de orquestração e divisão de tarefas, o que sugere um ecossistema propício para a adoção dessa abordagem.
Boas práticas para experimentar RLM no dia a dia
- Ambiente. Configure um kernel Python com acesso a arquivos locais ou armazenamento de objetos. Garanta logs de auditoria e limites de E/S para evitar leituras acidentais de dados sensíveis.
- Estrutura. Forneça ao modelo metadados de alto nível, como contagem de caracteres, mapa de seções e padrões de cabeçalhos. Isso acelera o plano de exploração e reduz tentativas desnecessárias.
- Ferramentas. Habilite funções de busca por regex, particionamento, normalização de encoding e contagem de tokens. Em corpora técnicos, inclua navegação de AST para código.
- Custos. Meça custo por subchamada. A inferência recursiva desloca o gasto de uma chamada gigante para várias chamadas curtas. Os relatos indicam custos iguais ou menores que abordagens baseline em cenários longos, com ganhos de acurácia.
- Critérios. Avalie em tarefas que exigem raciocínio denso e leitura seletiva. Use benchmarks com dependências espalhadas, não apenas needle-in-a-haystack.
![Abstração visual de IA e processamento seletivo]
Limitações e pontos de atenção
- Decomposição correta não é trivial. A LLM precisa decidir onde olhar, como quebrar o problema e quando aprofundar. Uma decomposição ingênua pode perder dependências sutis. O paper e o artigo técnico discutem essa nuance ao destacar que a estratégia depende da capacidade do modelo de orquestrar o próprio processo.
- Observabilidade. Mais etapas significam mais pontos de falha. Telemetria, traces de subchamadas e registro do código gerado são essenciais para explicabilidade e governança.
- Compatibilidade de provedores. Janelas grandes continuam úteis. Se a sua stack já opera com 200K a 1M de tokens, ajuste estratégias. A própria Anthropic publica diretrizes de uso e ressalvas quando prompts e saídas se aproximam do limite.
Onde isso se encaixa na evolução dos LLMs
O RLM não troca a arquitetura do modelo, troca a estratégia de inferência. Essa distinção importa. Equipes podem manter modelos atuais e acoplar o framework, o que reduz atrito de adoção. Ao mesmo tempo, a tendência de 2024 e 2025 foi clara, mais janela, mais multimodalidade e mais ferramentas. O anúncio do MIT sugere que 2026 pode ser o ano do longo contexto utilizável, com menos confiança em janelões e mais em exploração programática, benchmarkeada em cenários adversos.
Passo a passo resumido para um piloto
- Defina uma tarefa longa e densa. Evite casos triviais. Contratos com anexos, repositórios monorepo ou relatórios financeiros multiano são bons candidatos.
- Monte um caderno com acesso ao corpus como variável de ambiente. Exponha utilitários de inspeção e particionamento.
- Instrua o nó raiz a gerar, primeiro, um mapa estrutural do corpus, com hipóteses de onde estão as respostas.
- Dispare subchamadas para validação local. Padronize o formato de resultados por folha e a política de agregação.
- Meça custo, latência e precisão, e compare com um baseline de janelão único e com um pipeline RAG puro.
- Ajuste o plano recursivo com heurísticas de parada, limites de profundidade e cache de trechos frequentes.
Perguntas frequentes de decisão técnica
- Quando usar RLM em vez de só aumentar a janela. Use quando a tarefa exigir múltiplas leituras seletivas, quando a precisão cair com prompts enormes, ou quando o custo de avaliar tudo de uma vez se tornar proibitivo.
- RLM substitui RAG. Não. RLM orquestra leitura seletiva. Combine com RAG para estreitar busca, mas mantenha a capacidade de voltar ao texto integral quando necessário.
- Dá para começar sem trocar de modelo. Sim. O paper destaca que RLM é uma estratégia de inferência. A adoção pode começar com o modelo atual, desde que ele consiga programar e orquestrar subchamadas.
Conclusão
O Recursive Language Model muda a lógica do longo contexto. Em vez de forçar milhões de tokens na janela, a LLM aprende a explorar o corpus como um programador faria, com leituras locais, chamadas recursivas e agregação disciplinada. Os resultados publicados indicam ganhos expressivos em tarefas difíceis, incluindo benchmarks com 10 milhões de tokens. Para quem lida com documentos gigantes, código extenso e investigações complexas, essa é uma evolução prática.
A reflexão final é pragmática. Janelas largas continuam úteis, e a indústria seguirá expandindo limites. Mas a qualidade em tarefas densas depende de como o contexto é usado, não só de quanto cabe. O RLM oferece um caminho mais inteligente para escalar raciocínio, com custo previsível e melhor alinhamento ao que times realmente fazem no dia a dia.
