OpenAI e Thrive criam agentes de IA tributária com Codex

Introdução

Agentes de IA tributária já estão saindo do laboratório e operando com métricas de produção. OpenAI e Thrive Holdings descreveram como construíram, com Codex, um sistema de preparação de impostos capaz de se aprimorar continuamente a partir do uso real, com contadores no loop e infraestrutura de avaliações para transformar correções do dia a dia em melhorias de produto.

O projeto foi testado durante a temporada de impostos mais recente, dentro de uma rede de mais de 30 firmas apoiadas pela Crete, com milhares de declarações processadas, reduções práticas de tempo e ganhos de acurácia. O ponto central não é só automatizar tarefas, é instrumentar o fluxo de trabalho para que cada intervenção humana alimente um ciclo de aprendizado mensurável.

Este guia analisa a arquitetura do loop de autoaperfeiçoamento, resultados reportados, implicações para compliance, além de sinais do mercado que ajudam a calibrar expectativas sobre agentes em finanças e contabilidade.

O que exatamente foi anunciado e por que importa

O post técnico, publicado em 27 de maio de 2026, detalha como equipes da OpenAI e da Thrive Holdings coengenheiraram o Tax AI para contadores da Crete. A base é o Codex, focado em trabalho agentivo no computador, hoje na versão GPT 5.3 Codex, com recursos para investigar causas de falhas, propor correções e validar mudanças com evals, acelerando o ciclo de engenharia.

O recado para operações tributárias é claro, agentes não substituem o julgamento profissional, eles transformam o volume de produção em evidência, permitem medir qualidade por campos preenchidos corretamente, e priorizam correções que geram impacto no throughput. Isso reduz o tempo gasto em digitação e reconciliação de dados, libera o especialista para o contato consultivo com o cliente e cria um mecanismo para o sistema ficar melhor semana após semana.

Como funciona o loop de melhoria contínua com Codex

O desenho do sistema se apoia em três pilares, proximidade com praticantes, traços de produção detalhados e um laço de iteração movido por Codex. Na prática, cada correção feita por um contador sai do estado de ruído e vira uma pista estruturada, depois vira alvo de avaliação, e por fim se transforma em tarefa de engenharia com critérios de aceitação. O Codex investiga o pipeline, sugere mudanças no extrator, no mapeamento para o motor fiscal e no avaliador, roda regressões, e sugere um pull request para revisão.

Esse arranjo liga diretamente a operação à engenharia, evitando o gargalo clássico, muita telemetria e pouco sinal acionável. Em vez de um alerta genérico, cada achado já chega como tarefa circunscrita, com dados representativos, caminhos de código relevantes e testes. Isso reduz o tempo até o conserto e, mais importante, evita correções cosméticas que não escalam.

Resultados medidos e métricas que valem acompanhar

Os números reportados ajudam a entender a materialidade. No piloto, o Tax AI processou cerca de 7 mil declarações nesta temporada, automatizando grande parte do preparo de 1040 e 1041. O time apresenta ganhos de aproximadamente 50 por cento no throughput, economia de um terço do tempo de preparação e rascunhos com até 97 por cento de acurácia. Em seis semanas, a proporção de retornos com ao menos 75 por cento de campos corretos saltou de 25 por cento para 86 por cento.

Métricas úteis para qualquer operação que avalie agentes semelhantes, porcentual de campos corretos por tipo de retorno, taxa de casos que exigem intervenção manual, tempo até a primeira submissão ao motor fiscal, taxa de retrabalho por erro de extração versus erro de mapeamento, e impacto no SLA por complexidade do caso. Esses indicadores se conectam bem com a filosofia de avaliações do ecossistema OpenAI, como o GDPval, que mede entrega de trabalho econômico real em dezenas de ocupações e dá um norte sobre progresso de modelos em tarefas profissionais.

O papel do GPT 5.3 Codex e por que ele acelera agentes de produção

O GPT 5.3 Codex foi apresentado com foco em capacidade agentiva de longo curso, incluindo benchmarks de uso do computador, terminal e engenharia de software, e vem sendo usado pelo próprio time para depurar e implantar versões do modelo. Em termos práticos, isso significa um agente apto a investigar pipelines, ajustar esquemas e validar correções sem perder o fio do contexto, um requisito para ciclos de melhoria semanais em produtos vivos.

A conexão com o caso tributário é direta, o mesmo tipo de competência que permite montar apps ao longo de milhões de tokens em um ambiente controlado também sustenta uma investigação disciplinada do que quebrou entre documentos de origem, extração com prova de origem, mapeamento e submissão. Quanto mais legível o sistema for para o agente, mais rápido o laço fecha.

Exemplo prático, renda de imóveis para Schedule E

O exemplo de propriedades para aluguel ilustra onde agentes de IA tributária costumam tropeçar, documentos bagunçados, campos faltantes, múltiplos imóveis em um mesmo pacote, e como o produto rastreia cada etapa até o envio. Ao capturar a diferença entre previsão e valor final, agrupar padrões recorrentes e convertê los em alvos de avaliação, o time dá a Codex um morro bem definido para escalar, por exemplo, dias de aluguel justos, seleção de fontes ou confusões entre imóveis.

O ganho aqui vai além da precisão pontual, toda nova habilidade que migra de simples para complexa, como sair de W 2 e 1099 para K 1 e reconciliações multi documentos, tende a economizar mais minutos por retorno do que a anterior. Isso aparece no avanço das curvas de 75 por cento, 90 por cento e 100 por cento de conclusão de campos ao longo da temporada.

Ilustração do artigo

![Mesa com documentos fiscais e etiquetas coloridas, simbolizando organização na preparação de impostos]

Como isso se compara ao movimento do setor

Os grandes players já vinham incorporando IA generativa em preparação de impostos, tanto em fluxos assistidos quanto em experiências mais autônomas. A Intuit divulgou, nas últimas temporadas, uso de sua GenOS em produtos como TurboTax e Credit Karma, inclusive com parcerias de nuvem, e em novembro de 2025 anunciou um acordo de mais de 100 milhões de dólares com a OpenAI para levar apps à camada ChatGPT e acelerar agentes para tarefas fiscais e financeiras. Isso indica convergência, IA generativa como camada operacional para produtos de finanças do consumidor e PMEs.

Outro incumbente, H&R Block, anunciou o AI Tax Assist para orientar contribuintes no autosserviço com garantias de exatidão, reforçando que IA útil no imposto precisa vir com salvaguardas e rotas claras para suporte humano. Esses cases formam um pano de fundo que ajuda a dimensionar o que Codex e Thrive estão fazendo, colocar um agente dentro do ciclo engenharia operação com medição contínua e ganhos semanais muda a taxa de aprendizado do sistema.

![Fundo tecnológico azul com circuito, simbolizando o Codex investigando e corrigindo o pipeline]

Riscos, compliance e como manter qualidade sem travar a operação

Operar em tributação implica requisitos rígidos de auditoria, trilha de decisão e atribuição de fontes. O case prioriza captura de traços de produção, citando a necessidade de preservar percurso completo, do documento à submissão e correções, para distinguir falhas reais de ruídos do fluxo normal de trabalho. Em termos práticos, isso permite responder a perguntas que times de risco vão fazer, foi extração errada, mapeamento incompleto, falta de suporte no produto ou apenas preferência do praticante.

Para manter risco sob controle, três práticas ajudam, definir claramente quais campos o agente pode preencher de forma autônoma e quais exigem revisão humana obrigatória, manter avaliadores específicos por categoria de documento e por regra fiscal, alimentados por correções reais, e rodar regressões frequentes para evitar que uma melhoria local quebre casos já resolvidos. Isso casa com a direção de avaliação do ecossistema, que usa benchmarks de entregáveis reais como o GDPval para evitar otimismo exagerado baseado só em provas acadêmicas.

Guia de implementação, do piloto ao rollout

Definir escopo de documentos e formulários. Começar por classes de menor variância, W 2 e 1099, e gradualmente expandir para K 1, Schedule E e reconciliações, sempre com alvos de avaliação amarrados aos padrões de erro mais frequentes.
Instrumentar o produto. Toda ação do usuário precisa virar dado estruturado, proposta do agente, edição do praticante, valor final, para que cada correção alimente o backlog de melhorias com evidência.
Montar o loop com Codex. Dar ao agente o contexto mínimo editável, repositório, schemas, mapeadores e suíte de evals. Deixar claro o que constitui sucesso, para que cada PR sugerido tenha critério verificável.
Criar métricas de negócio junto com as técnicas. Campos corretos por retorno, tempo por retorno, taxa de bloqueio por campo crítico, throughput diário, e impacto no SLA por complexidade. Reportar semanalmente, alinhado ao calendário fiscal.
Implantar salvaguardas. Gatear capacidades sensíveis e manter revisão humana nos primeiros ciclos após cada melhoria. No ecossistema Codex, há também diretrizes de segurança cibernética e acesso confiável para capacidades avançadas, úteis para times que lidam com dados financeiros.

Sinais de futuro, agentes mais gerais para trabalho profissional

O movimento de autoaperfeiçoamento não deve ficar restrito a impostos. A própria OpenAI posiciona o Codex como um agente que evolui de escrever código para operar um computador e entregar trabalho ponta a ponta, com ganhos em benchmarks de uso real, de SWE Bench Pro a OSWorld e GDPval. Isso abre espaço para workflows contábeis vizinhos, escrituração, auditoria, e também para áreas operacionais, help desk e mais, como a Thrive sugere explorar em seu portfólio.

A implicação prática, empresas que dominarem a instrumentação de processos e criarem laços de avaliação que reciclam erros comuns em melhorias validadas, vão treinar agentes alinhados ao seu domínio, sem depender de updates de modelo para avançar. O diferencial competitivo passa pela qualidade do sinal de produção e pela disciplina de engenharia em transformar achados em ganhos cumulativos.

Conclusão

Agentes de IA tributária estão entrando em um ciclo virtuoso, mais uso gera mais evidência, que vira avaliação e engenharia, que volta em melhorias mensuráveis no próximo sprint. O case de OpenAI e Thrive com Codex mostra como amarrar operação, telemetria e produto, e reporta ganhos palpáveis de tempo, acurácia e throughput em poucos meses. Para quem dirige times fiscais, o chamado é estruturar o fluxo para que cada correção se pague duas vezes, no cliente de hoje e no sistema de amanhã.

O próximo passo é ampliar escopo com o mesmo rigor, começar onde a variância é menor, provar valor em produção, e usar o laço de melhoria para conquistar casos cada vez mais complexos, sem abrir mão de trilha de auditoria e salvaguardas. O ritmo atual dos modelos, medido por entregáveis profissionais, indica que a fronteira vai continuar se movendo, e quem tiver o loop bem montado vai acompanhar com menos atrito.