Imagem de abertura do anúncio do Arena-Rank open source na LMArena
Avaliação de IA

LMArena abre Arena-Rank, pacote Python do ranking de IA

A LMArena tornou público o Arena-Rank, pacote Python que calcula o ranking dos seus leaderboards com reweighting, intervalos de confiança em forma fechada e até 30x mais velocidade.

Danilo Gato

Danilo Gato

Autor

28 de dezembro de 2025
9 min de leitura

Introdução

https://news.lmarena.ai/arena-rank/ marca a abertura do Arena-Rank, o pacote Python que calcula as pontuações e posições dos leaderboards da LMArena. Transparência e método importam quando milhões de votos definem o que é um bom modelo, por isso a liberação do código tem impacto direto em como a comunidade mede progresso em IA.

O anúncio, publicado em 18 de dezembro de 2025, confirma que o Arena-Rank está no PyPI com licença Apache 2.0, que é o mesmo código que roda hoje todos os leaderboards do site. Além de abrir a base, a equipe descreveu melhorias metodológicas relevantes, desde reweighting para corrigir a desigualdade de amostras até um cálculo de intervalos de confiança em forma fechada, com ganho de velocidade superior a 30 vezes frente à versão anterior.

Este artigo explica o que há por trás do Arena-Rank, como ele funciona na prática, quais mudanças afetam empresas e pesquisadores, e como aproveitar o pacote para construir avaliações reproduzíveis.

O que é o Arena-Rank e por que isso importa

Arena-Rank é um pacote Python de ranking generalista que processa votos humanos de comparações pareadas e retorna ratings e intervalos de confiança por modelo. Ele materializa a metodologia usada pela LMArena desde 2023, agora em um repositório próprio, com manutenção ativa e documentação. O projeto nasce com licença Apache 2.0, distribuição no PyPI e exemplos práticos de uso com datasets públicos da própria plataforma.

O lançamento endereça um ponto sensível na avaliação de IA, a confiança. Quando as regras do ranking, do tratamento de incerteza e dos vieses de amostragem ficam claras e auditáveis, a comunidade consegue validar resultados, reproduzir estudos e, principalmente, evoluir a metodologia de forma colaborativa. Essa abertura é coerente com o histórico da LMArena de publicar dados e detalhar mudanças de metodologia.

![Arena-Rank, open source do método de leaderboard]

A base estatística, do Bradley–Terry aos CIs em forma fechada

O motor atual do Arena-Rank implementa o modelo Bradley–Terry para comparações pareadas, além de uma extensão para features contextuais, o que permite estilos e categorias controladas no ranking, como coding, math ou creative writing. No Bradley–Terry, a probabilidade de A vencer B depende dos parâmetros de força de cada competidor, e o ajuste é feito por máxima verossimilhança. É uma formulação clássica usada de esportes a produtos, e é parente próxima do Elo.

A equipe substituiu o bootstrap tradicional por intervalos de confiança em forma fechada com base no Teorema Central do Limite para M-estimadores. Na prática, isso mantém paridade com a abordagem via reamostragem e reduz drasticamente custo computacional, algo crítico quando se trabalha com dezenas de milhões de batalhas. O changelog da LMArena documenta explicitamente essa mudança e a validação empírica da equivalência.

Uma consequência direta é a atualização de CIs mais rápida e previsível, essencial para ciclos de publicação contínuos de leaderboards. Para equipes de produto, isso significa decisões baseadas em sinal estatístico com latência menor.

Reweighting, menos viés por exposição e mais justiça no topo

Em plataformas abertas, alguns modelos aparecem mais em batalhas do que outros. Sem correções, isso inflaria a precisão de quem recebeu mais votos e aumentaria a variância de quem apareceu pouco. O reweighting introduzido no Arena-Rank atenua esse problema ao ajustar a contribuição de cada comparação, equilibrando a estimativa de rating entre modelos com diferentes volumes de amostras.

Além disso, a LMArena vem refinando como conta votos e expõe mudanças metodológicas publicamente, como a decisão de incluir batalhas contra modelos não listados para reduzir variância, e regras específicas para arenas de vídeo em que a identidade do modelo pode ser revelada após certos votos. Essas políticas mostram a preocupação em estabilizar rankings mesmo em contextos complexos.

Na prática, reweighting é um antídoto contra a “sorte de exposição”. Para quem acompanha o leaderboard, rankings tendem a convergir com menos oscilação e menor sensibilidade a surtos temporários de tráfego em um único modelo.

JAX, 30x de desempenho e pipeline desacoplado

A adoção de JAX como backend, combinada a outras otimizações, levou a um ganho de mais de 30 vezes frente à implementação anterior baseada em NumPy e SciPy. O pacote também separa a etapa de pré-processamento dos dados da otimização do modelo, o que permite reaproveitar datasets e executar varreduras de hiperparâmetros com eficiência. Para experimentação, isso acelera ciclos e facilita testar variantes, do BT “puro” a versões com features.

Para times que já usam aceleradores, JAX abre espaço para escalar em GPU ou TPU com compilações JIT e autograd eficientes. Esse é um ponto prático, não apenas acadêmico, porque a demanda de cálculo em avaliações multi-arena cresce em paralelo ao volume de votos.

Instalação e primeiro leaderboard em 10 linhas

O pacote está no PyPI, exige Python 3.11 ou superior, e inclui notebooks de exemplo que cobrem desde um leaderboard básico até análises de padrões de voto e aplicações fora de IA, como rankings esportivos e de jogos de luta. O fluxo mínimo baixa um dataset público da LMArena no Hugging Face, treina o Bradley–Terry e imprime ratings com CIs.

Exemplo prático, partindo do dataset lmarena-ai/arena-human-preference-140k que contém 135 mil conversas e julgamentos pareados da comunidade:

import pandas as pd
import datasets
from arena_rank.utils.data_utils import PairDataset
from arena_rank.models.bradley_terry import BradleyTerry

# carrega apenas os campos necessários
hf = datasets.load_dataset(
    "lmarena-ai/arena-human-preference-140k",
    columns=["model_a", "model_b", "winner"]
)["train"].to_pandas()

![Ilustração do artigo](https://replicate.delivery/xezq/k1L1W8YBWxbmEt5janB4tjel9kxN7z86MNWmjG24NmA9fl3VA/output_-1_0.jpeg)


# transforma em pares e ajusta o BT
pairs = PairDataset.from_pandas(hf)
model = BradleyTerry(n_competitors=len)
results = model.compute_ratings_and_cis(pairs, significance_level=0.05)
leaderboard = pd.DataFrame(results).sort_values("ratings", ascending=False).head(10)
print(leaderboard.to_markdown(index=False))

O dataset está disponível publicamente e tem sido usado para pesquisas e análises na própria LMArena. Isso garante um caminho de ponta a ponta, do dado aberto ao ranking reproduzível.

Da pesquisa à produção, casos reais na própria LMArena

A LMArena opera vários leaderboards ao vivo, como Text, Vision, WebDev, Search e outros domínios específicos. Em WebDev, por exemplo, modelos competem produzindo aplicativos web em tempo real e são julgados por usuários. Essa dinâmica de comparação pareada, com categorias e prompts variados, é exatamente o tipo de cenário que o Arena-Rank foi criado para processar com rigor.

O Overview de leaderboards mostra como a plataforma agrega rankings por áreas e categorias, destacando campeões e incertezas com intervalos de confiança. O cálculo por trás dessas tabelas agora está acessível, auditável e extensível via Arena-Rank.

Outro exemplo é o Search Arena, voltado a modelos com busca integrada, que usa o mesmo arcabouço de preferência humana para medir utilidade, confiança e insight nas respostas. Com a metodologia aberta, laboratórios e empresas podem reproduzir estudos e comparar resultados com seus próprios dados.

Como esse método se compara ao Elo e por que pairwise continua vencendo

Tanto Bradley–Terry quanto Elo modelam força relativa a partir de confrontos. No contexto de LLMs, emparelhar respostas de dois modelos para o mesmo prompt e pedir um voto é uma forma natural de coletar sinal de preferência. O Bradley–Terry lida diretamente com a probabilidade de A vencer B, possui interpretação clara e se estende a cenários com features, algo útil para controlar estilo de prompt, categoria e outras variáveis. Já o Elo é difundido em jogos, mas sua atualização incremental por partida é menos conveniente quando o objetivo é ajustar um ranking global a partir de um grande lote de comparações.

O ponto forte do Arena-Rank é trazer esse arcabouço para produção, com CIs em forma fechada e reweighting, tudo otimizado em JAX, pronto para rodar com dados reais de plataformas com milhões de votos.

Boas práticas para equipes que vão adotar o Arena-Rank

  • Separe claramente pipeline de dados e cálculo de ranking. O pacote já encoraja isso, permitindo pré-processar datasets uma vez e reaproveitar em várias variantes de modelo e varreduras.
  • Reporte sempre intervalos de confiança junto do score. Comunicação de incerteza é central para evitar conclusões precipitadas, especialmente em disputas apertadas.
  • Use reweighting quando houver assimetria de exposição. Isso reduz viés e estabiliza o topo do ranking.
  • Versione datasets e scripts de ajuste. Com dados públicos no Hugging Face e notebooks de exemplo, ficou mais simples publicar reprodutibilidade completa.
  • Valide mudanças metodológicas com estudos A/B ou comparações contra bootstrap antes de migrar em produção. A LMArena documentou esse tipo de validação na transição para CIs fechados.

![Diagrama genérico para ranking por preferências]

O que vem a seguir para avaliações abertas

Com o código do ranking aberto, o próximo passo é a comunidade propor extensões, como novos modelos de preferência, melhor modelagem de annotators, robustez a ties e both_bad, e integração com arenas de agentes e fluxos de ferramentas. O blog da LMArena sugere exatamente esse caminho, com convites a issues e discussão no Discord. Para empresas, abre-se a possibilidade de internalizar o método em pipelines próprios, cruzando dados privados com benchmarks públicos para decisões de compra e go-to-market.

Como tendência, vê-se a expansão de arenas especializadas, de biomedicina a engenharia de software, e uma ênfase crescente em avaliações com prompts de especialistas. Um método aberto facilita criar variantes específicas mantendo comparabilidade com o ecossistema global.

Conclusão

Arena-Rank consolida em código aberto a experiência prática de medir LLMs em produção. Reweighting, intervalos de confiança em forma fechada e otimização em JAX reduzem custo e aumentam a precisão, sem abrir mão de transparência. Para quem constrói ou seleciona modelos, isso se traduz em decisões mais rápidas e fundamentadas.

O efeito imediato é um ciclo virtuoso, dados abertos alimentam métodos abertos, que por sua vez geram resultados auditáveis e replicáveis. Com https://news.lmarena.ai/arena-rank/ no ar e o pacote no PyPI, a mensuração do que realmente importa em IA, utilidade para pessoas em tarefas reais, fica mais clara e acessível.

Tags

LLM evaluationopen sourcePython