LMArena abre Arena-Rank, pacote Python do ranking de IA
A LMArena tornou público o Arena-Rank, pacote Python que calcula o ranking dos seus leaderboards com reweighting, intervalos de confiança em forma fechada e até 30x mais velocidade.
Danilo Gato
Autor
Introdução
https://news.lmarena.ai/arena-rank/ marca a abertura do Arena-Rank, o pacote Python que calcula as pontuações e posições dos leaderboards da LMArena. Transparência e método importam quando milhões de votos definem o que é um bom modelo, por isso a liberação do código tem impacto direto em como a comunidade mede progresso em IA.
O anúncio, publicado em 18 de dezembro de 2025, confirma que o Arena-Rank está no PyPI com licença Apache 2.0, que é o mesmo código que roda hoje todos os leaderboards do site. Além de abrir a base, a equipe descreveu melhorias metodológicas relevantes, desde reweighting para corrigir a desigualdade de amostras até um cálculo de intervalos de confiança em forma fechada, com ganho de velocidade superior a 30 vezes frente à versão anterior.
Este artigo explica o que há por trás do Arena-Rank, como ele funciona na prática, quais mudanças afetam empresas e pesquisadores, e como aproveitar o pacote para construir avaliações reproduzíveis.
O que é o Arena-Rank e por que isso importa
Arena-Rank é um pacote Python de ranking generalista que processa votos humanos de comparações pareadas e retorna ratings e intervalos de confiança por modelo. Ele materializa a metodologia usada pela LMArena desde 2023, agora em um repositório próprio, com manutenção ativa e documentação. O projeto nasce com licença Apache 2.0, distribuição no PyPI e exemplos práticos de uso com datasets públicos da própria plataforma.
O lançamento endereça um ponto sensível na avaliação de IA, a confiança. Quando as regras do ranking, do tratamento de incerteza e dos vieses de amostragem ficam claras e auditáveis, a comunidade consegue validar resultados, reproduzir estudos e, principalmente, evoluir a metodologia de forma colaborativa. Essa abertura é coerente com o histórico da LMArena de publicar dados e detalhar mudanças de metodologia.
![Arena-Rank, open source do método de leaderboard]
A base estatística, do Bradley–Terry aos CIs em forma fechada
O motor atual do Arena-Rank implementa o modelo Bradley–Terry para comparações pareadas, além de uma extensão para features contextuais, o que permite estilos e categorias controladas no ranking, como coding, math ou creative writing. No Bradley–Terry, a probabilidade de A vencer B depende dos parâmetros de força de cada competidor, e o ajuste é feito por máxima verossimilhança. É uma formulação clássica usada de esportes a produtos, e é parente próxima do Elo.
A equipe substituiu o bootstrap tradicional por intervalos de confiança em forma fechada com base no Teorema Central do Limite para M-estimadores. Na prática, isso mantém paridade com a abordagem via reamostragem e reduz drasticamente custo computacional, algo crítico quando se trabalha com dezenas de milhões de batalhas. O changelog da LMArena documenta explicitamente essa mudança e a validação empírica da equivalência.
Uma consequência direta é a atualização de CIs mais rápida e previsível, essencial para ciclos de publicação contínuos de leaderboards. Para equipes de produto, isso significa decisões baseadas em sinal estatístico com latência menor.
Reweighting, menos viés por exposição e mais justiça no topo
Em plataformas abertas, alguns modelos aparecem mais em batalhas do que outros. Sem correções, isso inflaria a precisão de quem recebeu mais votos e aumentaria a variância de quem apareceu pouco. O reweighting introduzido no Arena-Rank atenua esse problema ao ajustar a contribuição de cada comparação, equilibrando a estimativa de rating entre modelos com diferentes volumes de amostras.
Além disso, a LMArena vem refinando como conta votos e expõe mudanças metodológicas publicamente, como a decisão de incluir batalhas contra modelos não listados para reduzir variância, e regras específicas para arenas de vídeo em que a identidade do modelo pode ser revelada após certos votos. Essas políticas mostram a preocupação em estabilizar rankings mesmo em contextos complexos.
Na prática, reweighting é um antídoto contra a “sorte de exposição”. Para quem acompanha o leaderboard, rankings tendem a convergir com menos oscilação e menor sensibilidade a surtos temporários de tráfego em um único modelo.
JAX, 30x de desempenho e pipeline desacoplado
A adoção de JAX como backend, combinada a outras otimizações, levou a um ganho de mais de 30 vezes frente à implementação anterior baseada em NumPy e SciPy. O pacote também separa a etapa de pré-processamento dos dados da otimização do modelo, o que permite reaproveitar datasets e executar varreduras de hiperparâmetros com eficiência. Para experimentação, isso acelera ciclos e facilita testar variantes, do BT “puro” a versões com features.
Para times que já usam aceleradores, JAX abre espaço para escalar em GPU ou TPU com compilações JIT e autograd eficientes. Esse é um ponto prático, não apenas acadêmico, porque a demanda de cálculo em avaliações multi-arena cresce em paralelo ao volume de votos.
Instalação e primeiro leaderboard em 10 linhas
O pacote está no PyPI, exige Python 3.11 ou superior, e inclui notebooks de exemplo que cobrem desde um leaderboard básico até análises de padrões de voto e aplicações fora de IA, como rankings esportivos e de jogos de luta. O fluxo mínimo baixa um dataset público da LMArena no Hugging Face, treina o Bradley–Terry e imprime ratings com CIs.
Exemplo prático, partindo do dataset lmarena-ai/arena-human-preference-140k que contém 135 mil conversas e julgamentos pareados da comunidade:
import pandas as pd
import datasets
from arena_rank.utils.data_utils import PairDataset
from arena_rank.models.bradley_terry import BradleyTerry
# carrega apenas os campos necessários
hf = datasets.load_dataset(
"lmarena-ai/arena-human-preference-140k",
columns=["model_a", "model_b", "winner"]
)["train"].to_pandas()

# transforma em pares e ajusta o BT
pairs = PairDataset.from_pandas(hf)
model = BradleyTerry(n_competitors=len)
results = model.compute_ratings_and_cis(pairs, significance_level=0.05)
leaderboard = pd.DataFrame(results).sort_values("ratings", ascending=False).head(10)
print(leaderboard.to_markdown(index=False))
O dataset está disponível publicamente e tem sido usado para pesquisas e análises na própria LMArena. Isso garante um caminho de ponta a ponta, do dado aberto ao ranking reproduzível.
Da pesquisa à produção, casos reais na própria LMArena
A LMArena opera vários leaderboards ao vivo, como Text, Vision, WebDev, Search e outros domínios específicos. Em WebDev, por exemplo, modelos competem produzindo aplicativos web em tempo real e são julgados por usuários. Essa dinâmica de comparação pareada, com categorias e prompts variados, é exatamente o tipo de cenário que o Arena-Rank foi criado para processar com rigor.
O Overview de leaderboards mostra como a plataforma agrega rankings por áreas e categorias, destacando campeões e incertezas com intervalos de confiança. O cálculo por trás dessas tabelas agora está acessível, auditável e extensível via Arena-Rank.
Outro exemplo é o Search Arena, voltado a modelos com busca integrada, que usa o mesmo arcabouço de preferência humana para medir utilidade, confiança e insight nas respostas. Com a metodologia aberta, laboratórios e empresas podem reproduzir estudos e comparar resultados com seus próprios dados.
Como esse método se compara ao Elo e por que pairwise continua vencendo
Tanto Bradley–Terry quanto Elo modelam força relativa a partir de confrontos. No contexto de LLMs, emparelhar respostas de dois modelos para o mesmo prompt e pedir um voto é uma forma natural de coletar sinal de preferência. O Bradley–Terry lida diretamente com a probabilidade de A vencer B, possui interpretação clara e se estende a cenários com features, algo útil para controlar estilo de prompt, categoria e outras variáveis. Já o Elo é difundido em jogos, mas sua atualização incremental por partida é menos conveniente quando o objetivo é ajustar um ranking global a partir de um grande lote de comparações.
O ponto forte do Arena-Rank é trazer esse arcabouço para produção, com CIs em forma fechada e reweighting, tudo otimizado em JAX, pronto para rodar com dados reais de plataformas com milhões de votos.
Boas práticas para equipes que vão adotar o Arena-Rank
- Separe claramente pipeline de dados e cálculo de ranking. O pacote já encoraja isso, permitindo pré-processar datasets uma vez e reaproveitar em várias variantes de modelo e varreduras.
- Reporte sempre intervalos de confiança junto do score. Comunicação de incerteza é central para evitar conclusões precipitadas, especialmente em disputas apertadas.
- Use reweighting quando houver assimetria de exposição. Isso reduz viés e estabiliza o topo do ranking.
- Versione datasets e scripts de ajuste. Com dados públicos no Hugging Face e notebooks de exemplo, ficou mais simples publicar reprodutibilidade completa.
- Valide mudanças metodológicas com estudos A/B ou comparações contra bootstrap antes de migrar em produção. A LMArena documentou esse tipo de validação na transição para CIs fechados.
![Diagrama genérico para ranking por preferências]
O que vem a seguir para avaliações abertas
Com o código do ranking aberto, o próximo passo é a comunidade propor extensões, como novos modelos de preferência, melhor modelagem de annotators, robustez a ties e both_bad, e integração com arenas de agentes e fluxos de ferramentas. O blog da LMArena sugere exatamente esse caminho, com convites a issues e discussão no Discord. Para empresas, abre-se a possibilidade de internalizar o método em pipelines próprios, cruzando dados privados com benchmarks públicos para decisões de compra e go-to-market.
Como tendência, vê-se a expansão de arenas especializadas, de biomedicina a engenharia de software, e uma ênfase crescente em avaliações com prompts de especialistas. Um método aberto facilita criar variantes específicas mantendo comparabilidade com o ecossistema global.
Conclusão
Arena-Rank consolida em código aberto a experiência prática de medir LLMs em produção. Reweighting, intervalos de confiança em forma fechada e otimização em JAX reduzem custo e aumentam a precisão, sem abrir mão de transparência. Para quem constrói ou seleciona modelos, isso se traduz em decisões mais rápidas e fundamentadas.
O efeito imediato é um ciclo virtuoso, dados abertos alimentam métodos abertos, que por sua vez geram resultados auditáveis e replicáveis. Com https://news.lmarena.ai/arena-rank/ no ar e o pacote no PyPI, a mensuração do que realmente importa em IA, utilidade para pessoas em tarefas reais, fica mais clara e acessível.
