Tencent libera HY-Motion 1.0, text-to-motion com DiT

Introdução

HY-Motion 1.0 é a palavra-chave do dia. O modelo de text-to-motion da Tencent foi aberto em 30 de dezembro de 2025, com código de inferência e pesos, posicionando-se como referência open source para gerar movimentos humanos 3D diretamente a partir de texto. A base técnica combina Diffusion Transformer, abreviado como DiT, e Flow Matching, escalados até a casa de 1 bilhão de parâmetros. O pacote inclui uma versão Lite, um app Gradio e instruções de uso multiplataforma. Esse lançamento amplia o ecossistema Hunyuan que já vinha evoluindo em imagem, vídeo e 3D.

A importância é direta para estúdios, criadores e equipes técnicas que dependem de animação corporal. O HY-Motion 1.0 foi treinado com mais de 3 mil horas de dados de movimento para pré-treinamento, 400 horas de dados curados para ajuste fino e uma etapa adicional de RL com feedback humano e modelos de recompensa, mirando naturalidade e melhor seguimento de instruções. O foco não é apenas realismo, é previsibilidade de comportamento a partir de prompts claros, ponto fraco recorrente em modelos anteriores.

O que exatamente a Tencent abriu e o que vem na caixa

O repositório oficial disponibiliza o código de inferência, pesos dos modelos padrão e Lite, documentação de instalação, scripts para processamento em lote e uma interface Gradio para testes locais. O projeto oferece suporte para macOS, Windows e Linux. A página do modelo no Hugging Face lista o lançamento, os tamanhos, a data e o guia de início rápido com dependências e parâmetros comuns de execução.

No pacote, há dois sabores. O HY-Motion-1.0 padrão opera no patamar de 1,0 bilhão de parâmetros e mira qualidade e robustez em instruções. O HY-Motion-1.0-Lite, com cerca de 460 milhões de parâmetros, reduz custo de execução mantendo boa aderência aos prompts. Essa estratégia de linha dupla permite desde prototipagem em máquinas menos potentes até pipelines em GPU de data centers.

Além do código e dos pesos, o time documenta o uso de um módulo opcional de engenharia de prompt e estimativa de duração com LLM. O pipeline aceita diretórios de prompts em texto ou JSON, produz animações esqueléticas e exporta resultados para pastas de saída organizadas. Para quem precisa visualizar rapidamente, basta subir o app Gradio local e inspecionar as sequências de movimento.

![Teaser oficial do HY-Motion 1.0]

Arquitetura, DiT em escala e por que o Flow Matching importa

A base do HY-Motion 1.0 é um Diffusion Transformer, família de arquiteturas que já apareceu em modelos de imagem e vídeo do ecossistema Hunyuan. A aplicação aqui é geração de movimento esquelético 3D condicionada por texto. O uso de Flow Matching atenua problemas de treinamento típicos de difusão, com ganhos na estabilidade e na eficiência do processo de aprendizado. A equipe destaca o caráter pioneiro de escalar um modelo DiT de text-to-motion para a casa de 1 bilhão de parâmetros, ponto que se reflete na capacidade de seguir instruções complexas.

Esse avanço encaixa com outras peças do portfólio Hunyuan. Em vídeo, a linha HunyuanVideo 1.5 adota um DiT de 8,3 bilhões de parâmetros e melhorias de coerência temporal. Em 3D, o Hunyuan3D acelera text-to-3D e image-to-3D com um pipeline de duas etapas. Esses projetos ajudam a entender a maturidade das técnicas, especialmente atenção seletiva, text encoding bilíngue e estágios de super-resolução no caso de vídeo, além do foco em latência e consistência geométrica para mundos 3D.

No HY-Motion 1.0, o treinamento em três etapas faz diferença prática. O pré-treinamento massivo constrói um prior amplo de movimento, o fine-tuning curado enfatiza detalhes e suavidade, e o RL com feedback humano polimenta naturalidade e alinhamento textual. A combinação melhora o que realmente importa no set, instruções que se traduzem em ações previsíveis.

![Visão geral do pipeline do HY-Motion 1.0]

Como usar, requisitos práticos e primeiros passos seguros

O guia recomenda instalar PyTorch, clonar o repositório e instalar dependências. Para lotes, o script local_infer aceita diretórios com prompts, define diretórios de saída e permite desligar recursos de LLM se não houver host de engenharia de prompt. Em cenários de visualização rápida, o Gradio local roda em http://localhost:7860. A execução em diferentes sistemas é suportada, o que facilita integrar em workstations de artista e servidores.

Na prática, vale começar com o modelo Lite em uma GPU de 16 a 24 GB, calibrar prompts e durações, e só depois migrar para o modelo padrão caso a complexidade de instruções ou o nível de detalhe exija. Em pipelines maiores, a execução por lotes combinada com uma camada de revisão humana funciona bem, principalmente para padronizar o estilo de movimento por projeto.

Para quem já está no ecossistema Hunyuan, há sinergias claras. Movimentos gerados podem alimentar personagens em vídeos com HunyuanVideo Avatar, ou compor assets com Hunyuan3D, mantendo consistência de linguagem textual nos prompts. Isso reduz atrito entre equipes de animação, layout e engine, assunto sensível em cronogramas apertados.

Comparação com linhas anteriores de pesquisa em text-to-motion

Os últimos anos viram duas vertentes fortes, difusão e modelos baseados em VQ-VAE mais GPT. O MDM, de 2022, mostrou como difusão podia alcançar qualidade alta, mas com desafios de controle fino. Já T2M-GPT e T2M-HiFiGPT exploraram representações discretas e arquiteturas GPT, com ganhos relevantes em FID e alinhamento em benchmarks como HumanML3D e KIT-ML.

O HY-Motion 1.0 combina a força do DiT em escala com um regime de treinamento cuidadoso e RL pós-treinamento. A promessa prática está no seguimento de instruções e cobertura de categorias de movimento. A página do paper reporta mais de 200 categorias distribuídas em 6 classes principais, o que sugere robustez para cenários variados, desde ações cotidianas até interações mais complexas. Esse escopo amplo, junto com a escala do modelo, é o ponto onde a proposta se distancia de bibliotecas anteriores.

Outra referência recente no campo é MotionGPT e seus derivados, que integram LLMs ao fluxo de compreensão de linguagem para guiar a síntese. A ideia de usar LLMs aparece no HY-Motion como um módulo opcional para reescrita de prompt e estimativa de duração, mostrando convergência de abordagens.

Aplicações diretas, do DCC ao engine de jogo

Em DCCs como Blender, Maya e Houdini, a geração skeleton-based acelera a etapa de blocking. O ganho real acontece quando prompts padronizam intenções, por exemplo, caminhar rápido, virar a cabeça, acenar com a mão, com durações consistentes. Em engines como Unreal e Unity, as sequências podem alimentar sistemas de state machine, blend spaces e camadas de animação, desde que o retargeting esteja bem configurado.

No audiovisual, o HY-Motion 1.0 substitui parte de bibliotecas de mocap para prototipagem e previz. Em publicidade e social, onde volume e velocidade contam, a versão Lite é útil para gerar variações rápidas de movimentos coerentes com a linguagem de marca. Em jogos, a integração com controladores e eventos permite seqüências mais responsivas sem gravar sessões extensas de captura.

Como referência de maturidade do ecossistema, o ritmo de lançamentos Hunyuan em vídeo e 3D ao longo de 2025, incluindo HunyuanVideo 1.5 e HunyuanWorld, indica que a linha de pesquisa está focada em coerência temporal, consistência geométrica e latência, pontos que também impactam o realismo de movimentos. Essa convergência técnica reforça o potencial do HY-Motion como peça de um pipeline integrado.

Qualidade, métricas e cobertura de categorias

A equipe posiciona o HY-Motion 1.0 como estado da arte em qualidade de movimento e alinhamento de instruções dentro do espectro open source. A cobertura reportada supera 200 categorias, distribuídas em 6 classes, número que dialoga bem com necessidades de produção que exigem um vocabulário amplo de ações. A escala de 1 bilhão de parâmetros contribui para interpretar prompts mais ricos e sutis, reduzindo retrabalho de iteração.

Para quem depende de métricas como FID, Diversity e R-Precision, vale lembrar o contexto histórico. Trabalhos como T2M-GPT e T2M-HiFiGPT reportaram ganhos expressivos em datasets padrão. O HY-Motion não publica no material público, até o momento, uma bateria completa comparável nesses datasets clássicos, mas a combinação de escala, dados curados e RL alinhado à instrução é uma resposta clara às limitações relatadas em abordagens anteriores. A expectativa é que a comunidade publique comparativos independentes ao longo das próximas semanas.

Limitações, licenças e considerações de uso

O card do modelo indica licença da comunidade Hunyuan. Times de produto devem checar restrições de uso, inclusive em contextos comerciais e de distribuição global, antes de colocar o modelo em produção. Também há indicação de restrições regionais específicas para a União Europeia no hub do modelo. Em geral, recomenda-se auditoria legal e técnica, com atenção a datasets de treinamento e conformidade.

Em desempenho, o modelo padrão pode exigir GPUs robustas. A versão Lite reduz a barreira de entrada, mas a qualidade de fine details e obediência a prompts muito longos pode degradar. A etapa opcional de LLM para reescrita e duração precisa de infraestrutura adicional, o que não é ideal em ambientes totalmente offline.

Guia rápido de adoção em equipes

Para times de VFX e animação: começar com HY-Motion-1.0-Lite, validar prompt book, mapear retargeting e criar uma biblioteca interna de movimentos prontos. Quando o estilo estiver consistente, migrar trechos críticos para o modelo padrão.
Para game dev: prototipar estados de locomotion, ataques e interações simples. Integrar com blend spaces e event notifies para manter responsividade. Se a stack já usa HunyuanVideo, avaliar consistência estilo visual versus corporal.
Para pesquisa: explorar o módulo de engenharia de prompts, testar prompts compostos e comparar instrução longa versus curta. Em paralelo, rodar ablações contra MDM e T2M-GPT em HumanML3D e KIT-ML para entender trade-offs internos.

Reflexões e insights

Text-to-motion chegou ao ponto de ser parte orgânica do pipeline e não um experimento isolado. A evolução do DiT dentro do ecossistema Hunyuan, a escala de parâmetros e o regime de treino em três estágios indicam que a qualidade não depende mais apenas de datasets, mas do casamento de arquitetura, curadoria e RL alinhado a objetivos práticos.

A abertura do HY-Motion 1.0 coloca pressão saudável no cenário open source de animação humana. Projetos legados como MDM e T2M-GPT continuam relevantes como baseline e laboratório de ideias, mas a fasquia sobe em instrução e diversidade. O próximo passo natural será medir consistência entre movimentos gerados e assets 3D produzidos por pipelines como Hunyuan3D e outros geradores rápidos de mundos, já que a experiência final do usuário depende da soma dessas camadas.

Conclusão

HY-Motion 1.0 chega como um marco open source em text-to-motion, unindo Diffusion Transformer, Flow Matching, escala de 1 bilhão de parâmetros e um regime de treino pensado para seguir instruções. O pacote é prático, bem documentado e com versões para diferentes orçamentos de GPU, o que facilita a adoção em estúdios, agências e equipes de jogos.

O momento é de testar com prompts reais, montar uma biblioteca interna de movimentos e medir produtividade. O ecossistema Hunyuan em vídeo e 3D sugere integração mais ampla, e a comunidade terá papel importante na validação independente de métricas e benchmarks. O impacto deve ser acumulativo, reduzindo iterações manuais e liberando tempo para direção de movimento e narrativa visual.