Microsoft lança TRELLIS 2, image-to-3D de alta fidelidade

Introdução

TRELLIS 2 é o novo modelo generativo 3D da Microsoft voltado para image-to-3D de alta fidelidade, com 4 bilhões de parâmetros, materiais PBR completos e tempos de geração de segundos em GPUs H100. O projeto foi disponibilizado publicamente com código e pesos, sob licença MIT, com documentação técnica e página oficial.

Mais do que um upgrade incremental, o modelo introduz a representação O-Voxel, um formato esparso e livre de campos que codifica geometria e aparência simultaneamente, algo pensado para lidar bem com topologias abertas, geometrias não manifold e estruturas internas. Essa escolha impacta diretamente qualidade, velocidade e a simplicidade do pipeline.

Este artigo explica o que muda com o TRELLIS 2, como a tecnologia funciona por trás dos panos, benchmarks e requisitos, limitações conhecidas e como encaixar a ferramenta em fluxos reais de criação 3D.

Por que o TRELLIS 2 importa agora

Alta fidelidade com materiais PBR. O modelo gera meshes texturizados com atributos de base color, roughness, metallic e opacidade, o que habilita relighting físico e transparências sem hacks. Para cenários de produto, VFX e games, isso tira etapas de retrabalho.
Velocidade prática. Em H100, os tempos típicos divulgados são cerca de 3 segundos em 512³, 17 segundos em 1024³ e 60 segundos em 1536³, já considerando forma e materiais. Isso reduz iterações e permite pré-visualizações quase imediatas.
Representação nativa para 3D. O-Voxel viabiliza conversões instantâneas entre mesh e o formato interno, sem otimizações demoradas, o que simplifica ingestão de dados e exportação de resultados.

Em conjunto, esses fatores aproximam a geração 3D de um fluxo mais previsível, com menos passos manuais e mais controle sobre o resultado final.

Como o TRELLIS 2 funciona

A arquitetura combina três pilares: O-Voxel para representação, um VAE 3D esparso para compactação e um backbone generativo baseado em diffusion transformers com flow matching.

O-Voxel. Em vez de depender de campos iso-superfície, a estrutura O-Voxel armazena sinais de geometria e aparência em um grid esparso, com dupla malha para preservar bordas e atributos PBR alinhados ao espaço 3D. O objetivo é manter topologia fiel, inclusive em folhas, roupas, cabelos e estruturas occlusas.
VAE 3D esparso. O encoder reduz 16 vezes a resolução espacial, comprimindo um ativo 1024³ em algo na ordem de 9,6 mil tokens latentes, com degradação perceptual pequena, o que barateia o treinamento e a inferência.
Difusão com flow matching. O gerador aprende sobre esses latentes compactos, o que permite escalar para 4 bilhões de parâmetros sem perder eficiência, mantendo a capacidade de construir texturas e materiais coerentes com a forma.

Na prática, o pipeline típico inclui conversões instantâneas entre mesh e O-Voxel, geração do shape e depois dos materiais, além de exportação para GLB com texturas já prontas para render físico.

![Visão geral do pipeline do TRELLIS 2]

Desempenho, requisitos e stack técnica

Benchmarks reportados em H100 indicam tempos aproximados de 3 segundos em 512³, 17 segundos em 1024³ e 60 segundos em 1536³, divididos em shape e material. Esses números posicionam o TRELLIS 2 entre as soluções mais rápidas para geração 3D com materiais PBR em alta resolução no ecossistema open source.

Para executar localmente, o projeto recomenda Linux, Python 3.8 ou superior e GPU NVIDIA com pelo menos 24 GB, com validação em A100 e H100. O setup usa conda e CUDA 12.4 para compilar dependências, com exemplos de uso disponíveis.

A stack inclui o pacote do pipeline image-to-3D, utilitários de renderização, um ambiente HDRI exemplo e exportadores para GLB com texturas, o que facilita a passagem para engines e DCCs como Blender e Unity.

O que muda com O-Voxel na prática

A representação livre de campos elimina dependências de iso-superfície que tendem a falhar com topologias abertas ou não manifold. Dois efeitos práticos aparecem de imediato:

Robustez geométrica. Encontrar furos pequenos e descontinuidades ainda pode ocorrer, porém a estrutura foi pensada para reduzir conversões com perda e lidar com casos difíceis. O time lista scripts de pós-processamento para preenchimento quando necessário.
Materiais alinhados ao espaço 3D. Transparência e opacidade são tratadas como cidadãos de primeira classe, então relighting e variações de iluminação ficam mais previsíveis.

Para quem já tentou usar métodos baseados em SDF e sentiu limitações em folhas, redes, cabelos e objetos com interior complexo, esse é um avanço concreto.

Exemplos, relighting e qualidade percebida

A página oficial do projeto mostra comparativos de fidelidade e exemplos de relighting com mudanças de iluminação reproduzindo materiais metálicos, rugosidade e transparência. O resultado visual sugere consistência de textura e detalhes finos compatíveis com uso direto em renderizadores PBR.

![Exemplo de relighting com materiais PBR]

Ilustração do artigo

Essas demonstrações, aliadas à compressão eficiente no VAE 3D, indicam bom equilíbrio entre compactação e qualidade, algo difícil em 3D generativo onde o custo de memória escala em cubo.

Como começar, passo a passo

Instalação. Faça o clone do repositório oficial da Microsoft e crie o ambiente conda seguindo as instruções do README. Garanta drivers e CUDA compatíveis.
Primeira inferência. Carregue o pipeline Trellis2ImageTo3DPipeline do repositório na Hugging Face e rode com uma imagem simples para validar a GPU e o ambiente. Em seguida, exporte GLB.
Pré e pós-processamento. Se o modelo apresentar pequenos furos em malhas mais difíceis, aplique os scripts de hole filling e simplificação sugeridos, depois valide no seu DCC padrão.

Dica de prática: defina um ambiente HDRI consistente para inspeção de materiais. Isso evita diagnósticos falsos sobre metalicidade e rugosidade em workflows com iluminação inconsistente.

Casos de uso que fazem sentido agora

Concept art e previz. A geração em segundos permite tomar decisões de forma, escala e materiais ainda na fase de layout, com custo quase zero de iteração.
E-commerce e catálogos. Quando há apenas fotos de referência, o image-to-3D acelera a criação de modelos para visualização 360, try-on virtual ou realidade aumentada.
Jogos e prototipagem. Para blocagem de níveis e props, a velocidade reduz o tempo de ciclo. Materiais PBR consistentes agilizam integração com render em tempo real.
VFX e lookdev. A capacidade de preservar topologias abertas é útil em elementos finos, tecidos e vegetação.

Em todos os casos, o fator determinante é o nível de refinamento esperado. TRELLIS 2 cobre bem pré-produção e produção leve, com retrabalho pontual quando a malha precisa ser absolutamente estanque.

Limitações e riscos conhecidos

Os autores listam limitações importantes. Pequenos furos e descontinuidades podem aparecer, portanto aplicações que exigem geometria perfeitamente estanque, como impressão 3D, podem requerer pós-processos. Além disso, a versão base não passa por alinhamento de preferências humanas, então o estilo pode variar conforme o conjunto de dados.

No campo de governança, o projeto é rotulado como pesquisa e traz observações sobre viés potencial por usar dados coletados na internet, ainda que com revisão para evitar conteúdo sensível. Para uso comercial amplo, é recomendado avaliar curadoria de dados e conformidade interna.

Integração no pipeline 3D

Entrada e normalização. Centralize a coleta de referências e padronize a iluminação das imagens de entrada para reduzir variação de aparência. Aplique checagem de resolução e recorte.
Geração e triagem. Lotes com configurações distintas de seeds e prompts de aparência podem acelerar a busca por variações úteis. Use o tempo curto em 512³ para triagem visual e promova apenas bons candidatos para 1024³ ou 1536³.
Pós e QA. Rode scripts de hole filling quando necessário, simplifique a malha respeitando limites do rasterizador, e valide PBR com charts de iluminação padronizados.
Entrega. Exporte GLB e GLTF mantendo texturas organizadas. Em engines de jogo, mantenha perfis de importação coerentes com metalness, roughness e alpha para previsibilidade de render.

Como o TRELLIS 2 se posiciona no ecossistema

A combinação de um VAE 3D esparso, latentes compactos e um gerador grande, porém eficiente, coloca o projeto na fronteira do open source. A licença MIT, somada a código e pesos públicos, ajuda a reduzir barreiras para POCs e adoção em times que precisam controlar custos de inferência e customização.

No curto prazo, a aposta pragmática é usar o modelo para acelerar blocagem, lookdev de materiais e geração de variantes, com curadoria humana para peças hero que exijam topologia perfeita. No médio prazo, melhorias em malha e treinamento dirigido a dados proprietários devem expandir o escopo de uso em produção.

Paper, referências e estado do projeto

A página oficial agrega paper, projeto e código. O manuscrito técnico está listado com id arXiv 2512.14692, com data de 2025, cobrindo a formulação de latentes estruturados compactos, a proposta O-Voxel e os resultados principais. O site do projeto detalha recursos, autores e considerações de Responsible AI.

Para acompanhar evolução e issues, o repositório no GitHub consolida instruções, exemplos e tabela de desempenho, incluindo a divisão de tempo entre forma e material em diferentes resoluções.

Conclusão

TRELLIS 2 se apresenta como um marco no image-to-3D open source, reunindo qualidade visual, velocidade e um pipeline claro. A representação O-Voxel resolve problemas práticos de topologia e materiais, o VAE 3D esparso reduz custo e os transformers escaláveis entregam detalhes e consistência úteis para produção leve.

Para equipes técnicas, o convite é testar com seus dados, avaliar tempos reais na sua GPU e definir padrões de QA compatíveis com as metas do projeto. A licença aberta e a documentação sólida favorecem experimentação responsável, sempre com uma etapa final de revisão humana quando a aplicação exigir precisão geométrica rigorosa.