Câmera de live streaming VR180 posicionada em tripé
Inteligência Artificial

Decart lança Lucy 2, IA de vídeo 1080p ao vivo sem buffer

Lucy 2 coloca o vídeo de IA em tempo real no centro do palco: 1080p ao vivo, latência mínima e custos viáveis. O que isso muda para creators, e-commerce, jogos e robótica a partir de agora.

Danilo Gato

Danilo Gato

Autor

28 de janeiro de 2026
11 min de leitura

Introdução

Lucy 2 chega como um marco no vídeo de IA em tempo real, com geração e edição contínuas a 1080p, 30 quadros por segundo, operação persistente e sem buffering. Foi assim que a Forbes descreveu o salto técnico, destacando que a Decart posiciona a geração de vídeo para uso contínuo, não apenas clipes curtos e pré renderizados.

A importância do lançamento vai além do brilho de demos. Em vez de renderizar trechos que depois exigem correções na pós, Lucy 2 mantém identidade, movimento e iluminação consistentes enquanto a câmera está ao vivo. No post oficial, a empresa detalha o foco em latência mínima e 1080p em tempo real, explicando como o sistema foi projetado para responder enquanto roda, não para costurar segmentos gerados.

O artigo aprofunda o que Lucy 2 muda na prática. Primeiro, performance e persistência, com 1080p ao vivo. Segundo, custos e infraestrutura, com inferência otimizada em GPUs e Trainium3. Terceiro, aplicações reais, de streaming a robótica. Por fim, um comparativo direto com Sora, Veo e Runway para entender posicionamento e trade offs do mercado.

O que exatamente é Lucy 2 e por que 1080p ao vivo importa

A Decart define Lucy 2 como um modelo de transformação de mundo em tempo real. Diferente de modelos que geram clipes isolados, ele opera como um sistema contínuo, preservando corpo, timing, luz e física frame a frame, enquanto a cena acontece. A Forbes relata 1080p a 30 fps sem buffering e com queda drástica de custo operacional, além da promessa de rodar por tempo indefinido sem resets.

No blog da Decart, o time afirma que Lucy 2 não se baseia em mapas de profundidade nem em pipelines híbridos 3D. É um difusion model puro, no qual a coerência física emerge do próprio aprendizado, algo essencial para manter roupas, objetos e interações estáveis durante transmissões longas. Esse desenho técnico é o que permite trocar personagens, roupas, cenários e iluminação ao vivo, preservando consistência visual.

Essa persistência é o divisor de águas. Quem cria ao vivo não tem o luxo de corrigir depois. Em streaming, latência e estabilidade decidem se a experiência engaja ou abandona. A vantagem competitiva de Lucy 2 está nessa continuidade com latência quase zero, defendida pela Decart como fundamento de usabilidade real.

Como a Decart chegou aqui, e o papel da eficiência

A trajetória pública da Decart indica uma tese de eficiência de ponta a ponta. Em 2024, a empresa saiu do stealth com rodada seed de 21 milhões de dólares, destacando ganhos de eficiência em treino e inferência. Em 2025, novas captações elevaram a avaliação para bilhões, segundo reportagens e a própria linha do tempo institucional.

Essa visão aparece na arquitetura de Lucy 2. A Decart fala em mega kernels para reduzir overhead de lançamento e movimentação de memória, desenho de modelo ajustado ao hardware e pipeline WebRTC customizado para cortar latência de ponta a ponta. O objetivo é manter a latência glass to glass dentro do limite do tempo real, sem sacrificar estabilidade visual.

Na prática, desempenho sustentado em 1080p depende tanto do modelo quanto da pilha de engenharia. A diferença está em enxergar o tempo real como um problema de sistema, não só de arquitetura de rede neural. O resultado é o que o público percebe: menos espera, mais controle, maior previsibilidade.

AWS Trainium3, custo e escalabilidade

O ponto mais sensível da geração de vídeo ao vivo sempre foi o custo, reflexo de uma carga de inferência pesada. No post técnico, a Decart afirma que Lucy 2 recebeu otimizações profundas para Trainium3 e mostrou essa integração em um keynote do AWS re:Invent 2025, com ganhos de até 4 vezes na taxa de quadros e queda substancial no custo por frame.

A própria Amazon confirma a narrativa de eficiência, ao citar clientes com vantagens de custo e desempenho em Trainium3 e mencionar que a Decart alcança inferência 4 vezes mais rápida para vídeo generativo em tempo real a metade do custo de GPUs. Para operação 24 por 7, essa equação de custo por hora é o que torna viável sair do laboratório para o uso contínuo.

Esse casamento entre modelo e hardware fecha o triângulo performance, custo e latência. No limite, o que conta é o custo por minuto de stream mantendo qualidade e responsividade. Quando o custo cai de centenas de dólares por hora para valores muito menores, como relatado pela Forbes, aplicações sempre ativas deixam de ser demonstração e viram produto com margem para escalar.

Persistência, latência e controles, do estúdio ao e commerce

Para creators, a persistência reduz ruído cognitivo. Trocas de figurino, variações de cenários e personagens em sincronia com o chat tornam a live mais dinâmica sem arrancar o público da experiência com pausas técnicas. Casos reais incluem testes com streamers no Twitch, onde tolerância a latência é zero e qualquer travamento quebra o ritmo.

Marcas e e commerce podem transformar catálogo em mídia viva. Virtual try on com consistência de roupa e tecido, troca de iluminação contextual e inserção de produto nativa no ambiente, tudo sem interromper a transmissão. Em vez de vídeos estáticos, vitrines interativas ao vivo, com controle por texto e referências visuais.

Em entretenimento, Lucy 2 permite performances responsivas ao público, com alterações de cenário e estilos em tempo real. Na produção tradicional, serve como camada ao vivo de art direction para streams, shows e eventos híbridos, integrando se a fluxos de produção existentes.

![Câmera para live 3D VR180]

Na robótica, a Decart exibiu Lucy 2 dentro de ambientes de simulação da Nvidia, degradando condições em tempo real, com fumaça, mudanças de materiais e luz para estreitar o gap entre treino e realidade. Ao variar o domínio visual ao vivo, o robô treina políticas mais robustas, menos sensíveis a pistas espúrias. Esse uso como motor de data augmentation em vídeo ao vivo é uma das apostas mais interessantes para 2026.

Comparativo honesto: Lucy 2, Sora e Veo

Sora se consolidou como referência em qualidade para clipes curtos, com evoluções no Sora 2 e maior controle, além de novos apps e fluxos. Ainda assim, o foco é geração de trechos, com limites de duração e, historicamente, ênfase em edição e composição offline. Documentação e páginas oficiais mostram janelas máximas de segundos por geração, com stitching para composições mais longas. Para uso persistente ao vivo, essa abordagem não substitui ainda um pipeline de baixa latência contínuo.

Veo avançou forte em 2025 e janeiro de 2026, adicionando suporte a 1080p, 9 por 16 vertical e novos modos como Ingredients to Video. A documentação do Veo 3.1 descreve durações de 4 a 8 segundos, 1080p, 24 fps e integrações via Vertex AI e Gemini. Para social e mobile, o avanço é claro, com 4K via upscaling em alguns fluxos. Porém, de novo, o paradigma é geração de clipes, não operação ininterrupta de baixa latência.

Runway consolidou modelos Gen 3 e Gen 4 para cinema e publicidade com bons controles e ferramentas de workflow. Guias de produto e suporte indicam limites de segundos por geração, custos por segundo e foco em pipelines criativos, não em live persistente. Ótimo para pré produção e peças curtas, menos adequado para a exigência de interatividade zero latência de uma live.

O quadro que emerge é complementaridade. Sora, Veo e Runway brilham em qualidade cinematográfica de clipes, composição e ferramentas criativas. Lucy 2 se posiciona em outra dimensão, persistência e latência para uso contínuo. Isso explica por que a Decart fala em world model em tempo real, não apenas vídeo gerado.

Sob o capô: do kernel à rede, o que viabiliza o tempo real

Segundo a Decart, a estratégia inclui mega kernels para reduzir overhead, arquitetura do modelo adaptada ao perfil do acelerador e uma cadeia WebRTC desenhada para baixar buffering. Ao otimizar cada salto, do pacote de rede ao multiplicador de matrizes, a empresa mantém o pipeline dentro do orçamento de latência aceitável. Isso exige engenharia de baixo nível, microbenchmarks e um modelo que tolere e corrija drift visual durante longas execuções.

A adoção de Trainium3 entra como multiplicador. Cobertura oficial da Amazon e resumos do evento de 2025 sinalizam ganhos de desempenho, largura de banda e custo por frame, além de racks integrados com 144 chips nos UltraServers. Para IA visual ao vivo, largura de banda de memória e interconexão de baixa latência pesam tanto quanto FLOPs.

![Backplane de rack em data center]

Do lado do modelo, a técnica de Smart History Augmentation treina Lucy 2 para reconhecer e corrigir estados implausíveis, reduzindo o acúmulo de artefatos típico de pipelines autoregressivos. É assim que a Decart sustenta streams por horas mantendo identidade e geometria estáveis.

Segurança, viés e responsabilidade

Ferramentas de vídeo generativo enfrentam desafios de segurança e viés. Investigações independentes apontaram vieses em Sora, enquanto políticas públicas de plataformas impõem limites a representações de pessoas para reduzir riscos de deepfakes. O aprendizado aqui é que operar ao vivo amplia responsabilidades. Sistemas persistentes precisam de filtros, auditoria e trilhas de decisão, além de salvaguardas contra uso indevido.

Para stacks de tempo real em empresas, vale pensar em camadas. Conteúdo gerado passa por checagens de segurança, detectores de deepfake e políticas claras de uso comercial, com supervisão humana nos pontos críticos. Transparência de logs e controles de acesso não são opcionais quando a emissão é contínua.

Como aplicar Lucy 2 hoje, sem fantasia

Streaming e creators: cenários, estilos e figurinos dinâmicos, sincronizados com eventos do chat. Integração com softwares de produção ao vivo, como mixers de cena, reduz o atrito operacional. A própria Decart testou com streamers em eventos, validando baixa tolerância a latência.

E commerce e marketing: vitrines em tempo real com try on e troca de contexto, de forma controlada por texto e referências visuais. A dica é definir regras de marca e um conjunto de estilos aprovados, para consistência criativa e segurança jurídica.

Eventos e broadcast: pipelines com redundância de rede e GPU ou Trainium3, QoS no WebRTC e monitoramento de latência glass to glass. A engenharia de transmissão importa tanto quanto o prompting.

Robótica e indústria: simulação degradada ao vivo, com Lucy 2 como motor de data augmentation. O ganho está em expor políticas a variabilidade visual antes de ir para a rua ou a linha de produção. Faça testes A B com e sem degradação para medir robustez.

Métricas que importam no vídeo de IA em tempo real

Para além de demos, acompanhe métricas operacionais:

  • Latência glass to glass, do frame de câmera até a tela. O objetivo é que a soma de transporte, inferência e composição caiba no orçamento de tempo real.
  • Persistência de identidade, ambiente e anatomia por hora de transmissão. Drift baixo por longos períodos é diferencial.
  • Custo por minuto a 1080p em 30 fps, com e sem upscaling. Isso determina viabilidade de formatos diários e eventos longos.
  • Robustez a rede variável. O pipeline precisa manter qualidade aceitável em condições reais de upload.
  • Integração com ferramentas de produção, desde OBS a mixers, além de APIs para automações. Documentações e relatos de mercado mostram que clipes de alta qualidade têm espaço, porém fluxos ao vivo exigem outra engenharia.

O que observar no roadmap do setor

Google aprofundou o Veo 3.1 com 1080p, 9 por 16, controle por ingredientes e caminhos de upscaling para 4K. É um sinal claro de maturidade em mobile e social. A OpenAI segue evoluindo Sora com recursos de áudio, controle e apps. Esses movimentos elevam a régua de qualidade e controle nos clipes, o que pressiona soluções de tempo real a manterem coerência e estilo em transmissões longas.

No lado da infraestrutura, Trainium3 e novos designs de servidores de inferência devem baixar custo por frame e aumentar a previsibilidade do throughput. Isso abre espaço para que plataformas integrem vídeo gerado em tempo real a apps de social, comércio ao vivo e jogos com interação constante.

Conclusão

Lucy 2 consolida uma categoria, vídeo de IA que não pausa, que responde enquanto roda, que mantém 1080p com baixa latência e custos viáveis. Essa persistência redefine prioridades. Menos obsessão por clipes perfeitos, mais foco em continuidade, controle e integração com a stack de transmissão. A Forbes cravou a virada para o tempo real, e os detalhes técnicos do blog mostram como a Decart construiu esse salto do kernel à rede.

O próximo ano deve testar duas frentes. De um lado, qualidade e controle em clipes continuam subindo com Sora e Veo. Do outro, o vídeo generativo em tempo real ganha infraestrutura, métricas e casos de negócio. A fronteira competitiva vai premiar quem combinar persistência, custo e segurança em pipelines estáveis, prontos para a imprevisibilidade do mundo real.

Tags

vídeo generativostreamingeficiência de IATrainium3robótica