Interface de software mostrando formas de onda e legendas
Inteligência Artificial

ElevenLabs lança Scribe v2, transcrição e legendas

Scribe v2 chega com foco em precisão, suporte a 90+ idiomas, legendas e recursos de compliance para escalar transcrição e captioning em mídia, atendimento e operações.

Danilo Gato

Danilo Gato

Autor

10 de janeiro de 2026
9 min de leitura

Introdução

A ElevenLabs Scribe v2 marca um salto em transcrição e captioning com foco em precisão, escala e governança de dados. A empresa afirma que o novo modelo atinge a menor taxa de erro em benchmarks do setor, amplia o suporte a mais de 90 idiomas e traz recursos pensados para subtitling e captioning em larga escala.

O lançamento importa porque transcrever conteúdo de áudio e vídeo virou parte do coração de produtos, marketing e atendimento. Do treinamento corporativo às bibliotecas de mídia, a combinação de melhor acurácia, detecção de entidades sensíveis e diarização confiável reduz retrabalho e acelera publicação. O anúncio público foi acompanhado por materiais oficiais no blog e documentação da ElevenLabs, reforçando disponibilidade imediata em Studio e via API.

Este artigo explora o que muda no Scribe v2, onde ele se diferencia do Scribe v2 Realtime, como encaixar a tecnologia em fluxos de produção e quais métricas e práticas elevam a qualidade das legendas e transcrições.

O que realmente muda no Scribe v2

O Scribe v2 foi projetado para transcrição em lote, geração de legendas e captioning em escala, com ganhos sobre estabilidade e acurácia em áudios longos, pausas, variações de tom e silêncios prolongados. A cobertura de idiomas atinge mais de 90, com detecção automática de múltiplos idiomas no mesmo arquivo. Na prática, reduz a necessidade de segmentação manual e melhora a consistência em acentos e estilos de fala.

Dois recursos se destacam para cenários de precisão terminológica e compliance. Primeiro, o keyterm prompting permite escolher até 100 termos ou frases e o modelo decide de forma contextual quando aplicá-los, mais potente que vocabulários enviesados tradicionais. Segundo, a entity detection nativa identifica categorias como PII, dados de saúde e detalhes de pagamento, devolvendo timestamps exatos para revisão, redação e automação.

Na experiência em ferramentas, o Scribe v2 está integrado ao ElevenLabs Studio, direcionado a equipes que gerenciam grandes acervos de áudio e vídeo. Isso facilita workflows de marketing, mídia, pesquisa, treinamento e compliance sem costurar várias ferramentas.

Scribe v2 vs. Scribe v2 Realtime

Há dois produtos com propósitos diferentes sob o guarda-chuva Scribe. O Scribe v2, tema deste lançamento, foca em lote e acurácia em conteúdos extensos. Já o Scribe v2 Realtime prioriza latência ultrabaixa, abaixo de 150 ms, para agentes de voz, reuniões e legendagem ao vivo. Em testes internos da empresa, o Realtime supera concorrentes em 500 amostras difíceis, mantendo suporte a 90 idiomas e oferecendo recursos como predição de próxima palavra e pontuação para reduzir latência percebida.

Esse recorte ajuda na escolha: conteúdo gravado, longo e sensível a taxa de erro, vai melhor com o Scribe v2. Interações ao vivo, onde resposta imediata pesa mais que exatidão absoluta de cada palavra, tendem ao Scribe v2 Realtime. A documentação também ressalta controles como manual commit, VAD e text conditioning para reconectar streams sem perder contexto, úteis em agentes e contact centers.

![Edição de áudio e legendas em operação]

Precisão, benchmarks e impactos práticos

A ElevenLabs afirma que o Scribe v2 obteve a menor word error rate em benchmarks do setor. Embora a empresa não publique todos os números brutos no anúncio, as melhorias declaradas cobrem estabilidade em longos trechos, transição suave entre falantes e robustez em ambientes ruidosos. Para quem edita legendas, isso reduz correções finas de pontuação, nomes próprios e termos técnicos.

No Realtime, a meta é outra, entregar compreensão em tempo real. O material oficial aponta latência por volta de 150 ms, previsão de próxima palavra e pontuação, além de detecção automática de idioma com suporte amplo. O efeito prático é naturalidade na conversação e aceleração de tarefas de tomada de decisão durante uma chamada.

Para quem trabalha com bases internacionais, o suporte a 90 mais idiomas permite que um único pipeline cubra cenários multipaís sem manutenção de listas específicas por projeto. Isso inclui idiomas europeus e asiáticos populares, além de opções menos comuns, listadas na documentação oficial.

Recursos de produção e governança de dados

Além de keyterm prompting e entity detection, o Scribe v2 agrega diarização mais inteligente, timestamps no nível de palavra e detecção de eventos não verbais como risos ou passos. Isso abre espaço para experiências interativas, onde o player salta para cada palavra, e para estratégias de QA que validam pontos sensíveis do áudio.

Em compliance, a plataforma destaca certificações e capacidades de residência de dados na União Europeia e Índia, modo de zero retenção e conformidade com SOC 2, ISO 27001, PCI DSS nível 1, HIPAA e GDPR. Em setores regulados, isso simplifica due diligence de fornecedores e reduz barreiras de adoção.

Na trilha de produto, o changelog público registra marcos importantes em Scribe e no ecossistema de agentes, incluindo a adição de modo de zero retenção para atender HIPAA e ajustes que ampliaram o tempo de áudio com diarização para até 2 horas, além de revisão de preços com níveis mais acessíveis. Esses pontos indicam uma cadência contínua de maturação do stack.

![Operador revisando transcrição multilíngue]

Aplicações imediatas em mídia, produto e CX

Em pipelines de mídia, o Scribe v2 acelera desde ingest até publicação. Um fluxo típico: ingest do áudio em lote, detecção automática de múltiplos idiomas, diarização para rótulos de falantes, geração de SRT com timestamps de palavra para alinhamento fino e revisão assistida por keyterms para garantir consistência de termos de marca. A integração no Studio favorece equipes que já usam a suite ElevenLabs para tarefas adjacentes.

Em produto e CX com agentes, o Scribe v2 Realtime viabiliza resposta em latência subsegundo, com VAD, manual commit e text conditioning. Isso sustenta agentes que confirmam dados sensíveis rapidamente, sem sacrificar contexto quando a conexão precisa reiniciar. Em ambientes com troca de idioma no meio da conversa, a detecção automática diminui falhas de entendimento.

Como começar no Studio e via API

Para começar, a rota de menor atrito é o ElevenLabs Studio, que já incorpora o Scribe v2 para transcrições, legendas e captions. Para times de desenvolvimento, a documentação de Speech to Text detalha chamadas, parâmetros de keyterms e como recuperar timestamps e entidades com precisão. Recomenda-se iniciar com amostras representativas do domínio, incluindo nomes de produtos, gírias e termos clínicos, configurando até 100 keyterms para maximizar aderência.

Em live, o endpoint Realtime cobre streaming PCM 48 kHz e mu law, com suporte a features como text conditioning e manual commit. O desenho do cliente deve lidar com reconexões e consolidar trechos finais apenas quando necessários, equilibrando latência e estabilidade.

Custos, escala e planejamento

Segundo o changelog público, houve redução de preços no Scribe ao longo de 2025, com valores tão baixos quanto 0,22 dólar por hora no plano Business. Embora políticas e tiers mudem ao longo do tempo, o recado é claro, o custo por hora está em trajetória de queda, favorecendo uso pesado em lote e cobertura ampla de catálogos. Consulte a página de preços atual para números vigentes no seu plano.

Em escala, a combinação de diarização confiável e entity detection com timestamps acelera auditorias internas. Por exemplo, localizar menções a dados sensíveis em longos arquivos passa a ser consulta por evento, não varredura manual. Isso libera revisores para o que importa, validar contexto, tom e aderência a políticas.

Comparativo com alternativas e critérios de escolha

Quatro critérios ajudam na comparação entre engines de STT para projetos profissionais:

  • Acurácia em domínio: avalie com amostras reais, não apenas com trechos limpos de benchmark. O Scribe v2 enfatiza estabilidade em longos áudios e variedade de acentos.
  • Latência: para eventos ao vivo e agentes, priorize Scribe v2 Realtime, com latência por volta de 150 ms e recursos de predição para reduzir jitter.
  • Governança e compliance: confira certificações, residência de dados e zero retenção. O stack da ElevenLabs lista SOC 2, ISO 27001, PCI DSS nível 1, HIPAA e GDPR.
  • Idiomas e troca dinâmica: suporte a 90 mais idiomas e multilíngue automático em um único arquivo reduz manutenção de pipelines.

Boas práticas para extrair valor imediato

  • Prepare um conjunto de keyterms por domínio, incluindo nomes de produto, grafias locais e jargões. O Scribe v2 usa contexto para decidir quando aplicar, o que evita hipercorreção e melhora consistência.
  • Ative diarização com cuidado em áudios com muitos falantes. O stack suporta cenários com até 32 speakers nas versões do Scribe descritas no help center, o que oferece margem para reuniões e painéis complexos.
  • Use entity detection para acelerar revisão de compliance. Com timestamps exatos, fica mais simples mascarar PII, dados de saúde ou detalhes de pagamento.
  • Em live, combine VAD, manual commit e text conditioning para reduzir cortes de palavras e reconexões problemáticas.

O papel do anúncio e o que observar nos próximos meses

O anúncio do Scribe v2 apareceu nos canais oficiais da ElevenLabs, incluindo blog e documentação, sinalizando foco em escala, acurácia e governança. O histórico recente mostra uma cadência de melhorias técnicas e de compliance, típica de soluções que miram produção em empresas de médio e grande porte. A tendência é ver, nos próximos meses, mais métricas publicadas, integrações com ferramentas de edição e ganhos de custo por hora.

Para equipes que já usam agentes de voz, vale observar as interseções com o Scribe v2 Realtime, sobretudo na forma como predição de próxima palavra e detecção automática de idioma influenciam a experiência do usuário final quando há troca de idioma ou ruído.

Conclusão

Scribe v2 consolida a ElevenLabs como um player de peso em transcrição e legendagem em escala. A promessa de menor taxa de erro, somada a keyterm prompting, entity detection e diarização aprimorada, reduz custo operacional e atrito editorial em conteúdo longo. A integração direta no Studio e o suporte robusto a 90 mais idiomas destacam maturidade para times globais.

Para operações ao vivo, o Scribe v2 Realtime mantém a vantagem na latência com cerca de 150 ms e recursos que suavizam a experiência. O melhor caminho é simples, lote e precisão com Scribe v2, live e responsividade com Scribe v2 Realtime, apoiado por um arcabouço de compliance que atende setores regulados.

Tags

ASRcaptioningprodutividadecompliance