ElevenLabs lança Scribe v2, transcrição e legendas

Introdução

A ElevenLabs Scribe v2 marca um salto em transcrição e captioning com foco em precisão, escala e governança de dados. A empresa afirma que o novo modelo atinge a menor taxa de erro em benchmarks do setor, amplia o suporte a mais de 90 idiomas e traz recursos pensados para subtitling e captioning em larga escala.

O lançamento importa porque transcrever conteúdo de áudio e vídeo virou parte do coração de produtos, marketing e atendimento. Do treinamento corporativo às bibliotecas de mídia, a combinação de melhor acurácia, detecção de entidades sensíveis e diarização confiável reduz retrabalho e acelera publicação. O anúncio público foi acompanhado por materiais oficiais no blog e documentação da ElevenLabs, reforçando disponibilidade imediata em Studio e via API.

Este artigo explora o que muda no Scribe v2, onde ele se diferencia do Scribe v2 Realtime, como encaixar a tecnologia em fluxos de produção e quais métricas e práticas elevam a qualidade das legendas e transcrições.

O que realmente muda no Scribe v2

O Scribe v2 foi projetado para transcrição em lote, geração de legendas e captioning em escala, com ganhos sobre estabilidade e acurácia em áudios longos, pausas, variações de tom e silêncios prolongados. A cobertura de idiomas atinge mais de 90, com detecção automática de múltiplos idiomas no mesmo arquivo. Na prática, reduz a necessidade de segmentação manual e melhora a consistência em acentos e estilos de fala.

Dois recursos se destacam para cenários de precisão terminológica e compliance. Primeiro, o keyterm prompting permite escolher até 100 termos ou frases e o modelo decide de forma contextual quando aplicá-los, mais potente que vocabulários enviesados tradicionais. Segundo, a entity detection nativa identifica categorias como PII, dados de saúde e detalhes de pagamento, devolvendo timestamps exatos para revisão, redação e automação.

Na experiência em ferramentas, o Scribe v2 está integrado ao ElevenLabs Studio, direcionado a equipes que gerenciam grandes acervos de áudio e vídeo. Isso facilita workflows de marketing, mídia, pesquisa, treinamento e compliance sem costurar várias ferramentas.

Scribe v2 vs. Scribe v2 Realtime

Há dois produtos com propósitos diferentes sob o guarda-chuva Scribe. O Scribe v2, tema deste lançamento, foca em lote e acurácia em conteúdos extensos. Já o Scribe v2 Realtime prioriza latência ultrabaixa, abaixo de 150 ms, para agentes de voz, reuniões e legendagem ao vivo. Em testes internos da empresa, o Realtime supera concorrentes em 500 amostras difíceis, mantendo suporte a 90 idiomas e oferecendo recursos como predição de próxima palavra e pontuação para reduzir latência percebida.

Esse recorte ajuda na escolha: conteúdo gravado, longo e sensível a taxa de erro, vai melhor com o Scribe v2. Interações ao vivo, onde resposta imediata pesa mais que exatidão absoluta de cada palavra, tendem ao Scribe v2 Realtime. A documentação também ressalta controles como manual commit, VAD e text conditioning para reconectar streams sem perder contexto, úteis em agentes e contact centers.

![Edição de áudio e legendas em operação]

Precisão, benchmarks e impactos práticos

A ElevenLabs afirma que o Scribe v2 obteve a menor word error rate em benchmarks do setor. Embora a empresa não publique todos os números brutos no anúncio, as melhorias declaradas cobrem estabilidade em longos trechos, transição suave entre falantes e robustez em ambientes ruidosos. Para quem edita legendas, isso reduz correções finas de pontuação, nomes próprios e termos técnicos.

No Realtime, a meta é outra, entregar compreensão em tempo real. O material oficial aponta latência por volta de 150 ms, previsão de próxima palavra e pontuação, além de detecção automática de idioma com suporte amplo. O efeito prático é naturalidade na conversação e aceleração de tarefas de tomada de decisão durante uma chamada.

Para quem trabalha com bases internacionais, o suporte a 90 mais idiomas permite que um único pipeline cubra cenários multipaís sem manutenção de listas específicas por projeto. Isso inclui idiomas europeus e asiáticos populares, além de opções menos comuns, listadas na documentação oficial.

Recursos de produção e governança de dados

Além de keyterm prompting e entity detection, o Scribe v2 agrega diarização mais inteligente, timestamps no nível de palavra e detecção de eventos não verbais como risos ou passos. Isso abre espaço para experiências interativas, onde o player salta para cada palavra, e para estratégias de QA que validam pontos sensíveis do áudio.

Em compliance, a plataforma destaca certificações e capacidades de residência de dados na União Europeia e Índia, modo de zero retenção e conformidade com SOC 2, ISO 27001, PCI DSS nível 1, HIPAA e GDPR. Em setores regulados, isso simplifica due diligence de fornecedores e reduz barreiras de adoção.

Na trilha de produto, o changelog público registra marcos importantes em Scribe e no ecossistema de agentes, incluindo a adição de modo de zero retenção para atender HIPAA e ajustes que ampliaram o tempo de áudio com diarização para até 2 horas, além de revisão de preços com níveis mais acessíveis. Esses pontos indicam uma cadência contínua de maturação do stack.

![Operador revisando transcrição multilíngue]

Aplicações imediatas em mídia, produto e CX

Em pipelines de mídia, o Scribe v2 acelera desde ingest até publicação. Um fluxo típico: ingest do áudio em lote, detecção automática de múltiplos idiomas, diarização para rótulos de falantes, geração de SRT com timestamps de palavra para alinhamento fino e revisão assistida por keyterms para garantir consistência de termos de marca. A integração no Studio favorece equipes que já usam a suite ElevenLabs para tarefas adjacentes.

Em produto e CX com agentes, o Scribe v2 Realtime viabiliza resposta em latência subsegundo, com VAD, manual commit e text conditioning. Isso sustenta agentes que confirmam dados sensíveis rapidamente, sem sacrificar contexto quando a conexão precisa reiniciar. Em ambientes com troca de idioma no meio da conversa, a detecção automática diminui falhas de entendimento.

Como começar no Studio e via API

Para começar, a rota de menor atrito é o ElevenLabs Studio, que já incorpora o Scribe v2 para transcrições, legendas e captions. Para times de desenvolvimento, a documentação de Speech to Text detalha chamadas, parâmetros de keyterms e como recuperar timestamps e entidades com precisão. Recomenda-se iniciar com amostras representativas do domínio, incluindo nomes de produtos, gírias e termos clínicos, configurando até 100 keyterms para maximizar aderência.

Em live, o endpoint Realtime cobre streaming PCM 48 kHz e mu law, com suporte a features como text conditioning e manual commit. O desenho do cliente deve lidar com reconexões e consolidar trechos finais apenas quando necessários, equilibrando latência e estabilidade.

Custos, escala e planejamento

Segundo o changelog público, houve redução de preços no Scribe ao longo de 2025, com valores tão baixos quanto 0,22 dólar por hora no plano Business. Embora políticas e tiers mudem ao longo do tempo, o recado é claro, o custo por hora está em trajetória de queda, favorecendo uso pesado em lote e cobertura ampla de catálogos. Consulte a página de preços atual para números vigentes no seu plano.

Em escala, a combinação de diarização confiável e entity detection com timestamps acelera auditorias internas. Por exemplo, localizar menções a dados sensíveis em longos arquivos passa a ser consulta por evento, não varredura manual. Isso libera revisores para o que importa, validar contexto, tom e aderência a políticas.

Comparativo com alternativas e critérios de escolha

Quatro critérios ajudam na comparação entre engines de STT para projetos profissionais:

Acurácia em domínio: avalie com amostras reais, não apenas com trechos limpos de benchmark. O Scribe v2 enfatiza estabilidade em longos áudios e variedade de acentos.
Latência: para eventos ao vivo e agentes, priorize Scribe v2 Realtime, com latência por volta de 150 ms e recursos de predição para reduzir jitter.
Governança e compliance: confira certificações, residência de dados e zero retenção. O stack da ElevenLabs lista SOC 2, ISO 27001, PCI DSS nível 1, HIPAA e GDPR.
Idiomas e troca dinâmica: suporte a 90 mais idiomas e multilíngue automático em um único arquivo reduz manutenção de pipelines.

Boas práticas para extrair valor imediato

Prepare um conjunto de keyterms por domínio, incluindo nomes de produto, grafias locais e jargões. O Scribe v2 usa contexto para decidir quando aplicar, o que evita hipercorreção e melhora consistência.
Ative diarização com cuidado em áudios com muitos falantes. O stack suporta cenários com até 32 speakers nas versões do Scribe descritas no help center, o que oferece margem para reuniões e painéis complexos.
Use entity detection para acelerar revisão de compliance. Com timestamps exatos, fica mais simples mascarar PII, dados de saúde ou detalhes de pagamento.
Em live, combine VAD, manual commit e text conditioning para reduzir cortes de palavras e reconexões problemáticas.

O papel do anúncio e o que observar nos próximos meses

O anúncio do Scribe v2 apareceu nos canais oficiais da ElevenLabs, incluindo blog e documentação, sinalizando foco em escala, acurácia e governança. O histórico recente mostra uma cadência de melhorias técnicas e de compliance, típica de soluções que miram produção em empresas de médio e grande porte. A tendência é ver, nos próximos meses, mais métricas publicadas, integrações com ferramentas de edição e ganhos de custo por hora.

Para equipes que já usam agentes de voz, vale observar as interseções com o Scribe v2 Realtime, sobretudo na forma como predição de próxima palavra e detecção automática de idioma influenciam a experiência do usuário final quando há troca de idioma ou ruído.

Conclusão

Scribe v2 consolida a ElevenLabs como um player de peso em transcrição e legendagem em escala. A promessa de menor taxa de erro, somada a keyterm prompting, entity detection e diarização aprimorada, reduz custo operacional e atrito editorial em conteúdo longo. A integração direta no Studio e o suporte robusto a 90 mais idiomas destacam maturidade para times globais.

Para operações ao vivo, o Scribe v2 Realtime mantém a vantagem na latência com cerca de 150 ms e recursos que suavizam a experiência. O melhor caminho é simples, lote e precisão com Scribe v2, live e responsividade com Scribe v2 Realtime, apoiado por um arcabouço de compliance que atende setores regulados.