ElevenLabs lança Scribe v2, transcrição e legendas
Scribe v2 chega com foco em precisão, suporte a 90+ idiomas, legendas e recursos de compliance para escalar transcrição e captioning em mídia, atendimento e operações.
Danilo Gato
Autor
Introdução
A ElevenLabs Scribe v2 marca um salto em transcrição e captioning com foco em precisão, escala e governança de dados. A empresa afirma que o novo modelo atinge a menor taxa de erro em benchmarks do setor, amplia o suporte a mais de 90 idiomas e traz recursos pensados para subtitling e captioning em larga escala.
O lançamento importa porque transcrever conteúdo de áudio e vídeo virou parte do coração de produtos, marketing e atendimento. Do treinamento corporativo às bibliotecas de mídia, a combinação de melhor acurácia, detecção de entidades sensíveis e diarização confiável reduz retrabalho e acelera publicação. O anúncio público foi acompanhado por materiais oficiais no blog e documentação da ElevenLabs, reforçando disponibilidade imediata em Studio e via API.
Este artigo explora o que muda no Scribe v2, onde ele se diferencia do Scribe v2 Realtime, como encaixar a tecnologia em fluxos de produção e quais métricas e práticas elevam a qualidade das legendas e transcrições.
O que realmente muda no Scribe v2
O Scribe v2 foi projetado para transcrição em lote, geração de legendas e captioning em escala, com ganhos sobre estabilidade e acurácia em áudios longos, pausas, variações de tom e silêncios prolongados. A cobertura de idiomas atinge mais de 90, com detecção automática de múltiplos idiomas no mesmo arquivo. Na prática, reduz a necessidade de segmentação manual e melhora a consistência em acentos e estilos de fala.
Dois recursos se destacam para cenários de precisão terminológica e compliance. Primeiro, o keyterm prompting permite escolher até 100 termos ou frases e o modelo decide de forma contextual quando aplicá-los, mais potente que vocabulários enviesados tradicionais. Segundo, a entity detection nativa identifica categorias como PII, dados de saúde e detalhes de pagamento, devolvendo timestamps exatos para revisão, redação e automação.
Na experiência em ferramentas, o Scribe v2 está integrado ao ElevenLabs Studio, direcionado a equipes que gerenciam grandes acervos de áudio e vídeo. Isso facilita workflows de marketing, mídia, pesquisa, treinamento e compliance sem costurar várias ferramentas.
Scribe v2 vs. Scribe v2 Realtime
Há dois produtos com propósitos diferentes sob o guarda-chuva Scribe. O Scribe v2, tema deste lançamento, foca em lote e acurácia em conteúdos extensos. Já o Scribe v2 Realtime prioriza latência ultrabaixa, abaixo de 150 ms, para agentes de voz, reuniões e legendagem ao vivo. Em testes internos da empresa, o Realtime supera concorrentes em 500 amostras difíceis, mantendo suporte a 90 idiomas e oferecendo recursos como predição de próxima palavra e pontuação para reduzir latência percebida.
Esse recorte ajuda na escolha: conteúdo gravado, longo e sensível a taxa de erro, vai melhor com o Scribe v2. Interações ao vivo, onde resposta imediata pesa mais que exatidão absoluta de cada palavra, tendem ao Scribe v2 Realtime. A documentação também ressalta controles como manual commit, VAD e text conditioning para reconectar streams sem perder contexto, úteis em agentes e contact centers.
![Edição de áudio e legendas em operação]
Precisão, benchmarks e impactos práticos
A ElevenLabs afirma que o Scribe v2 obteve a menor word error rate em benchmarks do setor. Embora a empresa não publique todos os números brutos no anúncio, as melhorias declaradas cobrem estabilidade em longos trechos, transição suave entre falantes e robustez em ambientes ruidosos. Para quem edita legendas, isso reduz correções finas de pontuação, nomes próprios e termos técnicos.
No Realtime, a meta é outra, entregar compreensão em tempo real. O material oficial aponta latência por volta de 150 ms, previsão de próxima palavra e pontuação, além de detecção automática de idioma com suporte amplo. O efeito prático é naturalidade na conversação e aceleração de tarefas de tomada de decisão durante uma chamada.
Para quem trabalha com bases internacionais, o suporte a 90 mais idiomas permite que um único pipeline cubra cenários multipaís sem manutenção de listas específicas por projeto. Isso inclui idiomas europeus e asiáticos populares, além de opções menos comuns, listadas na documentação oficial.
Recursos de produção e governança de dados
Além de keyterm prompting e entity detection, o Scribe v2 agrega diarização mais inteligente, timestamps no nível de palavra e detecção de eventos não verbais como risos ou passos. Isso abre espaço para experiências interativas, onde o player salta para cada palavra, e para estratégias de QA que validam pontos sensíveis do áudio.
Em compliance, a plataforma destaca certificações e capacidades de residência de dados na União Europeia e Índia, modo de zero retenção e conformidade com SOC 2, ISO 27001, PCI DSS nível 1, HIPAA e GDPR. Em setores regulados, isso simplifica due diligence de fornecedores e reduz barreiras de adoção.
Na trilha de produto, o changelog público registra marcos importantes em Scribe e no ecossistema de agentes, incluindo a adição de modo de zero retenção para atender HIPAA e ajustes que ampliaram o tempo de áudio com diarização para até 2 horas, além de revisão de preços com níveis mais acessíveis. Esses pontos indicam uma cadência contínua de maturação do stack.
![Operador revisando transcrição multilíngue]
Aplicações imediatas em mídia, produto e CX
Em pipelines de mídia, o Scribe v2 acelera desde ingest até publicação. Um fluxo típico: ingest do áudio em lote, detecção automática de múltiplos idiomas, diarização para rótulos de falantes, geração de SRT com timestamps de palavra para alinhamento fino e revisão assistida por keyterms para garantir consistência de termos de marca. A integração no Studio favorece equipes que já usam a suite ElevenLabs para tarefas adjacentes.
Em produto e CX com agentes, o Scribe v2 Realtime viabiliza resposta em latência subsegundo, com VAD, manual commit e text conditioning. Isso sustenta agentes que confirmam dados sensíveis rapidamente, sem sacrificar contexto quando a conexão precisa reiniciar. Em ambientes com troca de idioma no meio da conversa, a detecção automática diminui falhas de entendimento.
Como começar no Studio e via API
Para começar, a rota de menor atrito é o ElevenLabs Studio, que já incorpora o Scribe v2 para transcrições, legendas e captions. Para times de desenvolvimento, a documentação de Speech to Text detalha chamadas, parâmetros de keyterms e como recuperar timestamps e entidades com precisão. Recomenda-se iniciar com amostras representativas do domínio, incluindo nomes de produtos, gírias e termos clínicos, configurando até 100 keyterms para maximizar aderência.
Em live, o endpoint Realtime cobre streaming PCM 48 kHz e mu law, com suporte a features como text conditioning e manual commit. O desenho do cliente deve lidar com reconexões e consolidar trechos finais apenas quando necessários, equilibrando latência e estabilidade.
Custos, escala e planejamento
Segundo o changelog público, houve redução de preços no Scribe ao longo de 2025, com valores tão baixos quanto 0,22 dólar por hora no plano Business. Embora políticas e tiers mudem ao longo do tempo, o recado é claro, o custo por hora está em trajetória de queda, favorecendo uso pesado em lote e cobertura ampla de catálogos. Consulte a página de preços atual para números vigentes no seu plano.
Em escala, a combinação de diarização confiável e entity detection com timestamps acelera auditorias internas. Por exemplo, localizar menções a dados sensíveis em longos arquivos passa a ser consulta por evento, não varredura manual. Isso libera revisores para o que importa, validar contexto, tom e aderência a políticas.
Comparativo com alternativas e critérios de escolha
Quatro critérios ajudam na comparação entre engines de STT para projetos profissionais:
- Acurácia em domínio: avalie com amostras reais, não apenas com trechos limpos de benchmark. O Scribe v2 enfatiza estabilidade em longos áudios e variedade de acentos.
- Latência: para eventos ao vivo e agentes, priorize Scribe v2 Realtime, com latência por volta de 150 ms e recursos de predição para reduzir jitter.
- Governança e compliance: confira certificações, residência de dados e zero retenção. O stack da ElevenLabs lista SOC 2, ISO 27001, PCI DSS nível 1, HIPAA e GDPR.
- Idiomas e troca dinâmica: suporte a 90 mais idiomas e multilíngue automático em um único arquivo reduz manutenção de pipelines.
Boas práticas para extrair valor imediato
- Prepare um conjunto de keyterms por domínio, incluindo nomes de produto, grafias locais e jargões. O Scribe v2 usa contexto para decidir quando aplicar, o que evita hipercorreção e melhora consistência.
- Ative diarização com cuidado em áudios com muitos falantes. O stack suporta cenários com até 32 speakers nas versões do Scribe descritas no help center, o que oferece margem para reuniões e painéis complexos.
- Use entity detection para acelerar revisão de compliance. Com timestamps exatos, fica mais simples mascarar PII, dados de saúde ou detalhes de pagamento.
- Em live, combine VAD, manual commit e text conditioning para reduzir cortes de palavras e reconexões problemáticas.
O papel do anúncio e o que observar nos próximos meses
O anúncio do Scribe v2 apareceu nos canais oficiais da ElevenLabs, incluindo blog e documentação, sinalizando foco em escala, acurácia e governança. O histórico recente mostra uma cadência de melhorias técnicas e de compliance, típica de soluções que miram produção em empresas de médio e grande porte. A tendência é ver, nos próximos meses, mais métricas publicadas, integrações com ferramentas de edição e ganhos de custo por hora.
Para equipes que já usam agentes de voz, vale observar as interseções com o Scribe v2 Realtime, sobretudo na forma como predição de próxima palavra e detecção automática de idioma influenciam a experiência do usuário final quando há troca de idioma ou ruído.
Conclusão
Scribe v2 consolida a ElevenLabs como um player de peso em transcrição e legendagem em escala. A promessa de menor taxa de erro, somada a keyterm prompting, entity detection e diarização aprimorada, reduz custo operacional e atrito editorial em conteúdo longo. A integração direta no Studio e o suporte robusto a 90 mais idiomas destacam maturidade para times globais.
Para operações ao vivo, o Scribe v2 Realtime mantém a vantagem na latência com cerca de 150 ms e recursos que suavizam a experiência. O melhor caminho é simples, lote e precisão com Scribe v2, live e responsividade com Scribe v2 Realtime, apoiado por um arcabouço de compliance que atende setores regulados.
