Il nuovo modello di conversione da parlato a testo di ElevenLabs, Scribe, è qui con il più alto tasso di accuratezza finora (96,7% per l'inglese)

Iscriviti alle nostre newsletter giornaliere e settimanali per gli ultimi aggiornamenti e contenuti esclusivi sulla copertura AI leader del settore. Scopri di più
ElevenLabs, la startup di clonazione e generazione vocale AI di grande valore, creata da ex studenti di Palantir, ha lanciato oggi Scribe v1 , un nuovo modello di conversione del parlato in testo che, a quanto si dice, raggiunge la massima accuratezza in più lingue. Gli utenti possono provarlo qui sul sito di ElevenLabs.
Secondo i parametri di riferimento dell'azienda, supera Gemini 2.0 Flash di Google, Whisper v3 di OpenAI e Deepgram Nova-3 nella conversione accurata del parlato in testo sul web, raggiungendo nuovi minimi storici di errore.
L'azienda sostiene che Scribe offre una precisione di trascrizione all'avanguardia in 99 lingue, con prestazioni migliorate anche in lingue precedentemente poco servite, come serbo, cantonese e malayalam.
Come ha scritto Flavio Schneider, ricercatore capo di ElevenLabs su X , Scribe è il “modello di comprensione audio più intelligente” rilasciato finora da ElevenLabs.
"Scribe non si limita a trascrivere, ma comprende anche l'audio", ha continuato Schneider in una risposta in thread. "Può rilevare eventi non verbali (come risate, effetti sonori, musica e rumore di sottofondo) e analizzare lunghi contesti audio per una diarizzazione accurata, anche negli ambienti più difficili".
" Diarizzazione " è il nome dato ai processi di separazione dei parlanti in base alle loro qualità vocali in una registrazione.
Infatti, la documentazione di ElevenLabs afferma che Scribe è in grado di distinguere e isolare fino a 32 diversi parlanti nello stesso file audio.
Mentre ElevenLabs avverte che Scribe è "più indicato quando è richiesta una trascrizione ad alta accuratezza piuttosto che una trascrizione in tempo reale", la società prevede anche di introdurre presto una versione a bassa latenza, espandendone l'uso per applicazioni in tempo reale.
Scribe è progettato per gestire con precisione le sfide audio del mondo reale. Secondo i risultati di riferimento di FLEURS e Common Voice, registra i più bassi tassi di errore di parola (WER) per molte lingue, tra cui l'italiano (98,7%) e l'inglese (96,7%).
Le caratteristiche principali includono:
- Diarizzazione degli speaker per differenziare gli speaker nelle registrazioni multi-speaker
- Timestamp a livello di parola per una trascrizione precisa e dettagliata
- Rilevamento di eventi non verbali , come risate e rumori di sottofondo
- Output di trascrizione strutturato per un'integrazione perfetta tramite API
Scribe è ora disponibile tramite il sito web e l'API di ElevenLabs.
Il prezzo è fissato a $ 0,40 all'ora di audio in ingresso, con uno sconto del 50% per le prossime sei settimane. È in fase di sviluppo anche una versione a bassa latenza per applicazioni in tempo reale.
Per i decisori aziendali, Scribe rappresenta uno strumento per una trascrizione scalabile e ad alta precisione, utile per i settori che si affidano alla documentazione automatizzata, alla trascrizione delle riunioni e all'accessibilità dei contenuti.
La capacità del modello di gestire diverse lingue con elevata precisione è vantaggiosa anche per le aziende multinazionali, le aziende dei media e le applicazioni di assistenza clienti.
La struttura tariffaria di Scribe lo rende competitivo per le aziende che necessitano di servizi di trascrizione ad alto volume, e la sua integrazione basata su API consente un'adozione fluida nei flussi di lavoro aziendali.
Inoltre, la prossima versione a bassa latenza potrebbe posizionare Scribe come una valida opzione per gli strumenti di comunicazione in tempo reale.
In uscita lo stesso giorno del modello opposto di sintesi vocale del rivale Hume, OctaveIl tempismo è tutto ed ElevenLabs ha scelto di lanciare Scribe lo stesso giorno in cui il concorrente Hume AI ha presentato Octave, un modello di sintesi vocale basato su LLM che consente agli utenti di personalizzare le voci generate dall'intelligenza artificiale con emozioni regolabili.
È progettato per la creazione di contenuti, tra cui audiolibri, podcast e voice-over di videogiochi. A differenza dei sistemi TTS standard, Octave considera il contesto oltre le singole frasi, regolando dinamicamente tono, ritmo e cadenza per un suono più naturale.
Hume AI posiziona Octave come concorrente diretto delle offerte text-to-speech di ElevenLabs, evidenziando che i prezzi di Octave sono circa la metà del costo degli attuali servizi vocali di intelligenza artificiale di ElevenLabs.
Sebbene Scribe e Octave svolgano funzioni diverse, il loro sviluppo riflette la crescente concorrenza nei modelli audio basati sull'intelligenza artificiale.
ElevenLabs dà priorità al riconoscimento vocale preciso e multilingue, mentre Hume AI sta sviluppando un linguaggio espressivo generato dall'intelligenza artificiale.
Per le aziende, ciò significa soluzioni più specializzate per applicazioni di trascrizione e di sintesi vocale, che consentono una produzione di contenuti più efficiente, un coinvolgimento dei clienti e strumenti di accessibilità.
Scribe è ora live, e ElevenLabs ospiterà un evento virtuale la prossima settimana con il team dietro al suo sviluppo. Maggiori dettagli, benchmark e documentazione API sono disponibili nel post ufficiale del blog .
Se vuoi impressionare il tuo capo, VB Daily ha quello che fa per te. Ti diamo informazioni privilegiate su cosa stanno facendo le aziende con l'intelligenza artificiale generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere approfondimenti per il massimo ROI.
Leggi la nostra Informativa sulla Privacy
Grazie per esserti iscritto. Scopri altre newsletter VB qui .
Si è verificato un errore.

venturebeat