Le nouveau modèle de conversion de la parole en texte Scribe d'ElevenLabs est arrivé avec le taux de précision le plus élevé à ce jour (96,7 % pour l'anglais)

Inscrivez-vous à nos newsletters quotidiennes et hebdomadaires pour recevoir les dernières mises à jour et du contenu exclusif sur la couverture de l'IA de pointe. En savoir plus

ElevenLabs, la start-up de clonage et de génération de voix par IA, créée par d'anciens diplômés de Palantir, a lancé aujourd'hui Scribe v1 , un nouveau modèle de conversion de la parole en texte qui, selon les informations disponibles, atteint la plus grande précision dans plusieurs langues. Les utilisateurs peuvent l'essayer ici sur le site d'ElevenLabs.

Selon les tests de référence de la société, elle surpasse Gemini 2.0 Flash de Google, Whisper v3 d'OpenAI et Deepgram Nova-3 en matière de conversion précise de la parole en texte sur le Web, atteignant de nouveaux taux d'erreur record.

La société affirme que Scribe offre une précision de transcription de pointe dans 99 langues, y compris des performances améliorées dans des langues auparavant mal desservies telles que le serbe, le cantonais et le malayalam.

Comme l' a écrit Flavio Schneider, chercheur principal d'ElevenLabs, sur X , Scribe est le « modèle de compréhension audio le plus intelligent » publié par ElevenLabs à ce jour.

« Scribe ne se contente pas de transcrire, il comprend l'audio », a poursuivi Schneider dans une réponse en fil de discussion. « Il peut détecter des événements non verbaux (comme les rires, les effets sonores, la musique et les bruits de fond) et analyser de longs contextes audio pour une journalisation précise, même dans les environnements les plus difficiles. »

La « diarisation » est le nom donné aux procédés de séparation des locuteurs selon leurs qualités vocales sur un enregistrement.

En fait, la documentation d'ElevenLabs indique que Scribe peut distinguer et isoler jusqu'à 32 locuteurs différents dans le même fichier audio.

Bien qu'ElevenLabs prévienne que Scribe est « mieux utilisé lorsque une transcription de haute précision est requise plutôt qu'une transcription en temps réel », la société prévoit également d'introduire prochainement une version à faible latence, étendant ainsi son utilisation aux applications en temps réel.

Scribe est conçu pour relever avec précision les défis audio du monde réel. Selon les résultats de référence de FLEURS et Common Voice, il enregistre les taux d'erreurs de mots (WER) les plus faibles pour de nombreuses langues, dont l'italien (98,7 %) et l'anglais (96,7 %).

Les principales caractéristiques comprennent :

Journalisation des locuteurs pour différencier les locuteurs dans les enregistrements multi-locuteurs
Horodatage au niveau des mots pour une précision de transcription détaillée
Détection d'événements non vocaux , tels que les rires et les bruits de fond
Sortie de transcription structurée pour une intégration transparente via API

Scribe est désormais disponible via le site Web et l'API d'ElevenLabs.

Le prix est fixé à 0,40 $ par heure d'audio en entrée, avec une remise de 50 % pour les six prochaines semaines. Une version à faible latence pour les applications en temps réel est également en cours de développement.

Pour les décideurs d’entreprise, Scribe présente un outil de transcription évolutif et de haute précision, ce qui le rend utile pour les secteurs qui s’appuient sur la documentation automatisée, la transcription de réunions et l’accessibilité du contenu.

La capacité du modèle à gérer diverses langues avec une grande précision profite également aux entreprises multinationales, aux sociétés de médias et aux applications de support client.

La structure tarifaire de Scribe le rend compétitif pour les entreprises qui ont besoin de services de transcription à volume élevé, et son intégration basée sur API permet une adoption transparente dans les flux de travail de l'entreprise.

De plus, la prochaine version à faible latence pourrait positionner Scribe comme une option viable pour les outils de communication en temps réel.

Sortie le même jour que le modèle de synthèse vocale Octave de Hume

Le timing est primordial, et ElevenLabs a choisi de lancer Scribe le même jour où son rival Hume AI a dévoilé Octave, un modèle de synthèse vocale basé sur LLM qui permet aux utilisateurs de personnaliser les voix générées par l'IA avec des émotions ajustables.

Il est conçu pour la création de contenu, notamment de livres audio, de podcasts et de voix off de jeux vidéo. Contrairement aux systèmes TTS standard, Octave prend en compte le contexte au-delà des phrases individuelles, en ajustant le ton, le rythme et la cadence de manière dynamique pour un son plus naturel.

Hume AI positionne Octave comme un concurrent direct des offres de synthèse vocale d'ElevenLabs, soulignant que les prix d'Octave représentent environ la moitié du coût des services vocaux IA actuels d'ElevenLabs.

Bien que Scribe et Octave remplissent des fonctions différentes, leur développement reflète la concurrence croissante dans les modèles audio pilotés par l'IA.

ElevenLabs donne la priorité à la reconnaissance vocale précise et multilingue, tandis que Hume AI fait progresser la parole expressive générée par l'IA.

Pour les entreprises, cela signifie des solutions plus spécialisées pour les applications de transcription et de voix synthétique, permettant une production de contenu, un engagement client et des outils d’accessibilité plus efficaces.

Scribe est désormais en ligne et ElevenLabs organise un événement virtuel la semaine prochaine avec l'équipe à l'origine de son développement. Plus de détails, des tests de performance et une documentation API sont disponibles dans le billet de blog officiel .

Informations quotidiennes sur les cas d'utilisation métier avec VB Daily

Si vous souhaitez impressionner votre patron, VB Daily a tout ce qu'il vous faut. Nous vous donnons un aperçu de ce que font les entreprises avec l'IA générative, des changements réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.

Lisez notre politique de confidentialité

Merci de vous être abonné. Découvrez d'autres newsletters VB ici .

Une erreur s'est produite.

venturebeat

Le nouveau modèle de conversion de la parole en texte Scribe d'ElevenLabs est arrivé avec le taux de précision le plus élevé à ce jour (96,7 % pour l'anglais)

Inscrivez-vous à nos newsletters quotidiennes et hebdomadaires pour recevoir les dernières mises à jour et du contenu exclusif sur la couverture de l'IA de pointe. En savoir plus

Comme l' a écrit Flavio Schneider, chercheur principal d'ElevenLabs, sur X , Scribe est le « modèle de compréhension audio le plus intelligent » publié par ElevenLabs à ce jour.

La « diarisation » est le nom donné aux procédés de séparation des locuteurs selon leurs qualités vocales sur un enregistrement.

En fait, la documentation d'ElevenLabs indique que Scribe peut distinguer et isoler jusqu'à 32 locuteurs différents dans le même fichier audio.

Les principales caractéristiques comprennent :

Journalisation des locuteurs pour différencier les locuteurs dans les enregistrements multi-locuteurs
Horodatage au niveau des mots pour une précision de transcription détaillée
Détection d'événements non vocaux , tels que les rires et les bruits de fond
Sortie de transcription structurée pour une intégration transparente via API

Scribe est désormais disponible via le site Web et l'API d'ElevenLabs.

La capacité du modèle à gérer diverses langues avec une grande précision profite également aux entreprises multinationales, aux sociétés de médias et aux applications de support client.

De plus, la prochaine version à faible latence pourrait positionner Scribe comme une option viable pour les outils de communication en temps réel.

Sortie le même jour que le modèle de synthèse vocale Octave de Hume

Bien que Scribe et Octave remplissent des fonctions différentes, leur développement reflète la concurrence croissante dans les modèles audio pilotés par l'IA.

ElevenLabs donne la priorité à la reconnaissance vocale précise et multilingue, tandis que Hume AI fait progresser la parole expressive générée par l'IA.

Informations quotidiennes sur les cas d'utilisation métier avec VB Daily

Lisez notre politique de confidentialité

Merci de vous être abonné. Découvrez d'autres newsletters VB ici .

Une erreur s'est produite.

venturebeat

Le nouveau modèle de conversion de la parole en texte Scribe d'ElevenLabs est arrivé avec le taux de précision le plus élevé à ce jour (96,7 % pour l'anglais)

Nouvelles similaires

Le nouveau modèle de conversion de la parole en texte Scribe d'ElevenLabs est arrivé avec le taux de précision le plus élevé à ce jour (96,7 % pour l'anglais)

Nouvelles similaires

Une maladie mortelle non identifiée est apparue en RDC

Commercetools, pionnier du « headless commerce », licencie des dizaines de salariés

Shop Circle lève 60 millions de dollars pour entourer le commerce électronique avec une suite d'applications

Le PDG de Nvidia, Jensen Huang, ignore DeepSeek alors que les ventes montent en flèche

Reconstruire Alexa : comment Amazon mélange modèles, agents et navigateur pour une IA plus intelligente