Nowy model zamiany mowy na tekst Scribe firmy ElevenLabs jest już dostępny i charakteryzuje się najwyższą dotychczasową dokładnością (96,7% dla języka angielskiego)

Dołącz do naszych codziennych i cotygodniowych newsletterów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodących w branży relacji z AI. Dowiedz się więcej
ElevenLabs, wysoko ceniony startup klonowania i generowania głosu AI od byłych absolwentów Palantir, uruchomił dziś Scribe v1 , nowy model zamiany mowy na tekst, który podobno osiąga najwyższą dokładność w wielu językach. Użytkownicy mogą go wypróbować tutaj, na stronie ElevenLabs.
Według testów porównawczych firmy, pod względem dokładnego przekształcania mowy na tekst w sieci przewyższa ona rozwiązania Gemini 2.0 Flash firmy Google, Whisper v3 firmy OpenAI i Deepgram Nova-3, osiągając przy tym rekordowo niski wskaźnik błędów.
Firma twierdzi, że Scribe zapewnia najnowocześniejszą dokładność transkrypcji w 99 językach, w tym lepszą wydajność w przypadku języków, które dotychczas były pomijane, takich jak serbski, kantoński i malajalam.
Jak napisał na łamach X Flavio Schneider, główny badacz ElevenLabs, Scribe to „najinteligentniejszy model rozumienia dźwięku” wydany dotychczas przez ElevenLabs.
„Scribe nie tylko transkrybuje — rozumie dźwięk” — kontynuował Schneider w odpowiedzi z wątkiem. „Potrafi wykrywać zdarzenia niewerbalne (takie jak śmiech, efekty dźwiękowe, muzykę i szum tła) i analizować długie konteksty audio w celu dokładnego tworzenia diaryzacji, nawet w najtrudniejszych warunkach”.
„ Diaryzacja ” to nazwa nadana procesom oddzielania osób mówiących na podstawie jakości ich głosu w nagraniu.
W rzeczywistości dokumentacja ElevenLabs podaje, że Scribe potrafi rozróżnić i wyizolować do 32 różnych mówców w tym samym pliku audio.
Chociaż ElevenLabs ostrzega, że Scribe „najlepiej sprawdza się w sytuacjach, gdy wymagana jest wysoka dokładność transkrypcji, a nie transkrypcja w czasie rzeczywistym”, firma planuje wkrótce wprowadzić wersję o niskim opóźnieniu, rozszerzając jej zastosowanie o aplikacje czasu rzeczywistego.
Scribe został zaprojektowany, aby precyzyjnie radzić sobie z rzeczywistymi wyzwaniami audio. Według wyników testów porównawczych FLEURS i Common Voice rejestruje najniższe wskaźniki błędów słów (WER) dla wielu języków, w tym włoskiego (98,7%) i angielskiego (96,7%).
Główne cechy obejmują:
- Diaralizacja mówców w celu rozróżnienia mówców w nagraniach z udziałem wielu mówców
- Znaczniki czasu na poziomie słów zapewniające szczegółową dokładność transkrypcji
- Wykrywanie zdarzeń niezwiązanych z mową , takich jak śmiech i dźwięki tła
- Ustrukturyzowane wyjście transkryptu umożliwiające bezproblemową integrację za pośrednictwem interfejsu API
Z aplikacji Scribe można już korzystać za pośrednictwem witryny internetowej ElevenLabs i interfejsu API.
Cena została ustalona na 0,40 USD za godzinę dźwięku wejściowego, z 50% zniżką przez następne sześć tygodni. Wersja o niskim opóźnieniu dla aplikacji w czasie rzeczywistym jest również w fazie rozwoju.
Scribe to narzędzie dla decydentów w przedsiębiorstwach, umożliwiające skalowalną i bardzo dokładną transkrypcję, co przydaje się w branżach, w których liczy się automatyczna dokumentacja, transkrypcja spotkań i dostępność treści.
Możliwość precyzyjnej obsługi wielu języków przez ten model przynosi korzyści również przedsiębiorstwom międzynarodowym, firmom medialnym i aplikacjom do obsługi klienta.
Struktura cenowa Scribe'a sprawia, że jest on konkurencyjny dla przedsiębiorstw potrzebujących dużych ilości usług transkrypcyjnych, a oparta na interfejsie API integracja pozwala na bezproblemowe wdrożenie w korporacyjnych procesach pracy.
Ponadto nadchodząca wersja o niskim opóźnieniu może uczynić Scribe'a realną alternatywą dla narzędzi do komunikacji w czasie rzeczywistym.
Pojawi się tego samego dnia co konkurencyjny model zamiany tekstu na mowę, Octave, autorstwa Hume’aCzas ma ogromne znaczenie, dlatego firma ElevenLabs zdecydowała się wprowadzić na rynek Scribe tego samego dnia, w którym jej rywal, Hume AI, zaprezentował Octave, oparty na technologii LLM model zamiany tekstu na mowę , który umożliwia użytkownikom dostosowywanie generowanych przez sztuczną inteligencję głosów, dodając regulowane emocje.
Jest przeznaczony do tworzenia treści, w tym audiobooków, podcastów i lektorów gier wideo. W przeciwieństwie do standardowych systemów TTS, Octave bierze pod uwagę kontekst wykraczający poza pojedyncze zdania, dynamicznie dostosowując ton, rytm i kadencję, aby brzmiały bardziej naturalnie.
Hume AI pozycjonuje Octave jako bezpośredniego konkurenta rozwiązań zamiany tekstu na mowę firmy ElevenLabs, podkreślając, że ceny rozwiązania Octave stanowią około połowę kosztów obecnych usług głosowych AI firmy ElevenLabs.
Chociaż Scribe i Octave pełnią różne funkcje, ich rozwój odzwierciedla rosnącą konkurencję na rynku modeli audio opartych na sztucznej inteligencji.
ElevenLabs stawia na precyzyjne rozpoznawanie mowy wielojęzycznej, podczas gdy Hume AI rozwija ekspresyjną mowę generowaną przez sztuczną inteligencję.
Dla przedsiębiorstw oznacza to bardziej wyspecjalizowane rozwiązania zarówno w zakresie transkrypcji, jak i aplikacji do syntezy głosu, umożliwiające wydajniejszą produkcję treści, angażowanie klientów i korzystanie z narzędzi ułatwiających dostęp.
Scribe jest już dostępny, a ElevenLabs organizuje wirtualne wydarzenie w przyszłym tygodniu z zespołem stojącym za jego rozwojem. Więcej szczegółów, testów porównawczych i dokumentacji API można znaleźć w oficjalnym wpisie na blogu .
Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Dajemy Ci wewnętrzny wgląd w to, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz dzielić się spostrzeżeniami, aby uzyskać maksymalny zwrot z inwestycji.
Przeczytaj naszą Politykę prywatności
Dziękujemy za subskrypcję. Sprawdź więcej newsletterów VB tutaj .
Wystąpił błąd.

venturebeat