Hugging Face uruchamia FastRTC, aby uprościć aplikacje głosowe i wideo AI w czasie rzeczywistym


Źródło: Hugging Face
Dołącz do naszych codziennych i cotygodniowych newsletterów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodących w branży relacji z AI. Dowiedz się więcej
Hugging Face , startup zajmujący się sztuczną inteligencją, którego wartość szacuje się na ponad 4 miliardy dolarów, wprowadził FastRTC , bibliotekę Pythona z otwartym kodem źródłowym, która usuwa główną przeszkodę dla programistów tworzących aplikacje AI obsługujące dźwięk i obraz w czasie rzeczywistym.
„Budowanie aplikacji WebRTC i Websocket w czasie rzeczywistym jest bardzo trudne do zrobienia w Pythonie. Do tej pory” — napisał Freddy Boulton, jeden z twórców FastRTC, w ogłoszeniu na X.com.
Technologia WebRTC umożliwia bezpośrednią komunikację między przeglądarkami w celu udostępniania dźwięku, wideo i danych bez wtyczek ani pobierania. Pomimo tego, że jest niezbędna dla nowoczesnych asystentów głosowych i narzędzi wideo, wdrażanie WebRTC pozostało wyspecjalizowanym zestawem umiejętności, którego większość inżynierów uczenia maszynowego po prostu nie posiada.
Tworzenie aplikacji WebRTC i Websocket w czasie rzeczywistym w Pythonie jest bardzo trudne.
Do tej pory – Przedstawiamy FastRTC, bibliotekę do komunikacji w czasie rzeczywistym dla Pythona ⚡️ pic.twitter.com/PR67kiZ9KE
Czas nie mógłby być bardziej strategiczny. Voice AI przyciągnął ogromną uwagę i kapitał – ElevenLabs niedawno zabezpieczyło 180 milionów dolarów finansowania, podczas gdy firmy takie jak Kyutai , Alibaba i Fixie.ai wydały specjalistyczne modele audio.
Jednak między tymi zaawansowanymi modelami AI a infrastrukturą techniczną potrzebną do ich wdrożenia w responsywnych aplikacjach czasu rzeczywistego utrzymuje się rozdźwięk. Jak zauważył Hugging Face w swoim wpisie na blogu , „inżynierowie ML mogą nie mieć doświadczenia w technologiach potrzebnych do tworzenia aplikacji czasu rzeczywistego, takich jak WebRTC”.
FastRTC rozwiązuje ten problem za pomocą zautomatyzowanych funkcji obsługujących złożone części komunikacji w czasie rzeczywistym. Biblioteka zapewnia wykrywanie głosu, funkcje zmiany kolejności, interfejsy testowe, a nawet generowanie tymczasowego numeru telefonu w celu dostępu do aplikacji.
Chcesz tworzyć aplikacje w czasie rzeczywistym za pomocą @GoogleDeepMind Gemini 2.0 Flash? FastRTC pozwala tworzyć aplikacje w czasie rzeczywistym oparte na Pythonie przy użyciu Gradio-UI. ?? Przekształca funkcje Pythona w dwukierunkowe strumienie audio/wideo przy użyciu minimalnego kodu
?️ Wbudowane wykrywanie głosu i automatyczne… pic.twitter.com/o835htr0hl
— Philipp Schmid (@_philschmid) 26 lutego 2025 r.
Główną zaletą biblioteki jest jej prostota. Podobno programiści mogą tworzyć podstawowe aplikacje audio w czasie rzeczywistym w zaledwie kilku liniach kodu — uderzający kontrast w porównaniu z tygodniami pracy rozwojowej, które wcześniej były wymagane.
Ta zmiana ma istotne implikacje dla firm. Firmy, które wcześniej potrzebowały wyspecjalizowanych inżynierów komunikacji, mogą teraz wykorzystać swoich obecnych programistów Pythona do tworzenia funkcji AI głosowych i wideo.
„Możesz użyć dowolnego interfejsu API LLM/text-to-speech/speech-to-text, a nawet modelu speech-to-speech. Zabierz ze sobą narzędzia, które kochasz — FastRTC po prostu obsługuje warstwę komunikacji w czasie rzeczywistym” — wyjaśnia ogłoszenie.
gorąca opinia: WebRTC powinno składać się z JEDNEJ linii kodu Pythona, wprowadzając FastRTC⚡️ z Gradio! zacznij teraz: pip install fastrtc co otrzymasz: – zadzwoń do swojej AI z prawdziwego telefonu – automatyczne wykrywanie głosu – działa z DOWOLNYM modelem – natychmiastowy interfejs użytkownika Gradio do testowania
to wszystko zmienia pic.twitter.com/kvx436xbgN
— Gradio (@Gradio) 25 lutego 2025 r
Wprowadzenie FastRTC sygnalizuje punkt zwrotny w rozwoju aplikacji AI. Usuwając znaczną barierę techniczną, narzędzie otwiera możliwości, które dla wielu programistów pozostawały teoretyczne.
Wpływ może być szczególnie znaczący dla mniejszych firm i niezależnych deweloperów. Podczas gdy giganci technologiczni, tacy jak Google i OpenAI, mają zasoby inżynieryjne do tworzenia niestandardowej infrastruktury komunikacji w czasie rzeczywistym, większość organizacji ich nie ma. FastRTC zasadniczo zapewnia dostęp do możliwości, które wcześniej były zarezerwowane dla osób z wyspecjalizowanymi zespołami.
„ Książka kucharska ” biblioteki już teraz prezentuje różnorodne aplikacje: czaty głosowe oparte na różnych modelach językowych, wykrywanie obiektów wideo w czasie rzeczywistym i generowanie interaktywnego kodu za pomocą poleceń głosowych.
Szczególnie godny uwagi jest moment. FastRTC pojawia się w momencie, gdy interfejsy AI odchodzą od interakcji opartych na tekście w kierunku bardziej naturalnych, multimodalnych doświadczeń. Najbardziej zaawansowane systemy AI potrafią obecnie przetwarzać i generować tekst, obrazy, dźwięk i wideo — ale wdrażanie tych możliwości w responsywnych aplikacjach w czasie rzeczywistym pozostaje wyzwaniem.
FastRTC, łącząc modele sztucznej inteligencji z komunikacją w czasie rzeczywistym, nie tylko ułatwia rozwój, ale także potencjalnie przyspiesza szerszą zmianę w kierunku doświadczeń opartych na sztucznej inteligencji, w których priorytetem jest głos i obraz, dzięki czemu wydają się one bardziej ludzkie i mniej przypominają komputery.
Dla użytkowników może to oznaczać bardziej naturalne interfejsy w aplikacjach. Dla firm oznacza to szybszą implementację funkcji, których coraz bardziej oczekują ich klienci.
Ostatecznie FastRTC rozwiązuje klasyczny problem w technologii: potężne możliwości często pozostają niewykorzystane, dopóki nie staną się dostępne dla głównych deweloperów. Upraszczając to, co kiedyś było skomplikowane, Hugging Face usunął jedną z ostatnich głównych przeszkód stojących między dzisiejszymi wyrafinowanymi modelami AI a aplikacjami głosowymi przyszłości.
Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Dajemy Ci wewnętrzny wgląd w to, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz dzielić się spostrzeżeniami, aby uzyskać maksymalny zwrot z inwestycji.
Przeczytaj naszą Politykę prywatności
Dziękujemy za subskrypcję. Sprawdź więcej newsletterów VB tutaj .
Wystąpił błąd.

venturebeat