Tworzenie sztucznej inteligencji głosowej, która słucha wszystkich: transfer wiedzy i syntetyczna mowa w działaniu

Chcesz otrzymywać mądrzejsze informacje w swojej skrzynce odbiorczej? Zapisz się na nasz cotygodniowy newsletter, aby otrzymywać tylko to, co istotne dla liderów w dziedzinie sztucznej inteligencji, danych i bezpieczeństwa w przedsiębiorstwach. Subskrybuj teraz
Czy zastanawiałeś się kiedyś, jak to jest korzystać z asystenta głosowego, gdy Twój własny głos nie odpowiada oczekiwaniom systemu? Sztuczna inteligencja nie tylko zmienia sposób, w jaki słyszymy świat, ale także to, kto może zostać usłyszany. W dobie sztucznej inteligencji konwersacyjnej dostępność stała się kluczowym punktem odniesienia dla innowacji. Asystenci głosowi, narzędzia do transkrypcji i interfejsy z obsługą dźwięku są wszechobecne. Jedną z wad jest to, że dla milionów osób z niepełnosprawnością mowy systemy te często okazują się niewystarczające.
Jako osoba, która intensywnie pracowała nad interfejsami głosowymi i głosowymi na platformach motoryzacyjnych, konsumenckich i mobilnych, dostrzegłam potencjał sztucznej inteligencji w usprawnianiu komunikacji. Kierując rozwojem systemów głośnomówiących, anten formujących wiązkę i systemów wybudzania, często zadawałam sobie pytanie: Co się dzieje, gdy głos użytkownika wykracza poza strefę komfortu modelu? To pytanie skłoniło mnie do myślenia o inkluzywności nie tylko jako o funkcji, ale i o odpowiedzialności.
W tym artykule przyjrzymy się nowemu obszarowi: sztucznej inteligencji, która może nie tylko poprawić klarowność i wydajność głosu, ale także zasadniczo umożliwić rozmowę tym, którzy nie korzystali z tradycyjnej technologii głosowej.
Aby lepiej zrozumieć, jak działają inkluzywne systemy mowy oparte na sztucznej inteligencji, rozważmy architekturę wysokiego poziomu, która zaczyna od niestandardowych danych mowy i wykorzystuje transfer uczenia do precyzyjnego dostrajania modeli. Modele te są projektowane specjalnie pod kątem nietypowych wzorców mowy, generując zarówno rozpoznany tekst, jak i syntetyczne sygnały głosowe dostosowane do użytkownika.

Standardowe systemy rozpoznawania mowy mają problemy z nietypowymi wzorcami mowy. Niezależnie od tego, czy wynika to z mózgowego porażenia dziecięcego, stwardnienia zanikowego bocznego (ALS), jąkania czy urazu głosowego, osoby z zaburzeniami mowy są często źle słyszane lub ignorowane przez obecne systemy. Jednak głębokie uczenie pomaga to zmienić. Poprzez trenowanie modeli na niestandardowych danych dotyczących mowy i stosowanie technik transferu wiedzy, systemy sztucznej inteligencji oparte na konwersacji mogą zacząć rozumieć szerszy zakres głosów.
Generatywna sztuczna inteligencja jest obecnie wykorzystywana do tworzenia syntetycznych głosów na podstawie małych próbek pochodzących od użytkowników z niepełnosprawnością mowy. Pozwala to użytkownikom na wyszkolenie własnego awatara głosowego, umożliwiając bardziej naturalną komunikację w przestrzeni cyfrowej i zachowując osobistą tożsamość głosową.
Powstają nawet platformy, na których użytkownicy mogą udostępniać swoje wzorce mowy, co pomaga w rozbudowie publicznych zbiorów danych i zwiększeniu przyszłej inkluzywności. Te pozyskiwane w ramach crowdsourcingu zbiory danych mogą stać się kluczowymi zasobami dla upowszechnienia systemów AI.
Systemy wspomagające głos w czasie rzeczywistym działają w oparciu o wielowarstwowy przepływ informacji. Zaczynając od mowy, która może być niepłynna lub opóźniona, moduły sztucznej inteligencji stosują techniki wzmacniania, wnioskowanie emocjonalne i modulację kontekstową, zanim wyprodukują wyraźną, ekspresyjną mowę syntetyczną. Systemy te pomagają użytkownikom mówić nie tylko zrozumiale, ale i sensownie.

Czy wyobrażałeś sobie kiedyś, jak to jest mówić płynnie z pomocą sztucznej inteligencji, nawet z zaburzeniami mowy? Wzmocnienie głosu w czasie rzeczywistym to jedna z takich funkcji, która robi postępy. Poprawiając artykulację, wypełniając pauzy lub wygładzając niepłynności, sztuczna inteligencja działa jak drugi pilot w rozmowie, pomagając użytkownikom zachować kontrolę, jednocześnie poprawiając zrozumiałość. W przypadku osób korzystających z interfejsów syntezy mowy, konwersacyjna sztuczna inteligencja może teraz oferować dynamiczne odpowiedzi, frazowanie oparte na sentymentach i prozodię zgodną z intencją użytkownika, przywracając indywidualność komunikacji za pośrednictwem komputera.
Kolejnym obiecującym obszarem jest predykcyjne modelowanie języka. Systemy mogą uczyć się unikalnego sposobu frazowania lub słownictwa użytkownika, ulepszać predykcyjne teksty i przyspieszać interakcję. W połączeniu z przystępnymi interfejsami, takimi jak klawiatury śledzące ruch gałek ocznych czy sterowanie za pomocą gestów, modele te tworzą responsywny i płynny przepływ konwersacji.
Niektórzy programiści integrują nawet analizę mimiki twarzy, aby zapewnić lepsze zrozumienie kontekstowe w sytuacjach, gdy mowa sprawia trudności. Łącząc multimodalne strumienie danych wejściowych, systemy AI mogą tworzyć bardziej zniuansowany i skuteczny wzorzec reakcji, dostosowany do indywidualnego sposobu komunikacji.
Kiedyś pomagałem w ocenie prototypu, który syntetyzował mowę z resztkowych wokalizacji pacjentki z późnym stadium SLA. Pomimo ograniczonej sprawności fizycznej, system dostosował się do jej oddechowych fonacji i zrekonstruował mowę pełnymi zdaniami, z zachowaniem tonu i emocji. Widok jej rozpromienionej, gdy ponownie usłyszała swój „głos”, był dla mnie pokornym przypomnieniem: sztuczna inteligencja to nie tylko wskaźniki wydajności. To kwestia ludzkiej godności.
Pracowałem nad systemami, w których niuanse emocjonalne były ostatnim wyzwaniem do pokonania. Dla osób korzystających z technologii wspomagających, bycie zrozumianym jest ważne, ale poczucie zrozumienia ma charakter transformacyjny. Konwersacyjna sztuczna inteligencja , która dostosowuje się do emocji, może pomóc w osiągnięciu tego celu.
Dla osób projektujących kolejną generację wirtualnych asystentów i platform głosowych, dostępność powinna być wbudowana, a nie dodana. Oznacza to gromadzenie zróżnicowanych danych szkoleniowych, obsługę danych niewerbalnych oraz wykorzystanie uczenia federacyjnego w celu zachowania prywatności przy jednoczesnym ciągłym ulepszaniu modeli. Oznacza to również inwestowanie w przetwarzanie brzegowe o niskim opóźnieniu, aby użytkownicy nie napotykali opóźnień zakłócających naturalny rytm dialogu.
Przedsiębiorstwa wdrażające interfejsy oparte na sztucznej inteligencji muszą brać pod uwagę nie tylko użyteczność, ale także integrację. Wspieranie użytkowników z niepełnosprawnościami to nie tylko kwestia etyki, ale także szansa rynkowa. Według Światowej Organizacji Zdrowia ponad miliard ludzi żyje z jakąś formą niepełnosprawności. Dostępna sztuczna inteligencja przynosi korzyści wszystkim – od osób starszych, przez użytkowników wielojęzycznych, po osoby z czasową niepełnosprawnością.
Ponadto rośnie zainteresowanie narzędziami sztucznej inteligencji (AI), które można wyjaśnić i które pomagają użytkownikom zrozumieć, jak przetwarzane są ich dane wejściowe. Przejrzystość może budować zaufanie, zwłaszcza wśród użytkowników z niepełnosprawnościami, którzy wykorzystują AI jako pomost komunikacyjny.
Obietnicą sztucznej inteligencji konwersacyjnej jest nie tylko rozumienie mowy, ale także ludzi. Zbyt długo technologia głosowa sprawdzała się najlepiej u osób, które mówią wyraźnie, szybko i w wąskim zakresie akustycznym. Dzięki sztucznej inteligencji dysponujemy narzędziami do tworzenia systemów, które słuchają szerzej i reagują z większym zrozumieniem.
Jeśli chcemy, aby przyszłość rozmów była naprawdę inteligentna, musi być również inkluzywna. A to zaczyna się od uwzględnienia każdego głosu.
Harshal Shah to specjalista w dziedzinie technologii głosowych, którego pasją jest łączenie ekspresji ludzkiej ze zrozumieniem maszyn poprzez kompleksowe rozwiązania głosowe.
Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Przedstawiamy Ci informacje z pierwszej ręki na temat tego, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz podzielić się swoimi spostrzeżeniami, aby zmaksymalizować zwrot z inwestycji (ROI).
Przeczytaj naszą Politykę prywatności
Dziękujemy za subskrypcję. Więcej newsletterów VB znajdziesz tutaj .
Wystąpił błąd.

venturebeat