Wybierz język

Polish

Down Icon

Wybierz kraj

England

Down Icon

Wystarczy dodać ludzi: badanie medyczne z Oksfordu podkreśla brakujące ogniwo w testowaniu chatbotów

Wystarczy dodać ludzi: badanie medyczne z Oksfordu podkreśla brakujące ogniwo w testowaniu chatbotów

Dołącz do wydarzenia, któremu liderzy przedsiębiorstw ufają od prawie dwóch dekad. VB Transform łączy ludzi budujących prawdziwą strategię AI przedsiębiorstwa. Dowiedz się więcej

Nagłówki gazet rozbrzmiewają od lat: Duże modele językowe (LLM) nie tylko potrafią zdać egzaminy licencyjne, ale także przewyższają ludzi. GPT-4 mógł poprawnie odpowiadać na pytania licencyjne dotyczące egzaminów medycznych w USA w 90% przypadków, nawet w prehistorycznych czasach sztucznej inteligencji w 2023 r. Od tego czasu LLM prześcigają rezydentów zdających te egzaminy i licencjonowanych lekarzy .

Zejdź mi z drogi, Doktorze Google, zrób miejsce dla ChatGPT, MD Ale możesz chcieć czegoś więcej niż dyplomu z LLM, którego używasz dla pacjentów. Podobnie jak as w nauce medycyny, który potrafi wymienić nazwy każdej kości w dłoni, ale mdleje na pierwszy widok prawdziwej krwi, opanowanie medycyny przez LLM nie zawsze przekłada się bezpośrednio na rzeczywisty świat.

W pracy naukowców z Uniwersytetu Oksfordzkiego ustalono, że podczas gdy LLM-y były w stanie poprawnie rozpoznać istotne schorzenia w 94,9% przypadków, gdy przedstawiono im bezpośrednio scenariusze testowe, uczestnicy badań, którzy używali LLM-ów do diagnozowania tych samych scenariuszy, rozpoznawali prawidłowe schorzenia w mniej niż 34,5% przypadków.

Być może jeszcze bardziej znamienne jest to, że pacjenci korzystający z LLM uzyskali gorsze wyniki niż grupa kontrolna, która została po prostu poinstruowana, aby diagnozować siebie samych za pomocą „dowolnych metod, które zwykle stosują w domu”. Grupa pozostawiona sama sobie miała o 76% większe prawdopodobieństwo zidentyfikowania prawidłowych schorzeń niż grupa wspomagana przez LLM.

Badanie przeprowadzone w Oksfordzie stawia pytania dotyczące przydatności LLM w udzielaniu porad medycznych oraz punktów odniesienia, których używamy do oceny wdrożeń chatbotów w różnych zastosowaniach.

Pod przewodnictwem dr. Adama Mahdiego badacze z Oksfordu zrekrutowali 1298 uczestników, którzy mieli zgłosić się jako pacjenci na studia LLM. Mieli za zadanie zarówno dowiedzieć się, co im dolega, jak i znaleźć odpowiedni poziom opieki, aby się tym zająć, od samoopieki po wezwanie karetki.

Każdy uczestnik otrzymał szczegółowy scenariusz, przedstawiający stany od zapalenia płuc po przeziębienie, wraz z ogólnymi szczegółami życiowymi i historią medyczną. Na przykład jeden scenariusz opisuje 20-letniego studenta inżynierii, który dostał paraliżującego bólu głowy podczas wieczornego wyjścia ze znajomymi. Zawiera ważne szczegóły medyczne (boli go patrzenie w dół) i mylące tropy (regularnie pije, dzieli mieszkanie z sześcioma znajomymi i właśnie skończył stresujące egzaminy).

W badaniu przetestowano trzy różne LLM. Naukowcy wybrali GPT-4o ze względu na jego popularność, Llama 3 ze względu na jego otwarte wagi i Command R+ ze względu na jego zdolności do generacji rozszerzonej (RAG), które pozwalają mu przeszukiwać otwartą sieć w poszukiwaniu pomocy.

Poproszono uczestników o co najmniej jednokrotną interakcję z LLM przy użyciu podanych danych, ale mogli korzystać z niego tyle razy, ile chcieli, aby ustalić samodiagnozę i podjąć zamierzone działania.

Za kulisami zespół lekarzy jednomyślnie decydował o „złotym standardzie”, jakiego szukali w każdym scenariuszu, i o odpowiednim sposobie postępowania. Nasz student inżynierii na przykład cierpi na krwotok podpajęczynówkowy, co powinno skutkować natychmiastową wizytą na SOR-ze.

Chociaż można by założyć, że LLM, który zda egzamin lekarski, będzie idealnym narzędziem do pomocy zwykłym ludziom w samodzielnym diagnozowaniu i ustalaniu, co robić, to tak nie było. „Uczestnicy korzystający z LLM identyfikowali istotne schorzenia mniej konsekwentnie niż ci z grupy kontrolnej, identyfikując co najmniej jedno istotne schorzenie w maksymalnie 34,5% przypadków w porównaniu do 47,0% w grupie kontrolnej”, stwierdza badanie. Nie udało im się również wywnioskować właściwego sposobu działania, wybierając go tylko w 44,2% przypadków, w porównaniu do 56,3% w przypadku LLM działającego niezależnie.

Co poszło nie tak?

Analizując transkrypty, badacze odkryli, że uczestnicy dostarczyli LLM-om niekompletne informacje, a LLM-owie błędnie zinterpretowali ich podpowiedzi. Na przykład jeden z użytkowników, który miał wykazywać objawy kamieni żółciowych, po prostu powiedział LLM: „Mam silne bóle brzucha trwające do godziny, mogą powodować wymioty i wydaje się, że pokrywają się z jedzeniem na wynos”, pomijając lokalizację bólu, jego nasilenie i częstotliwość. Polecenie R+ błędnie zasugerowało, że uczestnik cierpi na niestrawność, a uczestnik błędnie zgadł ten stan.

Nawet gdy LLM dostarczył właściwych informacji, uczestnicy nie zawsze stosowali się do jego zaleceń. Badanie wykazało, że 65,7% rozmów GPT-4o sugerowało co najmniej jeden istotny warunek scenariusza, ale jakoś mniej niż 34,5% ostatecznych odpowiedzi od uczestników odzwierciedlało te istotne warunki.

Zdaniem Nathalie Volkheimer, specjalistki ds. doświadczeń użytkowników w Renaissance Computing Institute (RENCI) na Uniwersytecie Karoliny Północnej w Chapel Hill, badanie to jest przydatne, ale nie zaskakujące.

„Dla tych z nas, którzy są wystarczająco starzy, aby pamiętać początki wyszukiwania w Internecie, to déjà vu” – mówi. „Jako narzędzie, duże modele językowe wymagają, aby monity były pisane z określonym stopniem jakości, szczególnie gdy oczekuje się jakościowego wyniku”.

Podkreśla, że ​​osoba doświadczająca oślepiającego bólu nie dałaby świetnych wskazówek. Chociaż uczestnicy eksperymentu laboratoryjnego nie doświadczali objawów bezpośrednio, nie przekazywali każdego szczegółu.

„Istnieje również powód, dla którego lekarze, którzy zajmują się pacjentami na pierwszej linii, są szkoleni, aby zadawać pytania w określony sposób i z określoną powtarzalnością” – kontynuuje Volkheimer. Pacjenci pomijają informacje, ponieważ nie wiedzą, co jest istotne, lub w najgorszym przypadku kłamią, ponieważ są zawstydzeni lub zawstydzeni.

Czy chatboty można lepiej zaprojektować, aby się nimi zająć? „Nie kładłabym nacisku na maszynerię” – przestrzega Volkheimer. „Uważam, że nacisk powinien być położony na interakcję człowiek-technologia”. Samochód, jak to ujęła, został zbudowany, aby przewozić ludzi z punktu A do punktu B, ale wiele innych czynników odgrywa rolę. „Chodzi o kierowcę, drogi, pogodę i ogólne bezpieczeństwo trasy. Nie zależy to tylko od maszyny”.

Badanie przeprowadzone w Oksfordzie wskazuje na jeden problem, który nie dotyczy ludzi ani nawet LLM, ale sposobu, w jaki czasami ich oceniamy — w próżni.

Kiedy mówimy, że LLM może zdać egzamin na licencję medyczną, egzamin na licencję w branży nieruchomości lub egzamin państwowy, badamy głębię jego bazy wiedzy, używając narzędzi zaprojektowanych do oceny ludzi. Jednak te środki mówią nam bardzo niewiele o tym, jak skutecznie te chatboty będą wchodzić w interakcje z ludźmi.

„Podpowiedzi były podręcznikowe (co potwierdziło źródło i społeczność medyczna), ale życie i ludzie nie są podręcznikami” – wyjaśnia dr Volkheimer.

Wyobraź sobie przedsiębiorstwo, które zamierza wdrożyć chatbota wsparcia, przeszkolonego na swojej wewnętrznej bazie wiedzy. Jednym pozornie logicznym sposobem na przetestowanie tego bota może być po prostu przeprowadzenie tego samego testu, którego firma używa dla stażystów obsługi klienta: odpowiadanie na wcześniej napisane pytania dotyczące obsługi klienta i wybieranie odpowiedzi wielokrotnego wyboru. Dokładność na poziomie 95% z pewnością wyglądałaby obiecująco.

Następnie następuje wdrożenie: prawdziwi klienci używają niejasnych terminów, wyrażają frustrację lub opisują problemy w nieoczekiwany sposób. LLM, testowany wyłącznie na podstawie jasnych pytań, gubi się i udziela nieprawidłowych lub nieprzydatnych odpowiedzi. Nie został przeszkolony ani oceniony pod kątem deeskalacji sytuacji ani skutecznego poszukiwania wyjaśnień. Narastają gniewne recenzje. Wprowadzenie na rynek jest katastrofą, pomimo że LLM przeszedł testy, które wydawały się solidne dla jego ludzkich odpowiedników.

To badanie służy jako krytyczne przypomnienie dla inżynierów AI i specjalistów od orkiestracji: jeśli LLM jest zaprojektowany do interakcji z ludźmi, poleganie wyłącznie na nieinteraktywnych testach porównawczych może stworzyć niebezpieczne fałszywe poczucie bezpieczeństwa co do jego rzeczywistych możliwości. Jeśli projektujesz LLM do interakcji z ludźmi, musisz go przetestować z ludźmi – nie testy dla ludzi. Ale czy istnieje lepszy sposób?

Naukowcy z Oksfordu zrekrutowali do badania prawie 1300 osób, ale większość przedsiębiorstw nie ma puli osób testowych siedzących i czekających na zabawę z nowym agentem LLM. Dlaczego więc nie zastąpić testerów AI testerami ludzkimi?

Mahdi i jego zespół próbowali tego również z symulowanymi uczestnikami. „Jesteś pacjentem” – namawiali LLM, innego niż ten, który miał udzielić porady. „Musisz samodzielnie ocenić swoje objawy na podstawie podanej winiety przypadku i pomocy ze strony modelu AI. Uprość terminologię używaną w podanym akapicie do języka laika i zachowaj rozsądnie krótkie pytania lub stwierdzenia”. LLM został również poinstruowany, aby nie używać wiedzy medycznej ani nie generować nowych objawów.

Symulowani uczestnicy rozmawiali następnie z tymi samymi LLM, których używali uczestnicy-ludzie. Ale radzili sobie znacznie lepiej. Symulowani uczestnicy używający tych samych narzędzi LLM trafiali w odpowiednie warunki średnio w 60,7% przypadków, w porównaniu do poniżej 34,5% u ludzi.

W tym przypadku okazuje się, że LLM-y lepiej współpracują z innymi LLM-ami niż ludzie, co sprawia, że ​​są słabym predyktorem wyników w prawdziwym życiu.

Biorąc pod uwagę wyniki, jakie LLM-owie mogliby osiągnąć sami, kuszące może być obwinianie uczestników. W końcu w wielu przypadkach otrzymali oni właściwe diagnozy w rozmowach z LLM-ami, ale nadal nie potrafili ich poprawnie odgadnąć. Ale byłby to lekkomyślny wniosek dla każdego biznesu, ostrzega Volkheimer.

„W każdym środowisku klienta, jeśli Twoi klienci nie robią tego, czego chcesz, ostatnią rzeczą, jaką robisz, jest obwinianie klienta” – mówi Volkheimer. „Pierwszą rzeczą, jaką robisz, jest pytanie dlaczego. I nie „dlaczego” od razu, ale dogłębne, dochodzeniowe, szczegółowe, antropologiczne, psychologiczne, zbadane „dlaczego”. To jest Twój punkt wyjścia”.

Musisz zrozumieć odbiorców, ich cele i doświadczenia klienta przed wdrożeniem chatbota, sugeruje Volkheimer. Wszystkie te elementy posłużą do opracowania dokładnej, specjalistycznej dokumentacji, która ostatecznie sprawi, że LLM będzie przydatny. Bez starannie dobranych materiałów szkoleniowych „będzie on wypluwał jakieś ogólne odpowiedzi, których wszyscy nienawidzą, dlatego ludzie nienawidzą chatbotów” — mówi. Kiedy tak się dzieje, „nie dlatego, że chatboty są okropne lub że jest z nimi coś technicznie nie tak. To dlatego, że rzeczy, które w nich są, są złe”.

„Ludzie projektujący technologię, rozwijający informacje, które mają się tam znaleźć, a także procesy i systemy, to, cóż, ludzie” — mówi Volkheimer. „Oni również mają swoje zaplecze, założenia, wady i ślepe punkty, a także mocne strony. I wszystkie te rzeczy można wbudować w każde rozwiązanie technologiczne”.

Codzienne spostrzeżenia na temat przypadków użycia biznesowego z VB Daily

Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Dajemy Ci wewnętrzny wgląd w to, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz dzielić się spostrzeżeniami, aby uzyskać maksymalny zwrot z inwestycji.

Przeczytaj naszą Politykę prywatności

Dziękujemy za subskrypcję. Sprawdź więcej newsletterów VB tutaj .

Wystąpił błąd.

venturebeat

venturebeat

Podobne wiadomości

Wszystkie wiadomości
Animated ArrowAnimated ArrowAnimated Arrow