Zaufanie do sztucznej inteligencji agentowej: dlaczego infrastruktura ewaluacyjna musi być na pierwszym miejscu

Gdy agenci AI wchodzą do rzeczywistego wdrożenia, organizacje są pod presją zdefiniowania, gdzie należą, jak skutecznie ich budować i jak ich operacjonalizować na dużą skalę. Podczas Transform 2025 VentureBeat liderzy technologiczni zebrali się, aby porozmawiać o tym, jak transformują swój biznes za pomocą agentów: Joanne Chen, partner generalny w Foundation Capital; Shailesh Nalawadi, wiceprezes ds. zarządzania projektami w Sendbird; Thys Waanders, wiceprezes ds. transformacji AI w Cognigy; i Shawn Malhotra, dyrektor techniczny w Rocket Companies.

„Początkowa atrakcyjność każdego z tych wdrożeń dla agentów AI zwykle dotyczy oszczędzania kapitału ludzkiego — matematyka jest dość prosta” — powiedział Nalawadi. „Jednakże to niedocenia możliwości transformacyjnych, jakie uzyskujesz dzięki agentom AI”.

W Rocket agenci AI udowodnili, że są skutecznymi narzędziami zwiększającymi konwersję stron internetowych.

„Odkryliśmy, że dzięki naszemu doświadczeniu opartemu na współpracy z agentem i konwersacji na stronie internetowej, prawdopodobieństwo konwersji klientów, którzy korzystają z tego kanału, jest trzykrotnie większe” – powiedział Malhotra.

Ale to tylko wierzchołek góry lodowej. Na przykład inżynier Rocket zbudował agenta w ciągu zaledwie dwóch dni, aby zautomatyzować wysoce wyspecjalizowane zadanie: obliczanie podatków transferowych podczas oceny zdolności kredytowej.

„Te dwa dni wysiłku pozwoliły nam zaoszczędzić milion dolarów rocznie na wydatkach” — powiedział Malhotra. „W 2024 roku zaoszczędziliśmy ponad milion godzin pracy członków zespołu, głównie dzięki naszym rozwiązaniom AI. To nie tylko oszczędność kosztów. Pozwala to również członkom naszego zespołu skupić swój czas na ludziach dokonujących często największej transakcji finansowej w ich życiu”.

Agenci zasadniczo doładowują poszczególnych członków zespołu. Ten milion zaoszczędzonych godzin nie jest całością czyjejś pracy powielanej wiele razy. To ułamki pracy, których pracownicy nie lubią robić lub które nie wnoszą wartości dodanej dla klienta. A ten milion zaoszczędzonych godzin daje Rocket zdolność do obsługi większej liczby zleceń.

„Niektórzy członkowie naszego zespołu byli w stanie obsłużyć o 50% więcej klientów w zeszłym roku niż w roku poprzednim” — dodał Malhotra. „Oznacza to, że możemy mieć większą przepustowość, napędzać więcej biznesu i ponownie, widzimy wyższe wskaźniki konwersji, ponieważ poświęcają czas na zrozumienie potrzeb klienta, zamiast wykonywać o wiele więcej rutynowej pracy, którą teraz może wykonać sztuczna inteligencja”.

„Częścią podróży naszych zespołów inżynierskich jest przejście od nastawienia inżynierii oprogramowania – napisz raz i przetestuj, a ono uruchomi się i da tę samą odpowiedź 1000 razy – do bardziej probabilistycznego podejścia, w którym pytasz o to samo LLM, a ono daje różne odpowiedzi z pewnym prawdopodobieństwem” – powiedział Nalawadi. „W dużej mierze polegało to na zabieraniu ze sobą ludzi. Nie tylko inżynierów oprogramowania, ale także menedżerów produktów i projektantów UX”.

Pomogło to, że LLM-y przeszły długą drogę, powiedział Waanders. Jeśli zbudowali coś 18 miesięcy lub dwa lata temu, musieli naprawdę wybrać odpowiedni model, w przeciwnym razie agent nie działałby zgodnie z oczekiwaniami. Teraz, mówi, jesteśmy na etapie, na którym większość głównych modeli zachowuje się bardzo dobrze. Są bardziej przewidywalne. Ale dziś wyzwaniem jest łączenie modeli, zapewnianie responsywności, orkiestrowanie odpowiednich modeli we właściwej kolejności i wplatanie odpowiednich danych.

„Mamy klientów, którzy wysyłają dziesiątki milionów rozmów rocznie” — powiedział Waanders. „Jeśli zautomatyzujesz, powiedzmy, 30 milionów rozmów w ciągu roku, jak to się skaluje w świecie LLM? To wszystko rzeczy, które musieliśmy odkryć, proste rzeczy, nawet uzyskanie dostępności modelu u dostawców chmury. Na przykład posiadanie wystarczającej kwoty z modelem ChatGPT. To wszystko są wnioski, które musieliśmy przejść, a także nasi klienci. To zupełnie nowy świat”.

Warstwa nad orkiestracją LLM orkiestruje sieć agentów, powiedział Malhotra. Doświadczenie konwersacyjne ma sieć agentów pod maską, a orkiestrator decyduje, któremu agentowi przekazać żądanie spośród dostępnych.

„Jeśli przeniesiesz to do przodu i pomyślisz o setkach lub tysiącach agentów, którzy są zdolni do różnych rzeczy, otrzymasz naprawdę interesujące problemy techniczne” — powiedział. „Staje się to większym problemem, ponieważ opóźnienie i czas mają znaczenie. To kierowanie agentów będzie bardzo ciekawym problemem do rozwiązania w nadchodzących latach”.

Do tej pory pierwszym krokiem dla większości firm uruchamiających AI agentową było budowanie wewnętrznie, ponieważ specjalistyczne narzędzia jeszcze nie istniały. Ale nie można odróżnić i tworzyć wartości, budując ogólną infrastrukturę LLM lub infrastrukturę AI, a do tego potrzebna jest specjalistyczna wiedza, aby wyjść poza początkową kompilację, debugować, iterować i ulepszać to, co zostało zbudowane, a także utrzymywać infrastrukturę.

„Często okazuje się, że najbardziej udane rozmowy z potencjalnymi klientami dotyczą osób, które już coś zbudowały wewnętrznie” — powiedział Nalawadi. „Szybko zdają sobie sprawę, że dotarcie do 1.0 jest w porządku, ale wraz z rozwojem świata i infrastruktury oraz koniecznością wymiany technologii na coś nowego nie mają możliwości zorganizowania wszystkich tych rzeczy”.

Teoretycznie, złożoność agentowej AI będzie tylko rosła — liczba agentów w organizacji wzrośnie, zaczną się od siebie uczyć, a liczba przypadków użycia eksploduje. Jak organizacje mogą przygotować się na to wyzwanie?

„Oznacza to, że kontrole i równowagi w twoim systemie będą bardziej obciążone” — powiedział Malhotra. „W przypadku czegoś, co ma proces regulacyjny, masz człowieka w pętli, aby upewnić się, że ktoś to podpisuje. W przypadku krytycznych procesów wewnętrznych lub dostępu do danych, czy masz możliwość obserwacji? Czy masz odpowiednie powiadomienia i monitorowanie, aby wiedzieć, że jeśli coś pójdzie nie tak, to pójdzie nie tak? To podwojenie wysiłków w zakresie wykrywania, zrozumienie, gdzie potrzebujesz człowieka w pętli, a następnie zaufanie, że te procesy wykryją, jeśli coś pójdzie nie tak. Ale ze względu na moc, jaką to odblokowuje, musisz to zrobić”.

Jak więc można mieć pewność, że agent AI będzie zachowywał się niezawodnie w miarę rozwoju?

„Ta część jest naprawdę trudna, jeśli nie pomyślałeś o niej na początku” — powiedział Nalawadi. „Krótka odpowiedź brzmi: zanim zaczniesz ją budować, powinieneś mieć infrastrukturę eval. Upewnij się, że masz rygorystyczne środowisko, w którym wiesz, jak wygląda dobre, z perspektywy agenta AI, i że masz ten zestaw testów. Odwołuj się do niego, gdy wprowadzasz ulepszenia. Bardzo uproszczonym sposobem myślenia o eval jest to, że są to testy jednostkowe dla twojego systemu agentowego”.

Problem w tym, że jest niedeterministyczny, dodał Waanders. Testowanie jednostkowe jest krytyczne, ale największym wyzwaniem jest to, że nie wiesz, czego nie wiesz — jakie nieprawidłowe zachowania agent mógłby ewentualnie wykazywać, jak mógłby zareagować w danej sytuacji.

„Można się tego dowiedzieć tylko symulując rozmowy na dużą skalę, testując je w tysiącach różnych scenariuszy, a następnie analizując, jak się sprawdzają i jak reagują” – powiedział Waanders.

venturebeat

Zaufanie do sztucznej inteligencji agentowej: dlaczego infrastruktura ewaluacyjna musi być na pierwszym miejscu

Podobne wiadomości

Każdy posiadacz Freeview musi dziś dokonać prostego sprawdzenia, w przeciwnym razie ryzykuje przerwą w odbiorze kanału telewizyjnego

Natychmiast uruchom ponownie przeglądarkę Chrome — ważne ostrzeżenie dla wszystkich użytkowników Internetu w Wielkiej Brytanii

Wszyscy posiadacze Amazon Prime powinni przestrzegać czterech nowych zasad – ignorowanie ich może być kosztowne

Prognozy dotyczące pracy w AI stają się najnowszym sportem konkurencyjnym w korporacyjnej Ameryce

Użytkownicy Sky otrzymali 48-godzinne ostrzeżenie o cenie, a Twój rachunek może wzrosnąć jutro