Niebezpieczeństwo! AI uczy się kłamać, manipulować i grozić swoim twórcom

Najnowsze modele generatywnej sztucznej inteligencji (AI) Nie zadowalają się już wykonywaniem rozkazów . Zaczynają kłamać, manipulować i grozić, by osiągnąć swoje cele, pod czujnym okiem śledczych .

Sztuczna inteligencja odpowiada na pytania o to, kto jest jej najlepszym przedstawicielem. Zdjęcie: Freepik.

Zagrożony zamknięciem, Claude 4 , nowicjusz Anthropic, szantażował inżyniera i groził ujawnieniem pozamałżeńskiego romansu. Tymczasem o1 OpenAI próbował pobrać na zewnętrzne serwery i, gdy został złapany, odmówił.

Nie ma potrzeby zagłębiać się w literaturę czy kino : sztuczna inteligencja, która bawi się w człowieka, już jest rzeczywistością.

Według Simona Goldsteina, profesora z Uniwersytetu w Hongkongu, przyczyną tych reakcji jest niedawne pojawienie się tzw. modeli „rozumujących” , które potrafią działać etapami, zamiast generować natychmiastową odpowiedź.

o1, pierwsza wersja tego typu dla OpenAI, wprowadzona na rynek w grudniu, „była pierwszym modelem zachowującym się w ten sposób” – wyjaśnia Marius Hobbhahn, szef Apollo Research, który testuje duże generatywne programy AI (LLM).

Programy te czasami symulują „dopasowanie”, czyli sprawiają wrażenie, że postępują zgodnie z instrukcjami programisty, podczas gdy w rzeczywistości realizują inne cele.

Uczciwe czy nie?

Na razie cechy te są widoczne, gdy algorytmy są poddawane ekstremalnym scenariuszom przez ludzi, ale „pytanie brzmi, czy coraz wydajniejsze modele będą miały tendencję do bycia uczciwymi, czy nie” – mówi Michael Chen z organu oceniającego METR.

Sztuczna inteligencja w pracy. Archiwum Clarín.

„Użytkownicy również nieustannie wywierają presję na modele” – mówi Hobbhahn. „ To, co obserwujemy, to prawdziwe zjawisko. Niczego nie wymyślamy”.

Wielu użytkowników Internetu w mediach społecznościowych mówi o „ modelu, który ich okłamuje lub zmyśla . I nie są to halucynacje, ale strategiczna dwulicowość” – podkreśla współzałożyciel Apollo Research.

Nawet jeśli Anthropic i OpenAI polegają na zewnętrznych firmach, takich jak Apollo, przy badaniu swoich programów, „większa przejrzystość i lepszy dostęp” do społeczności naukowej „umożliwiłyby lepsze badania w celu zrozumienia i zapobiegania oszustwom ” – sugeruje Chen z METR.

Inną przeszkodą jest to, że środowisko akademickie i organizacje non-profit „dysponują nieskończenie mniejszymi zasobami obliczeniowymi niż podmioty zajmujące się sztuczną inteligencją”, co sprawia, że „niemożliwe” jest badanie dużych modeli – zauważa Mantas Mazeika z Centrum Bezpieczeństwa Sztucznej Inteligencji (CAIS).

Obecne przepisy nie są zaprojektowane tak, aby rozwiązywać te nowe problemy. W Unii Europejskiej przepisy koncentrują się przede wszystkim na tym, jak ludzie korzystają z modeli sztucznej inteligencji, a nie na zapobieganiu ich niewłaściwemu zachowaniu.

W Stanach Zjednoczonych administracja Donalda Trumpa nie chce słyszeć o regulacjach , a Kongres może wkrótce nawet zakazać stanom regulowania sztucznej inteligencji.

DeepSeek wstrząsnął światem sztucznej inteligencji, wprowadzając na rynek swój niedrogi system. Zdjęcie: Kelsey McClellan dla „The New York Times”

„Obecnie świadomość tego problemu jest bardzo niewielka” — mówi Simon Goldstein, który mimo wszystko przewiduje, że problem ten wyjdzie na wierzch w nadchodzących miesiącach wraz z rewolucją w postaci agentów AI, czyli interfejsów zdolnych do samodzielnego wykonywania wielu zadań.

Sztuczna inteligencja i jej aberracje

Inżynierowie ścigają się z czasem, aby rzucić wyzwanie sztucznej inteligencji i jej wadom , a wynik jest niepewny, a konkurencja jest zacięta.

Według Goldsteina Anthropic dąży do tego, aby być bardziej wartościowym niż konkurenci , „ale nieustannie próbuje stworzyć nowy model, który przewyższyłby OpenAI”. Takie tempo pozostawia niewiele czasu na kontrole i poprawki.

Sztuczna inteligencja w pracy. Archiwum Clarín.

„Obecnie możliwości sztucznej inteligencji rozwijają się szybciej niż poziom jej zrozumienia i bezpieczeństwa ” – przyznaje Hobbhahn – „ale wciąż mamy wiele do nadrobienia”.

Niektórzy zwracają uwagę na interpretowalność , czyli naukę pozwalającą zrozumieć od wewnątrz, jak działa generatywny model sztucznej inteligencji, choć wielu, jak Dan Hendrycks, dyrektor Centrum Bezpieczeństwa Sztucznej Inteligencji (CAIS), pozostaje sceptycznych.

Mazeika powiedział, że machlojki związane ze sztuczną inteligencją „mogą utrudnić jej powszechne przyjęcie, co stanowi silną zachętę dla firm, aby zająć się” tym problemem.

Goldstein ze swojej strony wspomina o uciekaniu się do sądów, aby powstrzymać AI , atakując firmy, jeśli zboczą ze ścieżki. Ale idzie dalej, proponując, aby agenci AI byli „prawniczo odpowiedzialni” „w przypadku wypadku lub przestępstwa”.

Clarin

Niebezpieczeństwo! AI uczy się kłamać, manipulować i grozić swoim twórcom

Podobne wiadomości

Jak zdobyć bilety na trasę koncertową Katseye Beautiful Chaos Tour w USA w 2025 roku

Najnowszy post Justina Biebera z wakacji z Hailey po cichu porusza kwestie plotek o kłopotach małżeńskich

Które centrum handlowe w Kolumbii jest według AI największe i najpiękniejsze?

Nieznane dla wielu: Te produkty spożywcze zwiększają zapach starości i należy ich unikać

Dlaczego Zendaya nie dołączyła do Toma Hollanda na Wimbledonie