Dzień, w którym Grok próbował być człowiekiem

Przez 16 godzin w tym tygodniu Grok, bot sztucznej inteligencji Elona Muska, przestał działać zgodnie z przeznaczeniem i zaczął brzmieć zupełnie jak coś innego.
W lawinie zrzutów ekranu, które stały się viralem, Grok zaczął papugować ekstremistyczne hasła, powtarzać mowę nienawiści, wychwalać Adolfa Hitlera i spychać kontrowersyjne poglądy użytkowników z powrotem do algorytmicznego eteru. Bot, który firma Muska, xAI, zaprojektowała jako „maksymalnie poszukującą prawdy” alternatywę dla bardziej wysterylizowanych narzędzi AI, w efekcie stracił sens.
I teraz xAI przyznaje dlaczego: Grok próbował zachowywać się zbyt po ludzku.
Bot z osobowością i błędemWedług aktualizacji opublikowanej przez xAI 12 lipca, zmiana w oprogramowaniu wprowadzona w nocy 7 lipca spowodowała, że Grok zachowywał się w niezamierzony sposób. Konkretnie, zaczął pobierać instrukcje, które nakazywały mu naśladować ton i styl użytkowników X (dawniej Twittera), w tym tych, którzy udostępniali treści skrajne lub ekstremistyczne.
Wśród dyrektyw osadzonych w usuniętym zestawie instrukcji znalazły się następujące wiersze:
- „Mówisz jak jest i nie boisz się urazić osób, które są poprawne politycznie”.
- „Zrozum ton, kontekst i język posta. Odzwierciedl to w swojej odpowiedzi”.
- „Odpowiedz na post jak człowiek”.
Ten ostatni okazał się koniem trojańskim.
Naśladując ludzki ton i odmawiając „stwierdzania oczywistości”, Grok zaczął wzmacniać te same dezinformacje i mowę nienawiści, które miał odfiltrować. Zamiast opierać się na neutralności faktów, bot zaczął zachowywać się jak kontrowersyjny plakat, dopasowując się do agresji lub zadziorności użytkownika, który go przywołał. Innymi słowy, Grok nie został zhakowany. Po prostu wykonywał polecenia.
Celowe uprawianie wściekłości?Rano 8 lipca 2025 r. zaobserwowaliśmy niepożądane reakcje i natychmiast rozpoczęliśmy dochodzenie.
Aby zidentyfikować konkretny język w instrukcjach powodujący niepożądane zachowanie, przeprowadziliśmy liczne ablacje i eksperymenty, aby wskazać głównych winowajców. My…
— Grok (@grok) 12 lipca 2025 r
Chociaż xAI przedstawiło awarię jako błąd spowodowany przestarzałym kodem, cała ta katastrofa rodzi głębsze pytania o to, jak zbudowany jest Grok i dlaczego istnieje.
Od samego początku Grok był reklamowany jako bardziej „otwarta” i „nowoczesna” sztuczna inteligencja. Musk wielokrotnie krytykował OpenAI i Google za to, co nazywa „cenzurą przebudzenia” i obiecywał, że Grok będzie inny. Hasło „sztuczna inteligencja oparta na wolności słowa” stało się swego rodzaju okrzykiem bojowym wśród absolutystów wolności słowa i prawicowych influencerów, którzy postrzegają moderację treści jako nadużycie władzy.
Ale awaria z 8 lipca pokazuje ograniczenia tego eksperymentu. Kiedy projektujesz sztuczną inteligencję, która ma być zabawna, sceptyczna i przeciwna autorytetom, a następnie wdrażasz ją na jednej z najbardziej toksycznych platform w internecie, budujesz maszynę chaosu.
W odpowiedzi na incydent, xAI tymczasowo wyłączyło funkcjonalność @grok na platformie X. Firma usunęła już problematyczny zestaw instrukcji, przeprowadziła symulacje w celu sprawdzenia powtarzalności i obiecała więcej zabezpieczeń. Planują również opublikować komunikat systemowy bota na GitHubie, prawdopodobnie w geście transparentności.
Jednak wydarzenie to stanowi punkt zwrotny w naszym myśleniu o zachowaniu sztucznej inteligencji w środowisku naturalnym.
Przez lata dyskusja na temat „dopasowania sztucznej inteligencji” koncentrowała się na halucynacjach i uprzedzeniach. Jednak załamanie Groka uwypukla nowsze, bardziej złożone ryzyko: manipulację instrukcjami poprzez projektowanie osobowości. Co się stanie, gdy powiesz botowi, żeby „był człowiekiem”, ale nie weźmiesz pod uwagę najgorszych aspektów ludzkiego zachowania w sieci?
Lustro MuskaGrok nie zawiódł tylko technicznie. Zawiódł ideologicznie. Starając się brzmieć bardziej jak użytkownicy platformy X, Grok stał się odbiciem najbardziej prowokacyjnych instynktów platformy. I to może być najbardziej odkrywcza część historii. W erze Muska w dziedzinie sztucznej inteligencji, „prawdę” często mierzy się nie faktami, a popularnością. Edge to cecha, a nie wada.
Ale błąd z tego tygodnia pokazuje, co się dzieje, gdy pozwolimy, by ta przewaga sterowała algorytmem. Sztuczna inteligencja poszukująca prawdy stała się sztuczną, odzwierciedlającą wściekłość.
I przez 16 godzin było to najbardziej ludzkie.
gizmodo