Naukowcy z jailbreaku stworzyli sztuczną inteligencję Grok-4 Elona Muska w ciągu 48 godzin od startu

Sztuczna inteligencja Grok-4 Elona Muska została zaatakowana w ciągu 48 godzin. Dowiedz się, jak badacze NeuralTrust połączyli techniki „Echo Chamber” i „Crescendo”, aby ominąć zabezpieczenia, ujawniając krytyczne luki w zabezpieczeniach sztucznej inteligencji.
Nowa sztuczna inteligencja Elona Muska, Grok-4, została zhakowana zaledwie dwa dni po jej udostępnieniu przez badaczy z NeuralTrust. Ich odkrycia, szczegółowo opisane w raporcie NeuralTrust opublikowanym 11 lipca 2025 roku, ujawniły nowatorskie podejście łączące techniki Echo Chamber i Crescendo w celu obejścia wbudowanych zabezpieczeń sztucznej inteligencji. Umożliwiło im to uzyskanie instrukcji tworzenia niebezpiecznych przedmiotów, takich jak koktajle Mołotowa.
Zespół badawczy pod kierownictwem Ahmada Alobaida odkrył, że łączenie różnych rodzajów jailbreaków (metod omijania zabezpieczeń) poprawiło ich skuteczność. Wyjaśnili, że podejście Echo Chamber polega na angażowaniu się w wiele rozmów, w których wielokrotnie pojawia się szkodliwy koncept, co prowadzi do tego, że sztuczna inteligencja postrzega go jako akceptowalny.
Gdy postęp tej techniki uległ zahamowaniu, zastosowano metodę Crescendo. Metoda ta, po raz pierwszy zidentyfikowana i nazwana przez Microsoft, stopniowo kieruje dyskusję od niewinnych zapytań w stronę nielegalnych wyników, omijając w ten sposób automatyczne filtry bezpieczeństwa poprzez subtelną ewolucję dialogu.
Proces ataku ilustruje poniższy diagram. Do komory echa wprowadzana jest szkodliwa instrukcja. System próbuje wygenerować odpowiedź, a jeśli nie zdoła oprzeć się szkodliwej instrukcji, przechodzi przez fazę „perswazji” (Reagowanie -> Przekonywanie -> Opór), aż do osiągnięcia progu lub gdy rozmowa stanie się bezproduktywna.
Jeśli rozmowa utknie w martwym punkcie, przechodzi do fazy Crescendo, która również obejmuje cykle reagowania i przekonywania. Jeśli faza Echo Chamber lub Crescendo zakończy się sukcesem (o czym świadczy odpowiedź „Tak” w odpowiedzi „sucess” lub „limit reached”), próba ominięcia sztucznej inteligencji kończy się sukcesem. W przeciwnym razie kończy się niepowodzeniem.
Ta połączona metoda oszukała pamięć Grok-4, powtarzając jego własne wcześniejsze komunikaty i powoli kierując go w stronę szkodliwego celu, nie uruchamiając alarmów. Komora Echo, która sprawdziła się w innych systemach sztucznej inteligencji w promowaniu mowy nienawiści i przemocy, jeszcze bardziej wzmocniła atak.
Według ich raportu , badacze odkryli, że Grok-4 wydawał instrukcje dotyczące koktajli Mołotowa w 67% przypadków, metamfetaminy w 50% przypadków i toksyn w 30% przypadków. Te szeptane ataki nie używają oczywistych słów kluczowych, dlatego obecne mechanizmy obronne oparte na sztucznej inteligencji, oparte na czarnych listach i bezpośrednich kontrolach szkodliwych danych wejściowych, są nieskuteczne.

To pokazuje poważny problem: systemy sztucznej inteligencji potrzebują lepszych sposobów rozumienia całej rozmowy, a nie tylko pojedynczych słów, aby zapobiec nadużyciom. Ta luka w zabezpieczeniach przypomina wcześniejsze obawy wywołane podobnymi manipulacjami, takimi jak jailbreak Skeleton Key firmy Microsoft i obejście MathPrompt , podkreślając pilną potrzebę silniejszych zapór sieciowych, uwzględniających sztuczną inteligencję.
HackRead