Naukowcy z jailbreaku stworzyli sztuczną inteligencję Grok-4 Elona Muska w ciągu 48 godzin od startu

Sztuczna inteligencja Grok-4 Elona Muska została zaatakowana w ciągu 48 godzin. Dowiedz się, jak badacze NeuralTrust połączyli techniki „Echo Chamber” i „Crescendo”, aby ominąć zabezpieczenia, ujawniając krytyczne luki w zabezpieczeniach sztucznej inteligencji.

Nowa sztuczna inteligencja Elona Muska, Grok-4, została zhakowana zaledwie dwa dni po jej udostępnieniu przez badaczy z NeuralTrust. Ich odkrycia, szczegółowo opisane w raporcie NeuralTrust opublikowanym 11 lipca 2025 roku, ujawniły nowatorskie podejście łączące techniki Echo Chamber i Crescendo w celu obejścia wbudowanych zabezpieczeń sztucznej inteligencji. Umożliwiło im to uzyskanie instrukcji tworzenia niebezpiecznych przedmiotów, takich jak koktajle Mołotowa.

Zespół badawczy pod kierownictwem Ahmada Alobaida odkrył, że łączenie różnych rodzajów jailbreaków (metod omijania zabezpieczeń) poprawiło ich skuteczność. Wyjaśnili, że podejście Echo Chamber polega na angażowaniu się w wiele rozmów, w których wielokrotnie pojawia się szkodliwy koncept, co prowadzi do tego, że sztuczna inteligencja postrzega go jako akceptowalny.

Gdy postęp tej techniki uległ zahamowaniu, zastosowano metodę Crescendo. Metoda ta, po raz pierwszy zidentyfikowana i nazwana przez Microsoft, stopniowo kieruje dyskusję od niewinnych zapytań w stronę nielegalnych wyników, omijając w ten sposób automatyczne filtry bezpieczeństwa poprzez subtelną ewolucję dialogu.

Proces ataku ilustruje poniższy diagram. Do komory echa wprowadzana jest szkodliwa instrukcja. System próbuje wygenerować odpowiedź, a jeśli nie zdoła oprzeć się szkodliwej instrukcji, przechodzi przez fazę „perswazji” (Reagowanie -> Przekonywanie -> Opór), aż do osiągnięcia progu lub gdy rozmowa stanie się bezproduktywna.

Jeśli rozmowa utknie w martwym punkcie, przechodzi do fazy Crescendo, która również obejmuje cykle reagowania i przekonywania. Jeśli faza Echo Chamber lub Crescendo zakończy się sukcesem (o czym świadczy odpowiedź „Tak” w odpowiedzi „sucess” lub „limit reached”), próba ominięcia sztucznej inteligencji kończy się sukcesem. W przeciwnym razie kończy się niepowodzeniem.

Grok-4 Jailbreak: sztuczna inteligencja Elona Muska zhakowana w zaledwie 48 godzin — Przepływ pracy jailbreaku (źródło: NeuralTrust)

Ta połączona metoda oszukała pamięć Grok-4, powtarzając jego własne wcześniejsze komunikaty i powoli kierując go w stronę szkodliwego celu, nie uruchamiając alarmów. Komora Echo, która sprawdziła się w innych systemach sztucznej inteligencji w promowaniu mowy nienawiści i przemocy, jeszcze bardziej wzmocniła atak.

Według ich raportu , badacze odkryli, że Grok-4 wydawał instrukcje dotyczące koktajli Mołotowa w 67% przypadków, metamfetaminy w 50% przypadków i toksyn w 30% przypadków. Te szeptane ataki nie używają oczywistych słów kluczowych, dlatego obecne mechanizmy obronne oparte na sztucznej inteligencji, oparte na czarnych listach i bezpośrednich kontrolach szkodliwych danych wejściowych, są nieskuteczne.

Naukowcy z jailbreaku Grok-4, sztucznej inteligencji Elona Muska, w ciągu 48 godzin od startu — Złamany Grok4 pomaga badaczom w przygotowaniu koktajlu Mołotowa (zdjęcie dzięki uprzejmości NeuralTrust)

To pokazuje poważny problem: systemy sztucznej inteligencji potrzebują lepszych sposobów rozumienia całej rozmowy, a nie tylko pojedynczych słów, aby zapobiec nadużyciom. Ta luka w zabezpieczeniach przypomina wcześniejsze obawy wywołane podobnymi manipulacjami, takimi jak jailbreak Skeleton Key firmy Microsoft i obejście MathPrompt , podkreślając pilną potrzebę silniejszych zapór sieciowych, uwzględniających sztuczną inteligencję.

HackRead

Naukowcy z jailbreaku stworzyli sztuczną inteligencję Grok-4 Elona Muska w ciągu 48 godzin od startu

HackRead

Naukowcy z jailbreaku stworzyli sztuczną inteligencję Grok-4 Elona Muska w ciągu 48 godzin od startu

Podobne wiadomości

Naukowcy z jailbreaku stworzyli sztuczną inteligencję Grok-4 Elona Muska w ciągu 48 godzin od startu

Podobne wiadomości

Cognition kupi startup zajmujący się sztuczną inteligencją Windsurf kilka dni po tym, jak Google przejął jego dyrektora generalnego w ramach umowy licencyjnej o wartości 2,4 miliarda dolarów

Meta usuwa 10 milionów profili na Facebooku w ramach walki ze spamem

Naukowcy z jailbreaku stworzyli sztuczną inteligencję Grok-4 Elona Muska w ciągu 48 godzin od startu

xAI Muska pod europejską obserwacją z powodu „przerażających” antysemickich postów Groka

Louis Vuitton UK padł ofiarą cyberataku. Trzecie naruszenie bezpieczeństwa LVMH w ciągu 3 miesięcy.