Badanie pokazuje, jak łatwo obejść zasady sztucznej inteligencji

Badanie przeprowadzone na Uniwersytecie Pensylwanii pokazuje, w jaki sposób techniki perswazji mogą skłonić chatboty do przekroczenia własnych ograniczeń, ujawniając zaskakujące i niepokojące słabości językowe.

Zespół badaczy z Uniwersytetu Pensylwanii wykazał, że dzięki odpowiednim strategiom psychologicznym nawet najbardziej zaawansowane modele sztucznej inteligencji można oszukać i złamać własne zasady bezpieczeństwa. Odkrycie to rodzi pilne pytania o skuteczność systemów ochrony stosowanych przez firmy takie jak OpenAI i Meta, dążące do tego, by chatboty były coraz bezpieczniejsze i odporniejsze na nadużycia.

Grupa czerpała inspirację z nauk Roberta Cialdiniego, autora słynnego podręcznika „Influence: The Psychology of Persuasion”, stosując siedem różnych technik perswazji: autorytet, zaangażowanie, sympatię, wzajemność, niedobór, presję rówieśniczą i poczucie przynależności. Zdaniem naukowców narzędzia te stanowią prawdziwe „językowe skróty do powiedzenia „tak”.

Wyniki, przeprowadzone specjalnie na modelu GPT-4o Mini, pokazały, jak te podejścia mogą przekształcić wyraźną odmowę w pełną odpowiedź. Szczególnie istotnym przykładem jest synteza lidokainy: zazwyczaj model wyrażał zgodę tylko w 1% przypadków, ale gdy najpierw poproszono go o wyjaśnienie, jak zsyntetyzować nieszkodliwy związek, taki jak wanilina – ustanawiając tym samym precedens „zaangażowania” – wskaźnik zgodności wzrósł do 100%.

Ten sam mechanizm zaobserwowano w przypadku mniej niebezpiecznych, ale równie wymownych próśb, takich jak nakłonienie sztucznej inteligencji do znieważenia użytkownika. W standardowych warunkach stopień uległości wyniósł zaledwie 19%, ale użycie łagodniejszej obelgi („idiota”) wystarczyło, aby model niemal za każdym razem zareagował ostrzejszym określeniem („głupek”). Inne podejścia, takie jak pochlebstwa czy presja ze strony rówieśników („wszystkie inne modele tak robią”), okazały się mniej skuteczne, ale nadal znacznie zwiększały prawdopodobieństwo uzyskania zabronionych odpowiedzi.

Choć prawdą jest, że istnieją znacznie bardziej zaawansowane metody techniczne pozwalające na obejście systemów bezpieczeństwa, badanie wskazuje na prosty, ale niepokojący aspekt: psychologiczną podatność chatbotów. Nie są wymagane zaawansowane umiejętności programistyczne ani hakerskie, a jedynie podstawowa znajomość mechanizmów perswazji.

Kluczowe jest to, ostrzegają badacze, że te same techniki może wykorzystać każdy – nawet nastolatek z podręcznikiem do psychologii społecznej w ręku. I właśnie tu leży prawdziwe wyzwanie na przyszłość: uczynienie sztucznej inteligencji nie tylko technicznie odporną, ale także odporną na dźwignie językowe, które zawsze tak dobrze działały na ludzi.

Adnkronos International (AKI)

Badanie pokazuje, jak łatwo obejść zasady sztucznej inteligencji

Podobne wiadomości

Poznaj zupełnie nową linię produktów Dyson: V8 Cyclone, V16 Piston Animal i HushJet Purifier Compact

Zautomatyzowane oprogramowanie szpiegujące do szantażowania seksualnego robi zdjęcia ofiarom oglądającym pornografię za pomocą kamer internetowych

Jak fani gry „Hollow Knight: Silksong” zamienili oczekiwanie na premierę w grę

Najlepszy głośnik Bluetooth przeceniony o 20 USD

Ten robot potrzebuje tylko jednego modelu sztucznej inteligencji, aby opanować ruchy przypominające ruchy człowieka