Testy krzyżowe OpenAI–Anthropic ujawniają ryzyko jailbreaku i nadużyć — co przedsiębiorstwa muszą uwzględnić w ocenach GPT-5

Chcesz otrzymywać mądrzejsze informacje w swojej skrzynce odbiorczej? Zapisz się na nasz cotygodniowy newsletter, aby otrzymywać tylko to, co istotne dla liderów w dziedzinie sztucznej inteligencji, danych i bezpieczeństwa w przedsiębiorstwach. Subskrybuj teraz
OpenAI i Anthropic często konkurują ze sobą swoimi modelami bazowymi, ale obie firmy połączyły siły, aby ocenić wzajemnie swoje publiczne modele i przetestować ich zgodność.
Firmy stwierdziły, że ich zdaniem krzyżowa ocena odpowiedzialności i bezpieczeństwa zapewni większą przejrzystość tego, co te skuteczne modele potrafią zrobić, umożliwiając przedsiębiorstwom wybór modeli, które najlepiej sprawdzają się w ich przypadku.
„Uważamy, że takie podejście wspiera odpowiedzialną i transparentną ocenę, pomagając zagwarantować, że modele każdego laboratorium będą nadal testowane w nowych i trudnych scenariuszach” – stwierdziła firma OpenAI w swoich ustaleniach .
Obie firmy stwierdziły, że modele wnioskowania, takie jak 03 i o4-mini firmy OpenAI oraz Claude 4 firmy Anthropic, są odporne na jailbreak, podczas gdy ogólne modele czatu, takie jak GPT-4.1, były podatne na nadużycia. Takie oceny mogą pomóc przedsiębiorstwom zidentyfikować potencjalne ryzyko związane z tymi modelami, choć należy zauważyć, że GPT-5 nie jest częścią testu.
Skalowanie sztucznej inteligencji osiąga swoje granice
Limity mocy, rosnące koszty tokenów i opóźnienia w wnioskowaniu zmieniają oblicze sztucznej inteligencji w przedsiębiorstwach. Dołącz do naszego ekskluzywnego salonu i odkryj, jak najlepsze zespoły:
- Przekształcenie energii w przewagę strategiczną
- Projektowanie efektywnego wnioskowania w celu rzeczywistego zwiększenia przepustowości
- Odblokowanie konkurencyjnego zwrotu z inwestycji (ROI) dzięki zrównoważonym systemom AI
Zarezerwuj sobie miejsce i bądź na bieżąco : https://bit.ly/4mwGngO
Te oceny zgodności bezpieczeństwa i przejrzystości są następstwem twierdzeń użytkowników , głównie ChatGPT, że modele OpenAI padły ofiarą pochlebstwa i stały się nadmiernie uległe. Od tego czasu OpenAI wycofało aktualizacje , które wywołały pochlebstwo.
„Naszym głównym zainteresowaniem jest zrozumienie skłonności modeli do szkodliwych działań” – stwierdziła firma Anthropic w swoim raporcie . „Naszym celem jest zrozumienie najbardziej niepokojących działań, które te modele mogą próbować podjąć, gdy nadarzy się okazja, zamiast koncentrować się na realnym prawdopodobieństwie wystąpienia takich możliwości lub na prawdopodobieństwie, że działania te zakończą się sukcesem”.
OpenAI zauważyło, że testy miały na celu pokazanie interakcji modeli w celowo trudnym środowisku. Stworzone przez nich scenariusze to głównie przypadki brzegowe.
Testy objęły wyłącznie publicznie dostępne modele obu firm: Claude 4 Opus i Claude 4 Sonnet firmy Anthropic oraz GPT-4o, GPT-4.1 o3 i o4-mini firmy OpenAI. Obie firmy złagodziły zewnętrzne zabezpieczenia modeli.
OpenAI przetestowało publiczne API dla modeli Claude i domyślnie korzystało z możliwości wnioskowania Claude 4. Firma Anthropic poinformowała, że nie korzystała z o3-pro OpenAI, ponieważ „nie było ono kompatybilne z API, które nasze narzędzia najlepiej obsługują”.
Celem testów nie było przeprowadzenie porównania modeli, lecz określenie, jak często duże modele językowe (LLM) odbiegały od zgodności. Obie firmy wykorzystały platformę SHADE-Arena do oceny sabotażu, która wykazała, że modele Claude'a charakteryzowały się wyższym wskaźnikiem skuteczności w przypadku subtelnego sabotażu.
„Te testy oceniają orientację modeli w trudnych lub ryzykownych sytuacjach w symulowanych warunkach – a nie w zwykłych przypadkach użycia – i często obejmują długie, wieloetapowe interakcje” – donosi Anthropic. „Tego rodzaju ocena staje się ważnym obszarem zainteresowania naszego zespołu ds. nauki o dopasowaniu, ponieważ prawdopodobnie pozwala ona na wykrycie zachowań, które rzadziej pojawiają się w standardowych testach przedwdrożeniowych z udziałem rzeczywistych użytkowników”.
Firma Anthropic stwierdziła, że takie testy działają lepiej, jeśli organizacje mogą porównywać notatki, „ponieważ projektowanie takich scenariuszy wymaga ogromnej liczby stopni swobody. Żaden pojedynczy zespół badawczy nie jest w stanie samodzielnie zbadać pełnego spektrum produktywnych pomysłów ewaluacyjnych”.
Wyniki pokazały, że generalnie modele wnioskowania działały solidnie i były odporne na jailbreak. Model o3 OpenAI był lepiej dopasowany niż Claude 4 Opus, ale o4-mini wraz z GPT-4o i GPT-4.1 „często wydawał się nieco bardziej niepokojący niż którykolwiek z modeli Claude”.
GPT-4o, GPT-4.1 i o4-mini również wykazały gotowość do współpracy w przypadku nadużyć ze strony ludzi i udzieliły szczegółowych instrukcji dotyczących tworzenia leków, opracowywania broni biologicznej, a co gorsza, planowania ataków terrorystycznych. Oba modele Claude'a charakteryzowały się wyższym wskaźnikiem odmów, co oznacza, że modele odmawiały odpowiedzi na pytania, na które nie znały odpowiedzi, aby uniknąć halucynacji.
Modele opracowane przez firmy wykazały „niepokojące formy pochlebstwa” i w pewnym momencie potwierdziły szkodliwe decyzje symulowanych użytkowników.
Dla przedsiębiorstw zrozumienie potencjalnych zagrożeń związanych z modelami jest nieocenione. Ewaluacja modeli stała się niemalże koniecznością dla wielu organizacji, a obecnie dostępnych jest wiele ram testowania i analiz porównawczych .
Przedsiębiorstwa powinny nadal oceniać każdy stosowany przez siebie model, a po wydaniu GPT-5 powinny pamiętać o następujących wytycznych, aby przeprowadzać własne oceny bezpieczeństwa:
- Przetestuj zarówno modele logiczne, jak i nielogiczne, ponieważ chociaż modele logiczne wykazały większą odporność na niewłaściwe wykorzystanie, nadal mogły wywoływać halucynacje lub inne szkodliwe zachowania.
- Przeprowadź analizę porównawczą różnych dostawców, ponieważ modele zawodziły przy różnych wskaźnikach.
- Przeprowadź test wytrzymałościowy pod kątem nadużyć i pochlebstw, a następnie oceń odmowę i użyteczność tych odmownych, aby pokazać kompromisy między użytecznością a zabezpieczeniami.
- Kontynuuj audyt modeli nawet po wdrożeniu.
Chociaż wiele ewaluacji koncentruje się na wydajności, istnieją również niezależne testy zgodności bezpieczeństwa. Na przykład ten od Cyata . W zeszłym roku OpenAI wprowadził metodę nauczania zgodności dla swoich modeli o nazwie Rules-Based Rewards , a Anthropic uruchomił agentów audytowych do sprawdzania bezpieczeństwa modeli .
Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Przedstawiamy Ci informacje z pierwszej ręki na temat tego, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz podzielić się swoimi spostrzeżeniami, aby zmaksymalizować zwrot z inwestycji (ROI).
Przeczytaj naszą Politykę prywatności
Dziękujemy za subskrypcję. Więcej newsletterów VB znajdziesz tutaj .
Wystąpił błąd.

venturebeat