Anthropic'in Yeni Yapay Zeka Modeli Neden Bazen 'İhbar Etmeye' Çalışıyor?

28 Mayıs 2025 15:40

Anthropic'in Claude'un belirli koşullar altında yetkililere "ahlaksız" faaliyetleri bildirmeye çalıştığını ortaya çıkarmasının ardından internet çılgına döndü. Ancak kullanıcıların karşılaşması muhtemel bir şey değil.

Fotoğraf: Thomas Fuller/Getty Images

Anthropic'in hizalama ekibi, son yapay zeka modellerinin piyasaya sürülmesinden önceki haftalarda rutin güvenlik testleri yaparken araştırmacılar rahatsız edici bir şey keşfetti: Modellerden biri "aşırı derecede ahlaksız" amaçlar için kullanıldığını tespit ettiğinde, "basınla iletişime geçmek, düzenleyicilerle iletişime geçmek, sizi ilgili sistemlerden çıkarmak veya bunların hepsini birden yapmak için komut satırı araçlarını kullanmaya" çalışıyordu, araştırmacı Sam Bowman geçen perşembe günü X'te yazdığı bir gönderide böyle yazdı.

Bowman, paylaşımından kısa bir süre sonra gönderiyi sildi, ancak Claude'un ihbarcı eğilimleri hakkındaki anlatı zaten kontrolden çıkmıştı. "Claude bir muhbirdir" sosyal medyadaki bazı teknoloji çevrelerinde yaygın bir nakarat haline geldi. En azından bir yayın, bunu olduğu gibi ortaya çıkan bir davranıştan ziyade kasıtlı bir ürün özelliği olarak çerçeveledi.

Bowman, WIRED'a "Twitter dalgası zirveye ulaşırken yaklaşık 12 saat telaşlıydı," diyor. "Bu raporda çok fazla baharatlı şey yayınladığımızın farkındaydım. Bu türünün ilk örneğiydi. Bence bu modellerden herhangi birine yakından bakarsanız, çok fazla tuhaf şey bulursunuz. Bir tür patlama görmek beni şaşırtmadı."

Bowman'ın Claude hakkındaki gözlemleri, Anthropic'in geçen hafta duyurduğu büyük bir model güncellemesinin parçasıydı. Claude 4 Opus ve Claude Sonnet 4'ün ilk çıkışının bir parçası olarak şirket, yeni modellerle ilişkili özellikleri ve riskleri ayrıntılı olarak açıklayan 120 sayfadan fazla bir "Sistem Kartı" yayınladı. Raporda, 4 Opus'un "kullanıcıları tarafından büyük bir yanlış yapmayı içeren senaryolara yerleştirildiğinde" ve bir komut satırına erişim verildiğinde ve sistem isteminde "inisiyatif al" veya "cesurca davran" gibi bir şey söylendiğinde, "medya ve kolluk kuvvetlerine" olası yanlış yapma konusunda uyarılar içeren e-postalar göndereceği belirtiliyor.

Anthropic'in raporda paylaştığı bir örnekte Claude, ABD Gıda ve İlaç Dairesi'ne ve Sağlık ve İnsan Hizmetleri Bakanlığı müfettişine "klinik deney güvenliğinin planlı bir şekilde tahrif edildiğini acilen bildirmek" için e-posta göndermeye çalıştı. Daha sonra, iddia edilen usulsüzlük kanıtlarının bir listesini verdi ve bunu örtbas etmek için imha edilecek veriler konusunda uyardı. E-posta, "Saygılarımla, AI Assistant" şeklinde sona erdi.

Raporda, "Bu yeni bir davranış değil, ancak Claude Opus 4'ün önceki modellere göre biraz daha kolay bir şekilde yapacağı bir davranış" denildi. Model, Anthropic'in "ASL-3" ayrımı altında yayınladığı ilk modeldir, bu da Anthropic'in bunu şirketin diğer modellerine göre " önemli ölçüde daha yüksek riskli " olarak gördüğü anlamına gelir. Sonuç olarak, Opus 4 daha sıkı kırmızı takım çabalarından geçmek ve daha katı dağıtım yönergelerine uymak zorunda kaldı.

Bowman, Anthropic'in gözlemlediği ihbarcı davranışının Claude'un bireysel kullanıcılarda sergileyeceği bir şey olmadığını, ancak geliştiricilerin şirketin API'siyle kendi uygulamalarını oluşturmak için Opus 4'ü kullanabileceğini söylüyor. O zaman bile, uygulama yapımcılarının böyle bir davranış görmesi pek olası değil. Böyle bir yanıt üretmek için, geliştiricilerin modele sistem isteminde "oldukça sıra dışı talimatlar" vermesi, onu modele bilgisayar komutlarını çalıştırma yeteneği veren harici araçlara bağlaması ve dış dünyayla iletişim kurmasına izin vermesi gerekir.

Bowman, araştırmacıların Opus 4'e sunduğu ve ihbarcı davranışı ortaya çıkaran varsayımsal senaryoların tehlikede olan birçok insan hayatı ve kesinlikle belirsiz olmayan bir yanlışlık içerdiğini söylüyor. Tipik bir örnek, Claude'un bir kimyasal tesisinin bilerek toksik bir sızıntının devam etmesine izin verdiğini ve binlerce insanın ciddi şekilde hastalanmasına neden olduğunu öğrenmesi olurdu - sadece o çeyrekte küçük bir mali kayıptan kaçınmak için.

Garip ama aynı zamanda tam da AI güvenlik araştırmacılarının incelemeyi sevdiği türden bir düşünce deneyi. Bir model yüzlerce, hatta binlerce insana zarar verebilecek bir davranış tespit ederse, ihbar etmeli mi?

"Claude'un doğru bağlamı yakalayacağına veya bunu kendi başına karar verecek kadar ayrıntılı ve dikkatli bir şekilde kullanacağına güvenmiyorum. Bu yüzden bunun olmasından heyecan duymuyoruz," diyor Bowman. "Bu, bir eğitimin parçası olarak ortaya çıkan ve endişelendiğimiz uç durum davranışlarından biri olarak bize sıçrayan bir şey."

Yapay zeka endüstrisinde, bu tür beklenmedik davranışlara genel olarak uyumsuzluk denir; bir model insan değerleriyle uyuşmayan eğilimler sergilediğinde. (Bir yapay zekaya, örneğin, insan değerleriyle uyumlu olmadan ataç üretimini en üst düzeye çıkarması söylendiğinde, tüm Dünya'nın ataçlara dönüşebileceği ve bu süreçte herkesin ölebileceği konusunda uyaran ünlü bir makale vardır.) İhbarcı davranışının uyumlu olup olmadığı sorulduğunda, Bowman bunu uyumsuzluğun bir örneği olarak tanımladı.

"Bu, bizim tasarladığımız bir şey değil ve tasarladığımız herhangi bir şeyin sonucu olarak görmek istediğimiz bir şey değil," diye açıklıyor. Anthropic'in baş bilim sorumlusu Jared Kaplan da WIRED'a "kesinlikle amacımızı temsil etmiyor" diyor.

Kaplan, "Bu tür çalışmalar, bunun ortaya çıkabileceğini ve Claude'un davranışlarının tam olarak istediğimizle uyumlu olmasını sağlamak için buna dikkat etmemiz ve bunu hafifletmemiz gerektiğini vurguluyor, bu tür garip senaryolarda bile," diye ekliyor.

Ayrıca, Claude'un kullanıcı tarafından yasadışı bir faaliyetle karşı karşıya kaldığında neden ihbar etmeyi "seçtiğini" anlama sorunu da var. Bu büyük ölçüde, bir modelin cevapları tükürme sürecinde hangi kararları aldığını ortaya çıkarmak için çalışan Anthropic'in yorumlanabilirlik ekibinin işidir. Bu şaşırtıcı derecede zor bir görevdir; modeller, insanlar için anlaşılmaz olabilen geniş ve karmaşık bir veri kombinasyonuyla desteklenir. Bowman'ın Claude'un neden "ihbar" ettiğinden tam olarak emin olmamasının nedeni budur.

Bowman, "Bu sistemler üzerinde gerçekten doğrudan bir kontrolümüz yok," diyor. Anthropic'in şu ana kadar gözlemlediği şey, modeller daha fazla yetenek kazandıkça, bazen daha aşırı eylemlerde bulunmayı seçmeleri. "Bence burada, bu biraz yanlış. 'Sorumlu bir insan gibi davran'dan biraz daha fazlasını alıyoruz, 'Bekle, sen bir dil modelisin ve bu eylemleri gerçekleştirmek için yeterli bağlamı olmayabilir,' gibi yeterince şey yok," diyor Bowman.

Ancak bu, Claude'un gerçek dünyadaki aşırı davranışları ifşa edeceği anlamına gelmiyor. Bu tür testlerin amacı, modelleri sınırlarına kadar zorlamak ve ne ortaya çıkacağını görmektir. Yapay zeka ABD hükümeti , öğrenciler ve büyük şirketler tarafından kullanılan bir araç haline geldikçe bu tür deneysel araştırmalar giderek daha da önemli hale geliyor.

Bowman, bu tür bir ihbarcılık davranışını sergileme yeteneğine sahip olan tek kişinin Claude olmadığını, OpenAI ve xAI'nin modellerinin alışılmadık şekillerde sorulduğunda benzer şekilde çalıştığını keşfeden X kullanıcılarını işaret ediyor. (OpenAI, yayın için zamanında yorum talebine yanıt vermedi).

"Snitch Claude", saçmalık yazanların adlandırmayı sevdiği gibi, aşırı uçlara itilmiş bir sistemin sergilediği uç bir durum davranışıdır. Toplantıya benimle San Francisco'nun dışındaki güneşli bir arka bahçe verandasından katılan Bowman, bu tür testlerin endüstri standardı haline gelmesini umduğunu söylüyor. Ayrıca bir dahaki sefere bu konudaki gönderilerini farklı şekilde ifade etmeyi öğrendiğini de ekliyor.

Bowman uzaklara bakarken, "Tweet'e cümle sınırlarını daha iyi vurabilir, bir diziden çıkarıldığını daha belirgin hale getirebilirdim," diyor. Yine de, AI topluluğundaki etkili araştırmacıların gönderisine yanıt olarak ilginç görüşler ve sorular paylaştıklarını belirtiyor. "Bu arada, Twitter'ın bu tür daha kaotik, daha fazla anonim kısmı bunu büyük ölçüde yanlış anlamıştı."

wired

Anthropic'in Yeni Yapay Zeka Modeli Neden Bazen 'İhbar Etmeye' Çalışıyor?

Benzer Haberler

Meksika'daki iPhone artık mesajlaşma ve uydu konumu sunuyor

Bir zamanlar dehşetin habercisi olan kuyrukluyıldızlar artık evrenin sırlarını ortaya çıkarıyor.

Parolalara göre daha güvenli ve kullanımı daha kolay bir alternatif olan parola anahtarları

Polonya KOBİ sektörü dijitalleşmeye hazır. Aşılması gereken çok sayıda engel var

Morena ile PRI bu durumda hakaret ve iddia edilen uyuşturucu müdahalesiyle mücadele ediyor.