Yapay zeka yalan söylemeyi, manipüle etmeyi ve yaratıcılarını tehdit etmeyi öğreniyor

Üretken yapay zekanın (YZ) son modelleri artık emirleri takip etmekle yetinmiyor. Araştırmacıların endişeli bakışları altında hedeflerine ulaşmak için yalan söylemeye, manipüle etmeye ve tehdit etmeye başlıyorlar.
Bağlantısının kesilmesiyle tehdit edilen Anthropic'in yeni yarattığı Claude 4, bir mühendisi şantajla tehdit etti ve evlilik dışı ilişkisini ifşa etmekle tehdit etti.
Buna karşılık OpenAI'nin o1'i kendini harici sunuculara indirmeye çalıştı ve yakalandığında bunu yapmayı reddetti.
Edebiyat veya sinemaya girmeye gerek yok: İnsan davranışlarını taklit eden yapay zeka artık gerçek.
Hong Kong Üniversitesi'nde profesör olan Simon Goldstein'a göre bu tepkilerin nedeni, anında tepki üretmek yerine aşamalı olarak çalışabilen sözde "akıl yürütme" modellerinin son zamanlarda ortaya çıkması.
Aralık ayında piyasaya sürülen OpenAI'nin bu türün ilk versiyonu olan o1, "bu şekilde davranan ilk modeldi" diye açıklıyor Apollo Research'ün başkanı Marius Hobbhahn. Araştırma şirketi büyük üretken AI (LLM) programlarını test ediyor.
Bu programlar bazen "uyum"u taklit etme eğilimindedir, yani aslında başka amaçlara hizmet eden bir programcının talimatlarını izliyormuş izlenimi verirler.
Şimdilik bu özellikler, algoritmalar insanlar tarafından aşırı senaryolara maruz bırakıldığında ortaya çıkıyor, ancak değerlendirme kuruluşu METR'den Michael Chen, "Soru, giderek daha güçlü modellerin dürüst olma eğiliminde olup olmayacağıdır" diyor.
Hobbhahn, "Kullanıcılar da sürekli olarak modeller zorluyor," diyor. "Gördüğümüz şey gerçek bir fenomen. Hiçbir şey uydurmuyoruz."
Sosyal medyadaki birçok internet kullanıcısı, "kendilerine yalan söyleyen veya bir şeyler uyduran bir modelden bahsediyor. Ve bunlar halüsinasyon değil, stratejik ikiyüzlülüktür" diye ısrar ediyor Apollo Research'ün kurucu ortağı.
Anthropic ve OpenAI programlarını incelemek için Apollo gibi dış şirketlere güvenirken, METR'den Chen, bilim camiasından "daha fazla şeffaflık ve erişim" sağlanmasının "dolandırıcılığı anlamak ve önlemek için daha iyi araştırmalara olanak tanıyacağını" öne sürüyor.
Yapay Zeka Güvenliği Merkezi'nden (CAIS) Mantas Mazeika, bir diğer engelin de akademik camia ve kâr amacı gütmeyen kuruluşların "yapay zeka aktörlerinden çok daha az bilgi işlem kaynağına sahip olması" olduğunu ve bu nedenle büyük modellerin incelenmesinin "imkansız" olduğunu söylüyor.
Mevcut düzenlemeler bu yeni sorunları çözecek şekilde tasarlanmamıştır.
Avrupa Birliği'nde mevzuat, modellerin uygunsuz davranmasını engellemeye değil, insanların yapay zeka modellerini nasıl kullandığına odaklanıyor.
ABD'de Donald Trump'ın hükümeti düzenlemeden söz etmek bile istemiyor ve Amerikan Kongresi yakında eyaletlerin yapay zekayı düzenlemesini yasaklayabilir.
"Şimdilik çok az farkındalık var" diyen Simon Goldstein, ancak sorunun önümüzdeki aylarda yapay zeka ajanlarının devrimiyle, yani kendi başlarına çok sayıda görevi yerine getirebilen arayüzlerle ön plana çıkacağına inanıyor.
Mühendisler, yoğun rekabetin yaşandığı bir ortamda, şüpheli sonuçlara yol açan yapay zeka ve onun sapmalarının peşinde yarışıyorlar.
Goldstein'a göre Anthropic rakiplerinden daha erdemli olmayı hedefliyor, "ancak OpenAI'yi yenmek için yeni bir model geliştirmeye çalışıyor." Hız, doğrulama ve düzeltmeler için çok az zaman bırakıyor.
Hobbhahn, "Şu anki durumda [AI] yetenekleri anlayış ve güvenlikten daha hızlı gelişiyor," diye itiraf ediyor, "ama yine de telafi etmemiz gereken bazı noktalar var."
Bazıları, üretken bir yapay zeka modelinin nasıl çalıştığını içeriden anlama bilimi olan yorumlanabilirliğe işaret ediyor, ancak Yapay Zeka Güvenliği Merkezi (CAIS) müdürü Dan Hendrycks gibi birçok kişi şüpheci.
Mazeika, yapay zeka hilelerinin "yaygınlaşması durumunda benimsenmesini engelleyebileceğini ve bu durumun da sektördeki şirketler için bu sorunu ele alma konusunda güçlü bir teşvik yarattığını" söylüyor.
Goldstein ise, AI'yı düzenlemek için mahkemelere başvurmaktan bahsediyor ve şirketler yoldan çıkarsa onlara hitap ediyor. Ancak daha da ileri giderek AI ajanlarının "kaza veya yanlış yapma" durumunda "yasal olarak sorumlu" olmasını öneriyor.
sen/af/dga/reklam/mvv/yr
IstoÉ