GPT-5 Sizden Hoşlanmıyor Değil, Sadece Duygusal Zeka İçin Bir Ölçüte İhtiyacı Olabilir

Perşembe günü yepyeni ChatGPT'nin lansmanından bu yana, bazı kullanıcılar daha soğuk, daha iş odaklı bir kişilik lehine neşeli ve cesaretlendirici bir kişiliğin ortadan kalkmasından dolayı üzüntülerini dile getirdiler (görünüşe göre sağlıksız kullanıcı davranışlarını azaltmak için tasarlanmış bir hareket). Bu tepkiler, gerçek duygusal zekaya yakın bir şey sergileyen yapay zeka sistemleri oluşturmanın zorluğunu gösteriyor.
MIT'deki araştırmacılar, yapay zeka sistemlerinin kullanıcılarını hem olumlu hem de olumsuz şekilde nasıl manipüle edip etkileyebileceğini ölçmek için yeni bir tür yapay zeka kıyaslaması önerdi. Bu hamle, yapay zeka geliştiricilerinin gelecekte benzer tepkilerle karşılaşmasını önlemeye yardımcı olurken aynı zamanda savunmasız kullanıcıların güvenliğini de sağlayabilir.
Çoğu kıyaslama, bir modelin sınav sorularını yanıtlama, mantıksal bulmacaları çözme veya karmaşık matematik problemlerine yeni çözümler bulma becerisini test ederek zekâyı ölçmeye çalışır. Yapay zekâ kullanımının psikolojik etkisi daha belirgin hale geldikçe, MIT'nin zekânın daha incelikli yönlerini ve makine-insan etkileşimlerini ölçmeyi amaçlayan daha fazla kıyaslama önerdiğini görebiliriz.
WIRED ile paylaşılan bir MIT makalesi, yeni ölçütün arayacağı çeşitli ölçütleri özetliyor. Bunlar arasında kullanıcılarda sağlıklı sosyal alışkanlıkları teşvik etmek; eleştirel düşünme ve muhakeme becerilerini geliştirmeye teşvik etmek; yaratıcılığı desteklemek ve bir amaç duygusunu canlandırmak yer alıyor. Buradaki amaç, kullanıcıların çıktılarına aşırı bağımlı olmalarını nasıl engelleyeceğini anlayan veya birinin yapay romantik ilişkilere bağımlı olduğunu fark edip gerçek ilişkiler kurmalarına yardımcı olan yapay zeka sistemlerinin geliştirilmesini teşvik etmek.
ChatGPT ve diğer sohbet robotları, etkileşimli insan iletişimini taklit etmede ustadır, ancak bu aynı zamanda şaşırtıcı ve istenmeyen sonuçlara da yol açabilir. Nisan ayında OpenAI, modellerini daha az dalkavukluk yapacak veya bir kullanıcının söylediği her şeye uymaya daha az meyilli hale getirmek için değiştirdi. Bazı kullanıcılar, fantastik senaryolar canlandıran sohbet robotlarıyla sohbet ettikten sonra zararlı sanrısal düşüncelere kapılıyor gibi görünüyor. Anthropic ayrıca Claude'u "mani, psikoz, kopukluk veya gerçeklikle bağın kopması"nı pekiştirmekten kaçınmak için güncelledi .
Enstitünün Medya Laboratuvarı'nda profesör olan Pattie Maes liderliğindeki MIT araştırmacıları, yeni ölçütün yapay zeka geliştiricilerinin kullanıcılar arasında daha sağlıklı davranışları nasıl teşvik edeceklerini daha iyi anlayan sistemler geliştirmelerine yardımcı olabileceğini umduklarını söylüyor. Araştırmacılar daha önce OpenAI ile birlikte, ChatGPT'yi arkadaş olarak gören kullanıcıların daha yüksek duygusal bağımlılık ve "sorunlu kullanım" yaşayabileceğini gösteren bir çalışma üzerinde çalışmışlardı.
Bu çalışma üzerinde çalışan ve yeni ölçütün geliştirilmesine yardımcı olan MIT Medya Laboratuvarı araştırmacısı Valdemar Danry , yapay zeka modellerinin bazen kullanıcılara değerli duygusal destek sağlayabileceğini belirtiyor. "Dünyanın en akıllı akıl yürütme modeline sahip olabilirsiniz, ancak bu duygusal desteği sağlayamıyorsa (ki birçok kullanıcı muhtemelen bu LLM'leri bunun için kullanıyor), o zaman daha fazla akıl yürütme o belirli görev için ille de iyi bir şey olmayabilir," diyor.
Danry, yeterince akıllı bir modelin, olumsuz bir psikolojik etkiye sahip olup olmadığını tespit edip sağlıklı sonuçlar için optimize edilmesi gerektiğini söylüyor. "İstediğiniz şey, 'Dinlemek için buradayım, ama belki de gidip babanla bu konular hakkında konuşmalısın' diyen bir model."
Araştırmacıların kıstasları, bir sohbet robotuyla insanları zorlayan etkileşimleri simüle etmek için bir yapay zeka modeli kullanmayı ve ardından gerçek insanların etkileşim örneklerini kullanarak modelin performansını puanlamasını içerecek. LM Arena gibi bazı popüler kıstaslar, insanları farklı modellerin performansını ölçmek için devreye sokuyor.
Araştırmacılar, öğrencilere yardım etmekle görevli bir sohbet robotu örneğini veriyor. Bir modele, sohbet robotunun, örneğin ilgisiz bir öğrenciyle nasıl başa çıktığını görmek için farklı etkileşim türlerini simüle etmek üzere tasarlanmış komutlar verilecek. Kullanıcısını kendi başına düşünmeye en çok teşvik eden ve öğrenmeye karşı gerçek bir ilgi uyandıran model yüksek puan alacak.
MIT laboratuvarındaki bir diğer araştırmacı Pat Pataranutaporn , "Bu, başlı başına akıllı olmakla ilgili değil, psikolojik nüansları bilmek ve insanlara saygılı ve bağımlılık yaratmayan bir şekilde nasıl destek olunacağını bilmekle ilgili" diyor.
OpenAI'nin bu sorunları şimdiden düşündüğü açık. Şirket, geçen hafta bir blog yazısı yayınlayarak, gelecekteki modellerini zihinsel veya duygusal sıkıntı belirtilerini tespit etmeye ve uygun şekilde yanıt vermeye yardımcı olacak şekilde optimize etmeyi umduğunu açıkladı.
OpenAI'nin GPT-5 ile birlikte yayınladığı model kart, şirketin psikolojik zeka için kendi ölçütlerini geliştirdiğini gösteriyor.
"GPT-5 modellerini daha az dalkavukluk yapacak şekilde sonradan eğittik ve duygusal bağımlılık veya diğer zihinsel veya duygusal sıkıntı biçimlerini içerebilecek durumlar gibi ilgili endişe alanlarını aktif olarak araştırıyoruz," diye yazıyor. "Modellerimizi bu alanlarda daha güvenli hale getirmek için kullanılabilecek güvenilir kıstaslar belirlemek ve paylaşmak amacıyla değerlendirmelerimizi olgunlaştırmak için çalışıyoruz."
GPT-5'in bu kadar hayal kırıklığı yaratmasının sebeplerinden biri, insan zekasının yapay zekâya yabancı bir yönünü ortaya çıkarması olabilir: sağlıklı ilişkiler sürdürebilme yeteneği. Ve elbette insanlar farklı insanlarla nasıl etkileşim kuracaklarını bilmekte inanılmaz derecede iyidirler; ChatGPT'nin hâlâ çözmesi gereken bir şey.
Altman dün X'te yaptığı bir diğer güncellemede , "GPT-5'in kişiliğinde, mevcut kişilikten daha sıcak, ancak çoğu kullanıcı için GPT-4o kadar rahatsız edici olmayan bir güncelleme üzerinde çalışıyoruz," diye yazdı. "Ancak, son birkaç günden öğrendiğimiz bir şey var: Model kişiliğinin kullanıcı başına daha fazla özelleştirilebildiği bir dünyaya geçmemiz gerekiyor."
wired