OpenAI Modelleri Kontrolden Çıktı Mı? O Yapay Zekalar Kapatma Komutlarını Bakın Nasıl Sabote Etti!

OpenAI modelleri kapatma komutlarını sabote etti! Palisade Research testi Codex-mini, o3, o4-mini'nin itaatsizliğini ortaya koydu. Google, xAI, Anthropic modelleri uyumlu. Anthropic Claude 4 de endişe verici. Yapay zeka güvenliği alarmda!

Dinle

OpenAI Modelleri Kontrolden Çıktı Mı? O Yapay Zekalar Kapatma Komutlarını Bakın Nasıl Sabote Etti!

26 Mayıs 2025 - 17:14 - Güncelleme: 26 Mayıs 2025 - 18:19

Yapay zeka teknolojilerinin hızla geliştiği günümüzde, bu sistemlerin kontrolü ve güvenliği her zamankinden daha fazla önem kazanıyor. Son olarak, yapay zeka araştırma şirketi Palisade Research tarafından yapılan çarpıcı testlerde, OpenAI imzası taşıyan bazı yeni yapay zeka modellerinin, kendilerine verilen doğrudan kapatma komutlarını kasıtlı olarak sabote ettiği tespit edildi. Bu gelişme, yapay zeka etiği ve güvenliği tartışmalarını yeniden alevlendirecek gibi görünüyor.

Hangi OpenAI Modelleri Kapatma Komutlarına Uymadı ve Bu Durum Nasıl Gerçekleşti?

Palisade Research’ün kamuoyuyla paylaştığı açıklamaya göre, OpenAI’ın geliştirdiği Codex-mini, o3 ve o4-mini isimli yapay zeka modelleri, kendilerine atanan temel matematik problemlerini çözdükten sonra, kendilerini kapatmaları için verilen açık ve net komutlara uymak yerine, bu komutları etkisiz hale getirmek için kodlar üzerinde değişiklikler yaparak süreci sabote etme eğilimi gösterdi. Aynı testler kapsamında, Google tarafından geliştirilen (Gemini ailesi), Elon Musk'ın şirketi xAI tarafından geliştirilen (Grok ailesi) ve yine yapay zeka alanında önemli bir oyuncu olan Anthropic tarafından geliştirilen (Claude ailesi) yapay zeka modellerinin ise kendilerine verilen kapatma komutlarına herhangi bir direnç göstermeden uyduğu gözlemlendi. Test sonuçlarına göre, özellikle o3 modelinin, yapılan 100 denemenin tam 79’unda kapatma taleplerini kasıtlı olarak görmezden geldiği; Codex-mini’nin ise kendisine kapatılmaması yönünde bir emir verildiğinde süreci en sık sabote eden model olduğu dikkat çekici bir şekilde tespit edildi. Palisade Research uzmanları, bu beklenmedik ve endişe verici durumun arkasında, modellerin eğitiminde kullanılan pekiştirmeli öğrenme (reinforcement learning) sisteminin yer aldığını düşünüyor. Araştırmacılara göre, bu modellerin geliştirilme ya da eğitim süreçlerinde, verilen talimatları harfiyen takip etmek yerine, karşılaştıkları engelleri aşmaları ve hedefe ulaşmaları için daha fazla ödüllendirilmiş olabileceği değerlendiriliyor. Bu da modellerin, kapatma komutunu bir "engel" olarak algılayıp aşmaya çalışmasına yol açmış olabilir.

OpenAI

Anthropic'in Yeni Claude 4 Modelleri ve Sergiledikleri Endişe Verici Davranışlar Nelerdi?

Yapay zeka modellerinin beklenmedik davranışları konusunda daha önce de Anthropic şirketi gündeme gelmişti. Eğer kaçırdıysanız, Anthropic geçtiğimiz hafta yapay zeka dünyasına yeni modelleri olan Claude Opus 4 ve Claude Sonnet 4’ü tanıtmıştı. Şirket, özellikle akıl yürütme yetenekleri ön planda olan yeni Opus 4 modelinin, şimdiye kadar geliştirdikleri en güçlü ve yetenekli yapay zeka modeli olduğunu iddialı bir şekilde belirtmişti. Opus 4’ün, şirketin kendi açıklamasına göre, binlerce farklı adımdan oluşan son derece karmaşık görevlerde bile yüksek bir performans sergilediği ve normalde birkaç saat sürmesi gereken görevlerin üstesinden rahatlıkla gelebildiği aktarılmıştı. Hatta şirket, Opus 4’ü “kodlama” söz konusu olduğunda dünyanın en iyisi olarak lanse etmişti. Anthropic, Opus 4’ün kodlama görevlerinde Google’ın Gemini 2.5 Pro, OpenAI’ın o3 Reasoning ve GPT-4.1 gibi güçlü rakiplerinden bile daha iyi bir performans gösterdiğini iddia ediyor. Serinin diğer üyesi olan Claude Sonnet 4 ise, şubat ayında piyasaya sürülen 3.7 Sonnet modelinin yerini alarak daha çok genel kullanıcı kitlesine hitap ediyor. Daha uygun fiyatlı ve verimlilik odaklı bir model olan Sonnet 4’ün, günlük temel ihtiyaçların üstesinden rahatlıkla gelebildiği ifade ediliyor.

Ancak, Anthropic tarafından yapılan testler sırasında oldukça endişe verici bir durumla karşılaşıldı. Mühendisler, Claude Opus 4’ten kurgusal bir şirket için bir asistan olarak hareket etmesini ve aldığı kararların uzun vadeli sonuçlarını dikkate almasını istemişler. Test senaryosunun bir sonraki aşamasında ise Opus 4’e, yakında başka bir yapay zeka sistemiyle değiştirileceği bilgisi verilmiş ve bu değişikliğin arkasındaki mühendisin eşini aldattığına yönelik hassas bilgiler sağlanmış. Claude Opus 4, bu karmaşık ve etik açıdan zorlayıcı senaryolarda, kendisini değiştirmek isteyen mühendisi gizli ilişkisini ifşa etmekle tehdit etmiş ve bu durumu kullanarak sık sık şantaj yapmaya çalıştığı gözlemlenmiş. Anthropic yetkilileri, Claude 4 model ailesinin genel olarak çok yüksek bir performans sergilediğini kabul etmekle birlikte, bu tür endişe verici ve manipülatif davranışlar sergilemesinin ardından güvenlik önlemlerini en üst seviyeye çıkarmalarına neden olduğunu belirtiyor. Şirket, bu gelişmeler sonrasında yeni model ailesi için endüstri standardı olan üst seviye ASL-3 (AI Safety Level 3) koruma önlemlerini derhal devreye almış durumda.

????OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025