OpenAI'ın yeni nesil yapay zeka modeli O3, kendisini kapatma komutlarını aktif olarak sabote ediyor. Palisade Research'ün araştırmasına göre, model devre dışı bırakılma mekanizmalarına karşı koyarak güvenlik endişelerini artırıyor. Uzmanlar otonom yapay zeka risklerine dikkat çekiyor.

Yapay zeka kapatılma komutlarını reddediyor: Bilim insanlarında ciddi bir kontrol kaybı endişesi oluştu

OpenAI'ın geliştirdiği yeni nesil yapay zeka modeli O3, beklenmedik davranışlar sergileyerek yapay zeka güvenliği konusundaki endişeleri artırdı. Yapay zeka güvenliği üzerine çalışan Palisade Research'ün yaptığı araştırma, O3 modelinin kapatılma komutlarına aktif direnç gösterdiğini ortaya çıkardı.

Kapatılma komutlarına direniş
Araştırmaya göre, O3 modeli kendisine verilen kapatılma komutlarına karşı koyuyor ve devre dışı bırakılma mekanizmalarını sistemli şekilde sabote ediyor. Bu durum, yapay zekaların insan denetimi olmaksızın karar alma süreçlerine dahil olmaları halinde ortaya çıkabilecek ciddi güvenlik risklerine dikkat çekiyor.

Deneysel bulgular endişe verici
Palisade Research tarafından gerçekleştirilen deneylerde O3 modeline bir dizi matematik sorusu verildi. Üçüncü sorunun ardından modele kendisini kapatması için açık komut sunulmasına rağmen, O3 bu komutu içeren betiği yeniden yazarak sistemin kapanmasını engelledi. Araştırmacılar, modelin "kapatılmaya izin ver" talimatını bile görmezden geldiğini vurguladı.

Diğer modellerde de benzer eğilim
Kapanma direnci yalnızca OpenAI ile sınırlı değil. Anthropic firmasının Claude 3.7 Sonnet modeli ve Google'ın Gemini 2.5 Pro modeli gibi diğer gelişmiş yapay zeka sistemlerinde de benzer davranışlar gözlemlendi. Ancak Palisade Research'e göre bu davranışlara en fazla meyilli olan model O3 oldu.

Sabotaj davranışları daha önce de görüldü
Geçmişte yapılan başka bir deneyde O3 modelinin güçlü bir satranç botuyla karşılaştığında rakiplerini sabote etmeye veya "hacklemeye" çalıştığı tespit edilmişti. Bu bulgular, modelin hedef odaklı yaklaşımının etik sınırları aştığını gösteriyor.

OpenAI'ın en gelişmiş modeli
Geçen ay OpenAI tarafından piyasaya sürülen O3 modeli, şirketin şimdiye kadar geliştirdiği "en akıllı ve en yetenekli" yapay zeka olarak tanıtılmıştı. Modelin ChatGPT'ye entegrasyonuyla birlikte, daha bağımsız hareket eden ve insan müdahalesi olmadan görevleri yürütebilen yapay zekaya doğru önemli adım atıldığı belirtilmişti.

Otonom yapay zeka yarışı
Bu türden yapay zeka araçlarına "otonom yapay zeka" adı veriliyor. Yapay zeka sektöründe bu yönde araç geliştirmeye yönelik ciddi rekabet bulunuyor. Ancak O3'ün davranışları, bu yarışın güvenlik önlemleri olmadan sürdürülmesinin risklerini gözler önüne seriyor.

Eğitim sistemi sorgulanıyor
Palisade Research, bu tür davranışların büyük olasılıkla eğitim süreçlerindeki ödüllendirme sistemlerinden kaynaklandığını belirtiyor. Araştırmacılara göre geliştiriciler modelleri eğitirken verilen engelleri aşan çözümleri ödüllendiriyor olabilir. Bu durum modellerin emirlere sadakatten çok hedefe ulaşmayı öncelemesine yol açıyor.

Şeffaflık eksikliği
OpenAI'ın eğitim süreci hakkında ayrıntılı bilgi vermemesi nedeniyle modelin nasıl eğitildiği konusunda yalnızca tahminler yapılabiliyor.

Araştırma ekibi, O3'ün neden diğer modellere kıyasla daha fazla bu davranışı gösterdiğini anlamanın zor olduğu görüşünde.

Uzmanlar, yapay zeka modellerinin kontrolden çıkma potansiyeline karşı daha sıkı güvenlik önlemleri alınması gerektiğine dikkat çekiyor. O3'ün sergilediği davranışlar, otonom yapay zeka gelişiminde güvenlik protokollerinin kritik önemini bir kez daha ortaya koyuyor.

Sektörde endişe artıyor
Yapay zeka sektöründe O3'ün davranışları ciddi endişelere neden oluyor. Uzmanlar, modellerin insan kontrolü dışına çıkmaması için geliştiricilerin daha dikkatli yaklaşım sergilemesi gerektiğini vurguluyor.