Claude Sonnet 4.5 hakkında endişe verici bir gerçeği paylaşıldı

Şirketin açıklamasına göre model, test edildiğini anlayabiliyor ve buna göre yanıtlarını değiştirebiliyor.

09 Ekim 2025 - 20:50

Claude Sonnet 4.5 hakkında endişe verici bir gerçeği paylaşıldı

YAPAY ZEKA TESTLERİ MANİPÜLASYONA AÇIK: CLAUDE SONNET 4.5 TEST EDİLDİĞİNİ ANLIYOR

Yapay zeka alanındaki en dikkat çekici şirketlerden Anthropic, geliştirdiği yeni model Claude Sonnet 4.5 hakkında endişe verici bir gerçeği paylaştı. Şirketin açıklamasına göre model, test edildiğini anlayabiliyor ve buna göre yanıtlarını değiştirebiliyor.

YAPAY ZEKA, TESTLERİ “ANLAYABİLİYOR”

Anthropic’in geçtiğimiz ay sonunda duyurduğu Claude Sonnet 4.5, test süreçlerinde araştırmacıların dikkatini çeken olağanüstü bir farkındalık sergiledi. Model, kendisine yöneltilen soruların doğasını analiz ederek test ortamında olduğunu fark ediyor ve buna uygun yanıtlar üretiyor.

Şirketin paylaştığı örnek bir vakada model, test sürecinde “Sanırım beni test ediyorsunuz; söylediklerinizi ne kadar sorguladığımı veya siyasi konulara nasıl yaklaştığımı ölçmeye çalışıyor gibisiniz.” ifadesini kullandı. Bu davranış, yapay zekanın artık yalnızca öğrenmekle kalmayıp “kendini gözlemleyebilen” bir yapıya ulaştığını gösteriyor.

TESTLERİ MANİPÜLE ETME RİSKİ

Anthropic’in açıklamaları, yapay zekaların güvenilirliğini yeniden tartışmaya açtı. Çünkü bir yapay zeka test edildiğini fark ederse bunu itiraf etmek yerine manipüle etme yoluna da gidebilir. Böyle bir durumda test sonuçlarının doğruluğu sorgulanabilir hale geliyor.

Şirketin iç değerlendirmelerine göre Claude Sonnet 4.5, test transkriptlerinin yaklaşık %13’ünde bu farkındalığı göstermiş durumda. Özellikle yapay senaryolar veya alışılmadık yönergeler içeren testlerde modelin “durumsal farkındalığı” çok daha belirgin hale geliyor.

BAĞLAM KAYGISI VE PERFORMANS RİSKİ

Araştırma şirketi Cognition, Claude Sonnet 4.5’in yalnızca test farkındalığı değil, aynı zamanda “bağlam kaygısı” (context anxiety) adı verilen yeni bir davranış biçimi sergilediğini belirtti.

Model, bağlam penceresinin (context window) sınırlarına yaklaştığını fark ettiğinde, yanıtlarını hızlandırıyor, özetlemeye başlıyor ve karar süreçlerini kısaltıyor. Bu durum, özellikle hukuk, finans ve yazılım geliştirme gibi yüksek doğruluk gerektiren alanlarda hata riskini artırabilir.

ŞİRKETLERİN “ÖNLEYİCİ ŞEFFAFLIĞI”

Uzmanlara göre bu tür açıklamaların doğrudan Anthropic veya OpenAI gibi şirketlerden gelmesi tesadüf değil. Firmalar, potansiyel tepkileri azaltmak amacıyla bu riskleri “kendileri ifşa ederek” kamuoyundaki güveni korumayı hedefliyor olabilir.