Zaman ufku mu? METR grafiğinin gerçeği

METR’in zaman ölçütü, yapay zekanın ‘ne kadar süreliğe’ benzeyen insan görevlerini yapabildiğini gösteriyor — ama grafik yaygın biçimde yanlış okunuyor. Zaman ekseni, modelin bağımsız çalışma süresini değil, insanların o görevi tamamlamasının ortalama süresini ifade ediyor.

MIT Technology Review’ın incelediği METR (Model Evaluation & Threat Research) grafiği, bazı yorumlarda yapay zekanın yakında insanların yerini alacağı ya da insanlığın sonunun geleceği gibi çıkarımlara temel oluşturdu. Gerçekse daha nüanslı: METR’in ünlü “time horizon” (zaman ufku) grafiği, belirli tür görevlerde modellere karşı insan performansını karşılaştırıyor ve bu karşılaştırma üzerine kurulu bir gösterge sunuyor.

Zaman ufku nedir?

METR, yazılım mühendisliğiyle ilgili çok sayıda görevi topladı, bu görevleri insan uzmanlara yaptırarak her bir görevin tamamlanma süresini ölçtü ve sonra modellerin bu görevleri ne ölçüde başarıyla yerine getirdiğine baktı. Bir model için hesaplanan “zaman ufku”, o modelin test setindeki görevlerin yaklaşık %50’sini doğru tamamlayabildiği insan-süre noktasıdır — yani y eksenindeki değerler, modelin kendi çalışma süresini değil, insanlar için o görevin ne kadar sürdüğünü gösterir.

Bu ayrım sıklıkla göz ardı edildi. Örneğin METR, Anthropic’in Claude Opus 4.5 modelinin belirli koşullarda yaklaşık beş saatlik insan görevlerini tamamlayabildiğini duyurmuştu; ama aynı çalışmada hata payları genişti: Opus 4.5’in gerçekte iki saat ile 20 saat aralığında bir “zaman ufku”na sahip olabileceği açıklandı. METR’de çalışanlar ve eş-yazarlardan Thomas Kwa, grafiğin sınırlamalarını ve yanlış yorumlanmasını düzeltmeye çalışıyor; kuruluş ayrıca sorulara yanıt veren bir SSS hazırlıyor.

Grafikten çıkan eğilimler dikkat çekici: METR ekibinin analizine göre, üst düzey modellerde zaman ufukları 2020 ortalarından 2024 sonuna kadar hızlanarak artmış ve yaklaşık her yedi ayda bir iki katına çıkma paterni gözlenmiş. Yine de uzmanlar uyarıyor: METR verilerinin büyük bölümü kodlama görevlerine dayandığı için bir modelin kodlamada iyi olması, başka alanlardaki karmaşık ve “dağınık” gerçek dünya işlerini de otomatikleştireceği anlamına gelmiyor. Araştırmacılar, görevin “messiness” (karmaşıklık, belirsizlik) derecesinin modele etkisini de rapor ediyor; modeller, puanlama ve yeniden başlama gibi net kuralları olmayan karışık görevlerde daha zayıf performans sergiliyor.

Sonuç olarak METR grafiği, yapay zekadaki ilerlemeye dair nicel ve yararlı bir pencere sunuyor ama tek başına bir kehanet değil. Grafik, doğru yorumlandığında gelecekteki yeteneklerin nerede güçlü olabileceğine dair ipuçları veriyor; yanlış okunduğunda ise hem aşırı İyimser hem de aşırı Korkutucu anlatılara kaynaklık edebiliyor. METR çalışanları ve bağımsız uzmanlar, grafiğin sunduğu verilerin sınırlarını vurgulayarak, bulgulardan daha temkinli çıkarımlar yapmayı tavsiye ediyor.

Zaman ufku mu? METR grafiğinin gerçeği

Zaman ufku nedir?

Kaynaklar ve Bağlantılar:

Bir Cevap Bırakın Cevabı iptal Et