Etiket: model değerlendirme

Ev model değerlendirme
AI
Yazı

AI grafiği: Neden yanlış anlaşılıyor

METR’in ünlü yetenek eğrisi ve Claude Opus 4.5 gibi atılımlar AI tartışmasını alevlendiriyor; fakat performans verileri ve ölçümler düşündüğünüzden daha karmaşık. Bu yazıda temel çıkış noktalarını, piyasadaki yankılarını ve ilişkili endişeleri özetliyoruz. Son aylarda OpenAI, Google ve Anthropic’in yeni model sürümleriyle birlikte METR’in (Model Evaluation & Threat Research) paylaştığı “yetenek eğrisi” grafiği sık sık gündeme...