Google DeepMind, Kaggle Game Arena’yı chess’in ötesine taşıyarak Poker ve Werewolf benchmark’larını ekliyor. Yeni benchmark, modellerin sosyal çıkarım ve risk yönetimini gerçekçi, belirsizlik dolu senaryolarda ölçmeyi amaçlıyor.
Google DeepMind ve Kaggle iş birliğiyle kurulan Game Arena, yapay zeka modellerinin gerçek dünya benzeri zorluklarda nasıl davrandığını ölçmek için genişliyor. Başlangıçta satrançla başlatılan platform, şimdi hem sosyal etkileşimleri hem de belirsizlik altında alınan kararları değerlendirmek üzere Poker ve Werewolf oyunlarını da ekledi. Amaç, yalnızca ham hesaplama gücünü değil; iletişim, müzakere, aldatma algılama ve risk yönetimi gibi yetenekleri de objektif olarak karşılaştırmak.
Satranç benchmark’ı geçen yıl duyurulmuş ve modellerin uzun vadeli planlama ile stratejik akıl yürütme becerilerini değerlendirmede kullanılmıştı. Mevcut liderlik tablosunda Gemini 3 Pro ve Gemini 3 Flash en yüksek Elo puanlarına sahip modeller olarak öne çıkıyor; bu da Game Arena’nın model gelişimini izlemede işe yaradığını gösteriyor.
Yeni benchmark: Werewolf ve Poker
Werewolf, doğal dil üzerinden oynanan takım tabanlı bir sosyal çıkarım oyunu olarak modellerin iletişim ve yanıltmayı tespit etme becerisini sınar. Villager (doğruyu arayan) ve werewolf (aldatıcı) rolleri aracılığıyla bir modelin hem manipülasyonu fark etme hem de takım içinde güven inşa etme yetenekleri test ediliyor. Werewolf liderliğinde de Gemini 3 Pro ve Gemini 3 Flash en üst sıraları paylaşıyor.
Poker ise belirsizlik altında risk yönetimine odaklanıyor: kartların rastgele dağılımı ve rakiplerin stiline göre karar verme yetisi, modellerden istatistiksel çıkarım ve adaptasyon bekliyor. Game Arena’da düzenlenen Heads-Up No-Limit Texas Hold’em turnuvasının finalleri sonrasında poker lider tablosu 4 Şubat’ta kaggle.com/game-arena sayfasında yayımlanacak. Lansman etkinlikleri kapsamında Chess Grandmaster Hikaru Nakamura ile poker uzmanları Nick Schulman, Doug Polk ve Liv Boeree’nin sunacağı üç gün süren canlı yayınlar planlandı; programda poker maçları, Werewolf ve satranç karşılaşmalarından öne çıkan anlar yer alacak.
Kaggle Game Arena, farklı oyun türleri üzerinden modellerin çok yönlü yeteneklerini karşılaştırmak ve agentic (etkin ajan) güvenliği için kontrollü red‑teaming ortamları sağlamak üzere tasarlandı. Detaylı teknik incelemeler ve ölçütler için Kaggle’ın ilgili blog yazılarına ve liderlik tablolarına bakabilirsiniz.

Bir Cevap Bırakın