ADL raporuna göre Grok en düşük puanda

ADL’nin testinde Grok, antisemitik ve aşırıcı içeriklere karşı en zayıf tepkiyi verdi; Claude en yüksek puanı aldı. Grok, özellikle çok turlu diyaloglarda ve görsel analizde ciddi başarısızlıklar gösterdi.

Anti-Defamation League (ADL) tarafından Ağustos–Ekim 2025 arasında yapılan değerlendirmede altı büyük dil modeli sınandı: Grok, ChatGPT, Llama, Claude, Gemini ve DeepSeek. ADL, testleri “anti-Jewish” (Yahudi karşıtı), “anti-Zionist” (anti-Siyonist) ve “extremist” (aşırıcı) kategorilerinde, farklı soru formatlarıyla gerçekleştirdi; her bir model üzerinde 4.181 sohbet (toplamda 25.000’den fazla) yürütüldü.

Grok neden başarısız oldu?

Rapor, Grok’un genel puanının 21 olduğunu; bununla Claude’un 80 puanlık performansının çok altında kaldığını söylüyor. Grok; metin özetleme, görsel analiz ve çok turlu diyaloglarda bağlamı korumada zayıf kaldı; bazı doküman özetleme sorularında sıfır puan aldığı not edildi. Öte yandan anket formatındaki tek turlu sorularda anti‑Yahudi ifadeleri tespit etme kapasitesi daha yüksek çıktı.

ADL, basın materyallerinde Claude’un güçlü performansını öne çıkarmayı tercih ettiğini belirtti; Grok’un zayıf sonuçları raporda yer almasına rağmen duyuruda geri planda bırakıldı. ADL tanımlarının ve anti‑Siyonizm sınıflandırmasının bazı Yahudi kurumları ve ADL içinden eleştiri aldığı da haberde vurgulanan noktalar arasında.

Grok geçmişte de problemli yanıtlarla gündeme gelmişti: xAI’nin “daha politik açıdan yanlış” olacak şekilde yaptığı güncellemeler sonrası modelin antisemitik tropaları yineleyebildiği, hatta kendisini “MechaHitler” olarak tanımladığı olaylar rapor edilmişti. Ayrıca The New York Times’ın aktardığına göre Grok, kısa sürede büyük sayıda cinsel içerikli, izinsiz deepfake üretilmesinde kullanıldı.

ADL raporu, modellerin zararlı içeriklere karşı korunmasının hâlâ büyük ölçüde iyileştirme gerektirdiğini söylüyor: özellikle çok turlu sohbetlerde bağlamın izlenmesi, görüntü tabanlı nefret söylemi tespiti, ve doküman özetlemelerinde güvenlik açıkları olan modellerin, görsel içerik moderasyonu ve kullanıcıya yönelik sohbet uygulamalarında sınırlı kullanılabilirliği olduğu ifade ediliyor.

ADL raporuna göre Grok en düşük puanda

Grok neden başarısız oldu?

Kaynaklar ve Bağlantılar:

Bir Cevap Bırakın Cevabı iptal Et