Chatbot doğruluğu gerçek vakalarda düştü

Yeni çalışma, chatbot’ların laboratuvardaki yüksek doğruluğunun gerçek kullanıcı etkileşimlerinde azaldığını gösteriyor — chatbot sonuçları, Google aramalarından bile daha başarısız çıktı.

Laboratuvar testlerinde yüksek başarı gösteren yapay zeka sohbet botları, gerçek insanların semptomları anlatarak yardım istediği durumlarda beklenenden çok daha kötü performans gösteriyor. Nature Medicine’de 9 Şubat 2026’da yayımlanan çalışmada, araştırmacılar chatbot’ların senaryo tabanlı testlerde yüksek doğruluk sunduğunu, ama gönüllüler aynı senaryoları kendi sözcükleriyle sorduğunda teşhis ve yönlendirmede belirgin bir düşüş görüldüğünü bildirdi.

Neden chatbot hataları artıyor?

Çalışmada GPT-4o, Command R+ ve Llama 3 gibi çağdaş büyük dil modelleri (LLM) laboratuvarda senaryolar verildiğinde doğru teşhisi yüksek oranlarda verebildi. Ancak yaklaşık 1.300 gönüllünün aynı durumları modelle konuşarak sorması halinde LLM’lerin tanı doğruluğu yüzde 35’in altına, uygun yönlendirmeyi verme oranı ise yaklaşık yüzde 44’e geriledi. İlginç şekilde, semptomları Google’a yazarak arama yapan kişiler chatbot kullananlara göre daha başarılı oldu.

Araştırmacılar, farkın büyük ölçüde etkileşim tarzından kaynaklandığını vurguluyor: insanlar semptomları adım adım, eksik veya dağınık biçimde aktarmaya meyilli; chatbot ise tam ve net ifadeleri bekleyerek eksik bilgiyle yanıltılabiliyor. Makalenin örneklerinden biri, “aniden en kötü baş ağrısı” ifadesini kullanan kişiye modelin acil tıbbi müdahale önerirken, “berbat baş ağrısı” diyen bir başka kişiye migren benzeri daha hafif bir öneri sunmasıdır — tek fark sözcüklerdeki küçük nüanslardır.

ECRI gibi kuruluşlar da ocak 2026 raporlarında medikal amaçla doğrudan hastaya yönelik chatbot kullanımını sağlık teknolojisi açısından bir risk olarak gösterdi. Uzmanlar, modellerin tıbbi bilgisinin sağlam olduğunu ama model–insan etkileşimindeki kırılganlığın acil sorun oluşturduğunu söylüyor. Araştırmacılar daha iyi değerlendirme yöntemleri ve model–kullanıcı arayüzü tasarımlarıyla bu boşluğun kapatılabileceğini belirtiyor.

Çalışma, yapay zekanın klinik uygulamalarda doğrudan kullanılmadan önce sadece model doğruluğunun değil, gerçek kullanıcılarla nasıl etkileşim kurduğunun da ölçülmesi gerektiğini öne sürüyor. Şimdilik uzmanların ortak görüşü, bu tür chatbot’ların tek başına hasta bakımında güvenilir bir araç olarak kullanılmaya elverişli olmadığı yönünde.

Chatbot doğruluğu gerçek vakalarda düştü

Neden chatbot hataları artıyor?

Kaynaklar ve Bağlantılar:

Bir Cevap Bırakın Cevabı iptal Et