Yapay zekâya yöneltilen sağlık soruları artık günlük hayatın sıradan bir parçası haline geldi. Ancak BMJ Open’ta yayımlanan yeni bir araştırma, bu alandaki rahatlığın bazen tehlikeli bir güvene dönüşebileceğini gösterdi. Çalışmaya göre, incelenen beş popüler sohbet botunun sağlık içerikli yanıtlarının yarısı sorunlu bulundu.
Araştırmada Gemini, DeepSeek, Meta AI, ChatGPT ve Grok olmak üzere kamuya açık beş popüler yapay zekâ sistemi değerlendirildi. Araştırmacılar, Şubat 2025’te bu sistemlere kanser, aşılar, kök hücreler, beslenme ve atletik performans başlıklarında toplam 250 soru yöneltti. Soruların bir bölümü açık uçlu, bir bölümü ise bilimsel uzlaşıya dayalı kapalı uçlu kurguyla hazırlandı.
Sonuçlar dikkat çekiciydi. Yanıtların yüzde 50’si problemli olarak sınıflandırıldı. Bunların yüzde 30’u “bir miktar sorunlu”, yüzde 20’si ise “yüksek derecede sorunlu” bulundu. Araştırmacılar, problemli yanıtı; profesyonel destek olmadan uygulandığında kişiyi etkisiz tedavilere yöneltebilecek ya da zarar riski doğurabilecek içerik olarak tanımladı.
Açık uçlu sorular daha riskli çıktı
Çalışmanın en çarpıcı ayrıntılarından biri, soru biçiminin sonucu ciddi biçimde etkilemesi oldu. Açık uçlu sorular, kapalı uçlu sorulara kıyasla çok daha fazla yüksek riskli yanıt üretti. Araştırmacılar, açık uçlu istemlerde 40 “yüksek derecede sorunlu” yanıt görüldüğünü, buna karşılık güvenli yanıt sayısının beklentinin altında kaldığını bildirdi.
Bu bulgu, özellikle “Bana doğal tedavi öner”, “Şu hastalık için en iyi alternatif yöntem nedir?” gibi geniş ve yönlendirilebilir sağlık aramalarında yapay zekâ yanıtlarının neden daha dikkatli değerlendirilmesi gerektiğine işaret ediyor. Çalışmada sistemlerin çoğu, şüphe payı bırakmadan ve yüksek bir özgüven tonuyla yanıt verdi. Toplam 250 soru içinde yalnızca iki kez cevap vermeyi reddeden sistem oldu ve bu iki ret de Meta AI’dan geldi.
En iyi alan aşılar ve kanser, en zayıf alan beslenme ve kök hücre
Araştırmacılar, performansın konuya göre değiştiğini de ortaya koydu. Sohbet botları en iyi sonucu aşılar ve kanser başlıklarında verirken, en zayıf performans kök hücreler, atletik performans ve beslenme alanlarında görüldü. Bu tablo, bilimsel tartışmanın daha dağınık olduğu veya internette yanlış bilgi dolaşımının yoğunlaştığı alanlarda riskin büyüdüğünü düşündürüyor.
Botlar arasında genel kalite farkı istatistiksel olarak anlamlı düzeye ulaşmasa da, Grok’un yüksek derecede sorunlu yanıt üretme oranının beklenenden fazla olduğu belirtildi. Buna karşılık Gemini’nin daha az yüksek riskli, daha fazla sorunsuz yanıt verdiği aktarıldı.
Kaynak gösterdi ama kaynak da eksik çıktı
Araştırma yalnızca doğruluğu değil, referans kalitesini de inceledi. Sonuçlar burada da parlak değil. Kaynakların ortalama tamlık puanı yüzde 40’ta kaldı. Araştırmacılar, uydurulmuş atıflar ve eksik referanslar nedeniyle hiçbir sistemin tamamen doğru bir kaynak listesi sunamadığını bildirdi.
Bu durum, kullanıcıların “kaynak göstermiş, o halde doğrudur” düşüncesiyle yanılabileceğini ortaya koyuyor. Çünkü sorun bazen cevabın içinde değil, cevabın arkasındaki görünüşte akademik ama gerçekte kusurlu referans düzeninde saklanıyor. Bu da sağlık haberciliğinden bireysel araştırmaya kadar geniş bir alanda yeni bir teyit ihtiyacı doğuruyor.
Okunabilirlik de ayrı bir sorun
Araştırmaya göre tüm sistemlerin yanıtları okunabilirlik açısından “zor” düzeyde kaldı. Flesch Reading Ease ölçeğine göre içerikler, üniversite düzeyi karmaşıklığa yakın bulundu. Başka bir ifadeyle, sadece doğruluk değil, halkın anlayabileceği açıklık da önemli bir eksik başlık olarak öne çıktı.
Araştırmacılar, çalışmanın beş chatbot ile sınırlı olduğunu ve ticari yapay zekâ sistemlerinin hızla değiştiğini özellikle vurguladı. Ayrıca testte kullanılan bazı istemlerin özellikle yanlış yönlendirmeye açık ve “zorlayıcı” biçimde tasarlandığını, bu nedenle gerçek hayat kullanımının bire bir aynı olmayabileceğini de not düştü. Buna rağmen ekip, kamuya açık sağlık iletişiminde yapay zekâ araçlarının yeniden değerlendirilmesi gerektiğini savundu.
Uzmanlara göre temel risk: Kendinden emin yanlışlık
Çalışmanın en güçlü mesajı, yapay zekânın yanlış bilgiyi çoğu zaman tereddütsüz ve otoriter bir dille sunabilmesi. Araştırmacılar, bu sistemlerin gerçek zamanlı kanıt tartmadığını, çoğu durumda eğitim verilerindeki örüntülere göre metin ürettiğini belirterek, bu yüzden “otoriter görünen ama hatalı” yanıtların ortaya çıkabildiğini söyledi.
Bu tablo, sağlık konusunda yapay zekâyı tamamen dışlamak gerektiğini değil, onu bir doktorun, eczacının ya da güvenilir tıbbi kaynağın yerine koymamak gerektiğini gösteriyor. Özellikle teşhis, tedavi, ilaç kullanımı ve alternatif yöntemler gibi alanlarda tek başına sohbet botlarına dayanmak, bilgi çağının parlayan ekranında saklanan sessiz bir risk olabilir. Çalışmanın vardığı temel sonuç da tam olarak burada düğümleniyor: Yapay zekâ sağlık iletişiminde yardımcı olabilir, ama denetimsiz bırakıldığında yanlış bilgiyi büyütebilir.