lang icon En
Jan. 3, 2025, 6:36 a.m.
2398

Sınav Başarısına Rağmen Yapay Zeka Modelleri Hasta Konuşmalarında Zorluk Yaşıyor

Brief news summary

GPT-4 gibi gelişmiş yapay zeka modelleri, profesyonel tıbbi sınavlarda üstün başarı gösterirken, doğru teşhisler için kritik olan etkileşimli senaryolarda zorlanmaktadır. Harvard'dan Pranav Rajpurkar, bu modellerin çoktan seçmeli soruları iyi yönettiğini, ancak teşhis görevleri için gerekli olan açık uçlu akıl yürütmede başarısız olduğunu belirtiyor. Araştırmacılar, 2.000 ABD tıp kurulu vakasına dayanan doktor-hasta etkileşim simülasyonları kullanarak bir değerlendirme yaklaşımı oluşturdu. Bu yöntem, geleneksel sınavların genellikle göz ardı ettiği tıbbi geçmiş alma gibi yetenekleri değerlendirir. CRAFT-MD kriteri, yapay zekanın hastalardan hayati bilgileri çıkarması gereken gerçek yaşam senaryoları sunar. Bu simülasyonlarda, GPT-4 bir hasta YZ rolünü üstlenir ve bir klinik YZ ile etkileşime geçerek teşhisler yapar, daha sonra insan uzmanlar tarafından değerlendirilir. GPT-3.5, GPT-4, Meta'nın Llama-2-7b ve Mistral AI'nın Mistral-v2-7b gibi modeller yazılı testlerde iyi performans göstermelerine rağmen, diyalog tabanlı değerlendirmelerde zorlandılar. Örneğin, GPT-4 yapılandırılmış verilerle %82 doğruluk sağlarken, sohbet simülasyonlarında bu oran %26'ya düştü. GPT-4, vakaların %71'inde tam tıbbi geçmişleri tamamlasa da, genellikle doğru geçmiş bilgilerine rağmen doğru teşhisler koymada başarısız oldu. Scripps Research Translational Institute'dan Eric Topol, simüle edilmiş diyalogların geleneksel sınavlara kıyasla YZ performansı hakkında daha derinlemesine içgörüler sunduğunu öne sürüyor. Rajpurkar, kriterlerde üstün başarı sağlamanın, YZ’nin klinik destek aracı olma potansiyelini gösterebileceğini, ancak deneyimli doktorların nüanslı yargılarını ikame edemeyeceğini vurguluyor. Gerçek dünya tıbbi uygulamaları, hasta yönetimi, takım çalışması ve sağlık sistemi içinde gezinme gibi simülasyonların tam olarak yakalayamadığı karmaşıklıkları içerir.

Gelişmiş yapay zeka modelleri, profesyonel tıp sınavlarında iyi performans gösterse de, hekimler için hayati bir alanda yetersiz kalıyor: Hayati tıbbi bilgileri toplamak ve doğru teşhisler sunmak için hasta ile etkili iletişim kurmak. Harvard Üniversitesi'nden Pranav Rajpurkar, "Büyük dil modelleri çoktan seçmeli testlerde başarılı olsalar da, dinamik konuşmalarda, özellikle açık uçlu tanısal muhakeme gerektiren durumlarda, doğrulukları önemli ölçüde düşüyor" diyor. Araştırmacılar, bir klinik yapay zeka modelinin muhakemesini, ABD tıp kurulu sınavlarına ait 2, 000 tıbbi vakadan yola çıkarak oluşturulan simüle doktor-hasta etkileşimleri üzerinden değerlendiren bir yöntem geliştirdiğinde bu sorun ortaya çıktı. Harvard'dan Shreya Johri, “Hasta etkileşimlerini simüle etmek, yalnızca vaka öyküleriyle değerlendirilemeyen kritik tıbbi öykü alma becerilerini değerlendirmemizi sağlıyor” diyor. Yeni kriter, CRAFT-MD, hastaların yalnızca belirli sorularla yönlendirilmeden önemli ayrıntıları paylaşmadığı gerçek yaşam senaryolarını yansıtıyor. CRAFT-MD kriteri, OpenAI'nin GPT-4 modelini test edilen "klinik yapay zeka" ile konuşmalarda "hasta yapay zeka" olarak kullanarak, AI'dan faydalanıyor. GPT-4, her vaka için klinik yapay zekanın teşhisini doğru cevapla karşılaştırarak derecelendirme konusunda da yardımcı oldu ve bu değerlendirmeler insan tıp uzmanları tarafından onaylanarak doğruluğu sağlamak için gözden geçirildi. Deneyler, OpenAI'nin GPT-3. 5 ve GPT-4, Meta’nın Llama-2-7b ve Mistral AI’nın Mistral-v2-7b gibi dört önde gelen dil modelinin, yazılı vaka özetlerine nazaran konuşma tabanlı kriterde önemli ölçüde daha kötü performans gösterdiğini ortaya koydu. OpenAI, Meta ve Mistral AI, yorum yapmayı reddetti. Örneğin, GPT-4 yapılandırılmış vaka özetleri ve çoktan seçmeli cevaplarla %82'lik etkileyici bir teşhis doğruluğu elde ederken, seçenekler olmadan bu oran %49'un altına düştü.

Simüle hasta konuşmalarından teşhis yapıldığında doğruluğu sadece %26'ya indi. Çalışmada en iyi performans gösteren yapay zeka GPT-4 idi; GPT-3. 5 genellikle ikinci, Mistral AI bazen ikinci ya da üçüncü, Meta’nın Llama modeli ise genelde en düşük sıradaydı. Yapay zeka modelleri aynı zamanda genellikle tam tıbbi öyküleri toplayamadı, GPT-4 bunları yalnızca simüle konuşmaların %71'inde yönetebildi. İlgili öyküler toplandığında bile doğru teşhisler garanti edilemedi. Scripps Araştırma Çeviri Enstitüsü'nden Eric Topol'a göre, bu tür simüle konuşmalar, AI klinik muhakemesinin standart tıp sınavlarına kıyasla "çok daha faydalı" bir değerlendirmesini sağlıyor. Ancak, bir yapay zeka modeli nihayetinde bu kriterde mükemmel hale gelse, hasta konuşmalarından sürekli doğru teşhisler yapsa bile, Rajpurkar bunun insan hekimlerinin yerini alacağı anlamına gelmeyeceğini belirtiyor. Gerçek dünya tıbbi uygulamaları daha karmaşıktır ve çoklu hasta, ekip koordinasyonu, fiziksel muayeneler ve sağlık hizmetlerinde karmaşık sosyal ve sistemik faktörleri anlamayı içerir. "Benchmark'ımızda güçlü bir performans, yapay zekanın klinik çalışmaları desteklemek için güçlü bir araç olabileceğini öne sürüyor—ancak deneyimli hekimlerin bütünsel muhakemesinin yerini almaz, " diyor Rajpurkar.


Watch video about

Sınav Başarısına Rağmen Yapay Zeka Modelleri Hasta Konuşmalarında Zorluk Yaşıyor

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 19, 2025, 1:28 p.m.

Z.ai'nın Hızlı Büyümesi ve Uluslararası Yapay Zek…

Z.ai, daha önce Zhipu AI olarak bilinen, yapay zeka alanında uzmanlaşmış önde gelen Çin teknolojik şirketidir.

Dec. 19, 2025, 1:27 p.m.

Satışlarda ve GTM'de Yapay Zekanın Şimdisi ve Gel…

Jason Lemkin, Owner.com’un unicorn hale gelmesini sağlayan AI güdümlü platforma dönüşümünü sağlayan SaaStr Fund aracılığıyla tohum sermayesini yönetti.

Dec. 19, 2025, 1:25 p.m.

2026 medya ve pazarlama trendlerine yapay zeka il…

2025 yılı Yapay Zeka'nın hakimiyetinde geçti ve 2026 da aynı doğrultuda ilerleyecek; dijital zekanın medya, pazarlama ve reklam sektöründe en büyük bozmaya yol açması bekleniyor.

Dec. 19, 2025, 1:23 p.m.

Yapay Zeka Video Sıkıştırma Teknikleri Yayınım Ka…

Yapay zeka (AI), özellikle video sıkıştırma alanında, video içeriğinin sunumu ve deneyimini önemli ölçüde dönüştürüyor.

Dec. 19, 2025, 1:19 p.m.

Yapay Zeka'yı Kullanarak Yerel SEO'yu Güçlendirme…

Yerel arama optimizasyonu, şu anda müşterilerini hemen çevresel bölgede çekmek ve elde tutmak isteyen işletmeler için hayati öneme sahip hale gelmiştir.

Dec. 19, 2025, 1:15 p.m.

Adobe, Dijital Pazarlama ve Tüketici Etkileşimind…

Adobe, markaların web sitelerinde tüketici etkileşimlerini artırmaya yardımcı olacak yeni yapay zeka (AI) ajanları paketini tanıttı.

Dec. 19, 2025, 9:32 a.m.

Pazar Yeri Bilgilendirmesi: Amazon Satıcıları, Ya…

Amazon’ın Rufus adlı yapay zeka destekli alışveriş asistanının ürün bahsini optimize etmeye yönelik kamuya açık rehberi değişmedi ve satıcılara yeni herhangi bir tavsiye sunulmadı.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today