AI modeli teško vode razgovore s pacijentima uprkos uspjehu na ispitima.
Brief news summary
Napredni AI modeli poput GPT-4 su postigli odlične rezultate na profesionalnim medicinskim ispitima, ali se bore s interaktivnim scenarijima koji su ključni za precizne dijagnoze. Pranav Rajpurkar sa Harvarda primjećuje da ovi modeli dobro rješavaju testove s višestrukim izborom, ali posustaju u otvorenom razmišljanju neophodnom za dijagnostičke zadatke. Istraživači su se uhvatili u koštac s ovim problemom kreiranjem pristupa evaluacije korištenjem simulacija interakcija doktora i pacijenata, baziranih na 2.000 slučajeva američkog medicinskog odbora. Ova metoda procjenjuje sposobnosti kao što je uzimanje anamneze, što tradicionalni ispiti često zanemaruju. CRAFT-MD mjerilo prikazuje scenarije iz stvarnog života gdje AI mora izvući vitalne informacije od pacijenata. U tim simulacijama, GPT-4 igra ulogu AI pacijenta koji komunicira s kliničkim AI-jem kako bi postavio dijagnozu, koju kasnije procjenjuju ljudski stručnjaci. Iako su modeli poput GPT-3.5, GPT-4, Meta's Llama-2-7b i Mistral AI's Mistral-v2-7b dobro prošli na pismenim testovima, imali su poteškoća s ocjenama zasnovanim na dijalogu. Na primjer, GPT-4 je ostvario tačnost od 82% s strukturiranim podacima, ali je pao na 26% u konverzacijskim simulacijama. Iako je u 71% slučajeva završio cjelokupnu anamnezu, GPT-4 često nije uspio postaviti tačne dijagnoze čak ni s tačnim anamnezama. Eric Topol iz Scripps Research Translational Institute sugeriše da simulirani dijalozi nude dublji uvid u performanse AI-a u poređenju s tradicionalnim ispitima. Rajpurkar ističe da uspjeh u mjerilima može ukazivati na potencijal AI-a kao alata za kliničku podršku, ali ne može zamijeniti nijansiranu prosudbu iskusnih doktora. Stvarni medicinski rad uključuje složenosti kao što su upravljanje pacijentima, timski rad i snalaženje u zdravstvenom sistemu, što simulacije ne mogu u potpunosti obuhvatiti.Napredni AI modeli se dobro snalaze na profesionalnim medicinskim ispitima, ali nedostaje im ključna vještina važna za ljekare: vođenje razgovora s pacijentima kako bi prikupili vitalne medicinske informacije i postavili tačne dijagnoze. Pranav Rajpurkar sa Univerziteta Harvard ističe: "Dok veliki jezici modeli briljiraju na testovima sa višestrukim izborom, njihova tačnost znatno opada u dinamičnim razgovorima, posebno se boreći s otvorenim dijagnostičkim razmišljanjem. " Ovaj problem postao je jasan kada su istraživači osmislili metodu za procjenu rezonovanja kliničkog AI modela kroz simulirane interakcije ljekara i pacijenata, koristeći "pacijente" iz 2, 000 medicinskih slučajeva, pretežno sa američkih medicinskih ispita. Shreya Johri, takođe na Harvardu, kaže: „Simuliranje interakcija s pacijentima omogućava nam da procijenimo kritične vještine uzimanja anamneze, što se ne može procijeniti samo kroz prikaze slučajeva. “ Novi mjeritelj, CRAFT-MD, odražava stvarne situacije gdje pacijenti možda neće podijeliti ključne detalje ako nisu potaknuti specifičnim pitanjima. Benchmark CRAFT-MD koristi AI, gdje GPT-4 od OpenAI djeluje kao "pacijentski AI" u razgovorima s testiranim "kliničkim AI. " GPT-4 je također pomagao u ocjenjivanju uspoređujući dijagnozu kliničkog AI s tačnim odgovorom za svaki slučaj, dok su medicinski stručnjaci provjeravali te evaluacije i pregledavali razgovore kako bi osigurali preciznost. Eksperimenti su otkrili da su četiri vodeća jezična modela—GPT-3. 5 i GPT-4 od OpenAI, Meta-in Llama-2-7b i Mistral AI-ov Mistral-v2-7b—performirali znatno lošije na benchmarku zasnovanom na razgovorima nego na pisanim sažecima slučajeva. OpenAI, Meta, i Mistral AI su odbili da komentarišu. Na primjer, GPT-4 je postigao impresivnu tačnost dijagnoze od 82% sa strukturiranim sažecima slučajeva i odgovorima s višestrukim izborom, dok je pao ispod 49% bez opcija. Njegova tačnost pala je na samo 26% pri dijagnosticiranju iz simuliranih razgovora s pacijentima. GPT-4 je bio najuspješniji AI u studiji, dok je GPT-3. 5 često bio drugi, Mistral AI ponekad drugi ili treći, a Meta-in Llama općenito najniži. AI modeli također su često propustili prikupiti cjelokupne medicinske anamneze, pri čemu je GPT-4 to uspio postići samo u 71% simuliranih razgovora.
Čak i kada su relevantne anamneze bile prikupljene, to nije garantovalo tačne dijagnoze. Takvi simulirani razgovori pružaju "daleko korisniju" procjenu kliničkog rezonovanja AI-a nego standardni medicinski ispiti, prema Ericu Topolu iz Scripps Research Translational Institute. Međutim, čak i ako AI model na kraju briljira na ovom benchmarku, dosljedno postavljajući tačne dijagnoze iz razgovora s pacijentima, Rajpurkar napominje da ne bi nužno nadmašio ljudske ljekare. Stvarna medicinska praksa je složenija, uključujući više pacijenata, rad u timu, fizičke preglede i razumijevanje složenih socijalnih i sistemskih faktora u zdravstvenoj njezi. "Jak performans na našem benchmarku sugerira da AI može biti moćan alat podrške za klinički rad—ali ne zamjena za holističku prosudbu iskusnih ljekara, " kaže Rajpurkar.
Watch video about
AI modeli teško vode razgovore s pacijentima uprkos uspjehu na ispitima.
Try our premium solution and start getting clients — at no cost to you