Jan. 3, 2025, 6:36 a.m.

AI modeli teško vode razgovore s pacijentima uprkos uspjehu na ispitima.

Brief news summary

Napredni AI modeli poput GPT-4 su postigli odlične rezultate na profesionalnim medicinskim ispitima, ali se bore s interaktivnim scenarijima koji su ključni za precizne dijagnoze. Pranav Rajpurkar sa Harvarda primjećuje da ovi modeli dobro rješavaju testove s višestrukim izborom, ali posustaju u otvorenom razmišljanju neophodnom za dijagnostičke zadatke. Istraživači su se uhvatili u koštac s ovim problemom kreiranjem pristupa evaluacije korištenjem simulacija interakcija doktora i pacijenata, baziranih na 2.000 slučajeva američkog medicinskog odbora. Ova metoda procjenjuje sposobnosti kao što je uzimanje anamneze, što tradicionalni ispiti često zanemaruju. CRAFT-MD mjerilo prikazuje scenarije iz stvarnog života gdje AI mora izvući vitalne informacije od pacijenata. U tim simulacijama, GPT-4 igra ulogu AI pacijenta koji komunicira s kliničkim AI-jem kako bi postavio dijagnozu, koju kasnije procjenjuju ljudski stručnjaci. Iako su modeli poput GPT-3.5, GPT-4, Meta's Llama-2-7b i Mistral AI's Mistral-v2-7b dobro prošli na pismenim testovima, imali su poteškoća s ocjenama zasnovanim na dijalogu. Na primjer, GPT-4 je ostvario tačnost od 82% s strukturiranim podacima, ali je pao na 26% u konverzacijskim simulacijama. Iako je u 71% slučajeva završio cjelokupnu anamnezu, GPT-4 često nije uspio postaviti tačne dijagnoze čak ni s tačnim anamnezama. Eric Topol iz Scripps Research Translational Institute sugeriše da simulirani dijalozi nude dublji uvid u performanse AI-a u poređenju s tradicionalnim ispitima. Rajpurkar ističe da uspjeh u mjerilima može ukazivati na potencijal AI-a kao alata za kliničku podršku, ali ne može zamijeniti nijansiranu prosudbu iskusnih doktora. Stvarni medicinski rad uključuje složenosti kao što su upravljanje pacijentima, timski rad i snalaženje u zdravstvenom sistemu, što simulacije ne mogu u potpunosti obuhvatiti.

Napredni AI modeli se dobro snalaze na profesionalnim medicinskim ispitima, ali nedostaje im ključna vještina važna za ljekare: vođenje razgovora s pacijentima kako bi prikupili vitalne medicinske informacije i postavili tačne dijagnoze. Pranav Rajpurkar sa Univerziteta Harvard ističe: "Dok veliki jezici modeli briljiraju na testovima sa višestrukim izborom, njihova tačnost znatno opada u dinamičnim razgovorima, posebno se boreći s otvorenim dijagnostičkim razmišljanjem. " Ovaj problem postao je jasan kada su istraživači osmislili metodu za procjenu rezonovanja kliničkog AI modela kroz simulirane interakcije ljekara i pacijenata, koristeći "pacijente" iz 2, 000 medicinskih slučajeva, pretežno sa američkih medicinskih ispita. Shreya Johri, takođe na Harvardu, kaže: „Simuliranje interakcija s pacijentima omogućava nam da procijenimo kritične vještine uzimanja anamneze, što se ne može procijeniti samo kroz prikaze slučajeva. “ Novi mjeritelj, CRAFT-MD, odražava stvarne situacije gdje pacijenti možda neće podijeliti ključne detalje ako nisu potaknuti specifičnim pitanjima. Benchmark CRAFT-MD koristi AI, gdje GPT-4 od OpenAI djeluje kao "pacijentski AI" u razgovorima s testiranim "kliničkim AI. " GPT-4 je također pomagao u ocjenjivanju uspoređujući dijagnozu kliničkog AI s tačnim odgovorom za svaki slučaj, dok su medicinski stručnjaci provjeravali te evaluacije i pregledavali razgovore kako bi osigurali preciznost. Eksperimenti su otkrili da su četiri vodeća jezična modela—GPT-3. 5 i GPT-4 od OpenAI, Meta-in Llama-2-7b i Mistral AI-ov Mistral-v2-7b—performirali znatno lošije na benchmarku zasnovanom na razgovorima nego na pisanim sažecima slučajeva. OpenAI, Meta, i Mistral AI su odbili da komentarišu. Na primjer, GPT-4 je postigao impresivnu tačnost dijagnoze od 82% sa strukturiranim sažecima slučajeva i odgovorima s višestrukim izborom, dok je pao ispod 49% bez opcija. Njegova tačnost pala je na samo 26% pri dijagnosticiranju iz simuliranih razgovora s pacijentima. GPT-4 je bio najuspješniji AI u studiji, dok je GPT-3. 5 često bio drugi, Mistral AI ponekad drugi ili treći, a Meta-in Llama općenito najniži. AI modeli također su često propustili prikupiti cjelokupne medicinske anamneze, pri čemu je GPT-4 to uspio postići samo u 71% simuliranih razgovora.

Čak i kada su relevantne anamneze bile prikupljene, to nije garantovalo tačne dijagnoze. Takvi simulirani razgovori pružaju "daleko korisniju" procjenu kliničkog rezonovanja AI-a nego standardni medicinski ispiti, prema Ericu Topolu iz Scripps Research Translational Institute. Međutim, čak i ako AI model na kraju briljira na ovom benchmarku, dosljedno postavljajući tačne dijagnoze iz razgovora s pacijentima, Rajpurkar napominje da ne bi nužno nadmašio ljudske ljekare. Stvarna medicinska praksa je složenija, uključujući više pacijenata, rad u timu, fizičke preglede i razumijevanje složenih socijalnih i sistemskih faktora u zdravstvenoj njezi. "Jak performans na našem benchmarku sugerira da AI može biti moćan alat podrške za klinički rad—ali ne zamjena za holističku prosudbu iskusnih ljekara, " kaže Rajpurkar.

News source

Watch video about

AI modeli teško vode razgovore s pacijentima uprkos uspjehu na ispitima.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

AI modeli teško vode razgovore s pacijentima uprkos uspjehu na ispitima.

Brief news summary

News source

Watch video about

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Hot news

C3 AI imenuje novog izvršnog direktora usred stra…

Inteligentni dizajn, neodoljivi rezultati: 5 AI a…

Da li vaše dijete gleda 'AI Slop'? Uzbudljiv novi…

ServiceNow preoblikuje CRM uz pomoć platforme pod…

5 Maleških SEO Izazova (i kako ih AI Rješava)

Nvidia-ovi AI čipseti: Pokretači sljedeće generac…

AI marketing: mogućnosti i izazovi

AI Company

Sales

Marketing

AI modeli teško vode razgovore s pacijentima uprkos uspjehu na ispitima.

Brief news summary

News source

Watch video about

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator. Let’s make a post or video and publish it on any social media — ready?

Hot news

C3 AI imenuje novog izvršnog direktora usred stra…

Inteligentni dizajn, neodoljivi rezultati: 5 AI a…

Da li vaše dijete gleda 'AI Slop'? Uzbudljiv novi…

ServiceNow preoblikuje CRM uz pomoć platforme pod…

5 Maleških SEO Izazova (i kako ih AI Rješava)

Nvidia-ovi AI čipseti: Pokretači sljedeće generac…

AI marketing: mogućnosti i izazovi

AI Company

Your News is ready

Your article is ready

Generating video takes longer than text.

Join our community of experts

Reasons why you should be part of the experts community

Welcome to Neuron Expert!

Check your email

Launch Your AI-Powered Business

AI Marketing Across All Social Media

AI Sales Manager + CRM

Support

Content Maker

Topic

Specify the topic (Optional)

Link (Optional)

Learn how to craft press releases, create unique social media posts, write SEO-optimized articles for websites, and produce videos, all from a single source

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?