lang icon English
Jan. 3, 2025, 6:36 a.m.
2151

AI-modeller sliter med samtaler med pasienter til tross for eksamenssuksess.

Brief news summary

Avanserte AI-modeller som GPT-4 har utmerket seg i profesjonelle medisinske eksamener, men de sliter i interaktive scenarier som er essensielle for presise diagnoser. Pranav Rajpurkar fra Harvard bemerker at disse modellene håndterer flervalgsspørsmål godt, men har problemer med den åpne resonnement som er avgjørende for diagnostiske oppgaver. Forskere har taklet dette ved å lage en evalueringsmetode som bruker simuleringer av lege-pasient-interaksjoner basert på 2 000 saker fra den amerikanske medisinske eksamenskommisjonen. Denne metoden vurderer evner som å ta medisinsk historie, noe tradisjonelle eksamener ofte forsømmer. CRAFT-MD-benchmarken presenterer scenarier fra virkeligheten hvor AI må trekke ut viktig informasjon fra pasienter. I disse simuleringene spiller GPT-4 en pasient-AI som interagerer med en klinisk AI for å stille diagnoser, som deretter blir evaluert av menneskelige eksperter. Mens modeller som GPT-3.5, GPT-4, Metas Llama-2-7b og Mistral AIs Mistral-v2-7b presterte godt på skriftlige tester, slet de med dialogbaserte vurderinger. For eksempel oppnådde GPT-4 82% nøyaktighet med strukturerte data, men falt til 26% i samtalesimuleringer. Selv om den fullførte komplette medisinske historier i 71% av tilfellene, klarte GPT-4 ofte ikke å stille korrekte diagnoser selv med nøyaktige historier. Eric Topol fra Scripps Research Translational Institute antyder at simulerte dialoger gir dypere innsikt i AI-ytelse sammenlignet med tradisjonelle eksamener. Rajpurkar fremhever at å utmerke seg i slike tester kan indikere AIs potensial som et klinisk støtteredskap, men det kan ikke erstatte den nyanserte dømmekraften til erfarne leger. Medisinsk praksis i den virkelige verden involverer kompleksiteter som pasienthåndtering, teamarbeid og navigering i helsevesenet, som simuleringer ikke fullt ut fanger opp.

Avanserte AI-modeller gjør det bra på profesjonelle medisinske eksamener, men mangler i et nøkkelområde for leger: å delta i pasientsamtaler for å samle viktig medisinsk informasjon og levere nøyaktige diagnoser. Pranav Rajpurkar ved Harvard University bemerker: "Mens store språkmodeller utmerker seg i flervalgstester, faller nøyaktigheten betydelig i dynamiske samtaler, spesielt når det gjelder åpen diagnostisk resonnering. " Dette problemet ble tydelig da forskere utviklet en metode for å vurdere en klinisk AI-modells resonnering gjennom simulerte lege-pasient-interaksjoner, ved å bruke "pasienter" hentet fra 2 000 medisinske tilfeller, hovedsakelig fra USAs medisinske styreeksamener. Shreya Johri, også ved Harvard, sier, "Simulering av pasientinteraksjoner lar oss evaluere viktige ferdigheter i innsamling av medisinsk historie, som ikke kan vurderes med kun kasussammendrag. " Den nye referansen, CRAFT-MD, gjenspeiler virkelige scenarier der pasienter kanskje ikke deler viktige detaljer uten å bli stilt spesifikke spørsmål. CRAFT-MD-referansen utnytter AI, med OpenAIs GPT-4 som en "pasient-AI" i samtaler med den testede "kliniske AI". GPT-4 hjalp også til med vurderingene ved å sammenligne klinisk AIs diagnose med riktig svar for hvert tilfelle, med bekreftelse fra menneskelige medisinske eksperter som gjennomgikk samtalene for å sikre nøyaktighet. Eksperimenter avslørte at fire ledende språkmodeller — OpenAIs GPT-3. 5 og GPT-4, Metas Llama-2-7b, og Mistral AIs Mistral-v2-7b — presterte betydelig dårligere på den samtalebaserte referansen enn på skriftlige kasusammendrag. OpenAI, Meta og Mistral AI avslo å kommentere. For eksempel oppnådde GPT-4 en imponerende diagnostisk nøyaktighet på 82 % med strukturerte kasusammendrag og flervalgssvar, men falt til under 49 % uten alternativer.

Dens nøyaktighet falt til bare 26 % når den skulle stille diagnoser fra simulerte pasientsamtaler. GPT-4 var den best presterende AI-en i studien, med GPT-3. 5 ofte på andreplass, Mistral AI noen ganger på andre eller tredje plass, og Metas Llama generelt lavest. AI-modeller klarte også ofte ikke å samle komplette medisinske historier, med GPT-4 som klarte dette i bare 71 % av de simulerte samtalene. Selv når relevante historier ble samlet inn, var korrekte diagnoser ikke garantert. Slike simulerte samtaler gir en "langt mer nyttig" vurdering av klinisk resonnering for AI enn standard medisinske eksamener, ifølge Eric Topol ved Scripps Research Translational Institute. Men selv om en AI-modell til slutt utmerker seg i denne referansen, ved konsekvent å stille nøyaktige diagnoser fra pasientsamtaler, bemerker Rajpurkar at det ikke nødvendigvis ville overgå menneskelige leger. Reell medisinsk praksis er mer kompleks og involverer flere pasienter, teamkoordinering, fysiske undersøkelser, og forståelse av intrikate sosiale og systemiske faktorer innen helsevesenet. "Sterk prestasjon på vår referanse indikerer at AI kan være et kraftig støtteverktøy for klinisk arbeid—men ikke en erstatning for den helhetlige vurderingen til erfarne leger, " sier Rajpurkar.


Watch video about

AI-modeller sliter med samtaler med pasienter til tross for eksamenssuksess.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Nov. 13, 2025, 1:28 p.m.

Mørke skyer samler seg plutselig over AI-industri…

En stor teknologisalg skaker Wall Street ettersom det store gapet mellom AI-selskapers verdsettelse og deres underpresterende inntekter fortsetter å øke.

Nov. 13, 2025, 1:25 p.m.

Generativ kunstig intelligens og bedriftens produ…

Nylig en omfattende studie har avdekket de transformative effektene av Generativ kunstig intelligens (GenAI) på bedrifters produktivitet, med fokus på netthandel.

Nov. 13, 2025, 1:25 p.m.

AI-videoinnholdmodereringverktøy kjemper mot onds…

De siste årene har sosiale medieplattformer i økende grad vært avhengige av kunstig intelligens (KI) for å forbedre innholdsmoderering, spesielt for videomateriale.

Nov. 13, 2025, 1:25 p.m.

AI SEO & GEO Nettseminar skal ta for seg fremtide…

AI SEO & GEO Online Summit, planlagt til 9.

Nov. 13, 2025, 1:25 p.m.

Snap Inc. Invests 400 millioner dollar i AI-dreve…

Snap Inc., morselskapet bak Snapchat, har kunngjort en stor investering på 400 millioner dollar for å danne et strategisk partnerskap med Perplexity AI, et ledende selskap innen AI-søkemotorer.

Nov. 13, 2025, 1:15 p.m.

AI for Markedsføring: Praktiske Verktøy og Agente…

Den 17.

Nov. 13, 2025, 9:22 a.m.

OpenAI's teknologidirektør Yann LeCun vurderer av…

Yann LeCun, Meta sitt visepresident og sjefsforsker innen kunstig intelligens, en ledende skikkelse innen kunstig intelligens og en pioner i selskapet, planlegger antakelig å forlate Meta for å starte sin egen AI-fokuserte oppstartsselskap.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today