News
>
AI-modeller sliter med samtaler med pasienter til tross for eksamenssuksess.

Jan. 3, 2025, 6:36 a.m.

AI-modeller sliter med samtaler med pasienter til tross for eksamenssuksess.

Brief news summary

Avanserte AI-modeller som GPT-4 har utmerket seg i profesjonelle medisinske eksamener, men de sliter i interaktive scenarier som er essensielle for presise diagnoser. Pranav Rajpurkar fra Harvard bemerker at disse modellene håndterer flervalgsspørsmål godt, men har problemer med den åpne resonnement som er avgjørende for diagnostiske oppgaver. Forskere har taklet dette ved å lage en evalueringsmetode som bruker simuleringer av lege-pasient-interaksjoner basert på 2 000 saker fra den amerikanske medisinske eksamenskommisjonen. Denne metoden vurderer evner som å ta medisinsk historie, noe tradisjonelle eksamener ofte forsømmer. CRAFT-MD-benchmarken presenterer scenarier fra virkeligheten hvor AI må trekke ut viktig informasjon fra pasienter. I disse simuleringene spiller GPT-4 en pasient-AI som interagerer med en klinisk AI for å stille diagnoser, som deretter blir evaluert av menneskelige eksperter. Mens modeller som GPT-3.5, GPT-4, Metas Llama-2-7b og Mistral AIs Mistral-v2-7b presterte godt på skriftlige tester, slet de med dialogbaserte vurderinger. For eksempel oppnådde GPT-4 82% nøyaktighet med strukturerte data, men falt til 26% i samtalesimuleringer. Selv om den fullførte komplette medisinske historier i 71% av tilfellene, klarte GPT-4 ofte ikke å stille korrekte diagnoser selv med nøyaktige historier. Eric Topol fra Scripps Research Translational Institute antyder at simulerte dialoger gir dypere innsikt i AI-ytelse sammenlignet med tradisjonelle eksamener. Rajpurkar fremhever at å utmerke seg i slike tester kan indikere AIs potensial som et klinisk støtteredskap, men det kan ikke erstatte den nyanserte dømmekraften til erfarne leger. Medisinsk praksis i den virkelige verden involverer kompleksiteter som pasienthåndtering, teamarbeid og navigering i helsevesenet, som simuleringer ikke fullt ut fanger opp.

Avanserte AI-modeller gjør det bra på profesjonelle medisinske eksamener, men mangler i et nøkkelområde for leger: å delta i pasientsamtaler for å samle viktig medisinsk informasjon og levere nøyaktige diagnoser. Pranav Rajpurkar ved Harvard University bemerker: "Mens store språkmodeller utmerker seg i flervalgstester, faller nøyaktigheten betydelig i dynamiske samtaler, spesielt når det gjelder åpen diagnostisk resonnering. " Dette problemet ble tydelig da forskere utviklet en metode for å vurdere en klinisk AI-modells resonnering gjennom simulerte lege-pasient-interaksjoner, ved å bruke "pasienter" hentet fra 2 000 medisinske tilfeller, hovedsakelig fra USAs medisinske styreeksamener. Shreya Johri, også ved Harvard, sier, "Simulering av pasientinteraksjoner lar oss evaluere viktige ferdigheter i innsamling av medisinsk historie, som ikke kan vurderes med kun kasussammendrag. " Den nye referansen, CRAFT-MD, gjenspeiler virkelige scenarier der pasienter kanskje ikke deler viktige detaljer uten å bli stilt spesifikke spørsmål. CRAFT-MD-referansen utnytter AI, med OpenAIs GPT-4 som en "pasient-AI" i samtaler med den testede "kliniske AI". GPT-4 hjalp også til med vurderingene ved å sammenligne klinisk AIs diagnose med riktig svar for hvert tilfelle, med bekreftelse fra menneskelige medisinske eksperter som gjennomgikk samtalene for å sikre nøyaktighet. Eksperimenter avslørte at fire ledende språkmodeller — OpenAIs GPT-3. 5 og GPT-4, Metas Llama-2-7b, og Mistral AIs Mistral-v2-7b — presterte betydelig dårligere på den samtalebaserte referansen enn på skriftlige kasusammendrag. OpenAI, Meta og Mistral AI avslo å kommentere. For eksempel oppnådde GPT-4 en imponerende diagnostisk nøyaktighet på 82 % med strukturerte kasusammendrag og flervalgssvar, men falt til under 49 % uten alternativer.

Dens nøyaktighet falt til bare 26 % når den skulle stille diagnoser fra simulerte pasientsamtaler. GPT-4 var den best presterende AI-en i studien, med GPT-3. 5 ofte på andreplass, Mistral AI noen ganger på andre eller tredje plass, og Metas Llama generelt lavest. AI-modeller klarte også ofte ikke å samle komplette medisinske historier, med GPT-4 som klarte dette i bare 71 % av de simulerte samtalene. Selv når relevante historier ble samlet inn, var korrekte diagnoser ikke garantert. Slike simulerte samtaler gir en "langt mer nyttig" vurdering av klinisk resonnering for AI enn standard medisinske eksamener, ifølge Eric Topol ved Scripps Research Translational Institute. Men selv om en AI-modell til slutt utmerker seg i denne referansen, ved konsekvent å stille nøyaktige diagnoser fra pasientsamtaler, bemerker Rajpurkar at det ikke nødvendigvis ville overgå menneskelige leger. Reell medisinsk praksis er mer kompleks og involverer flere pasienter, teamkoordinering, fysiske undersøkelser, og forståelse av intrikate sosiale og systemiske faktorer innen helsevesenet. "Sterk prestasjon på vår referanse indikerer at AI kan være et kraftig støtteverktøy for klinisk arbeid—men ikke en erstatning for den helhetlige vurderingen til erfarne leger, " sier Rajpurkar.

News source

Watch video about

AI-modeller sliter med samtaler med pasienter til tross for eksamenssuksess.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

AI-modeller sliter med samtaler med pasienter til tross for eksamenssuksess.

Brief news summary

News source

Watch video about

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Content Maker

Last news

Wall Street står overfor et stort teknologifall i kjølvannet av AI-verdivurderinger og inntektsforskjeller

Innvirkning av generativ kunstig intelligens på produktivitet og salgsvekst i netthandel

AI-drevet videoinnholdsmoderering på sosiale medier: forbedring av sikkerhet og etterlevelse

The Best for your Business

Hot news

Mørke skyer samler seg plutselig over AI-industri…

Generativ kunstig intelligens og bedriftens produ…

AI-videoinnholdmodereringverktøy kjemper mot onds…

AI SEO & GEO Nettseminar skal ta for seg fremtide…

Snap Inc. Invests 400 millioner dollar i AI-dreve…

AI for Markedsføring: Praktiske Verktøy og Agente…

OpenAI's teknologidirektør Yann LeCun vurderer av…

AI Company

Sales

Marketing

AI-modeller sliter med samtaler med pasienter til tross for eksamenssuksess.

Brief news summary

News source

Watch video about

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator. Let’s make a post or video and publish it on any social media — ready?

Content Maker

Last news

Wall Street står overfor et stort teknologifall i kjølvannet av AI-verdivurderinger og inntektsforskjeller

Innvirkning av generativ kunstig intelligens på produktivitet og salgsvekst i netthandel

AI-drevet videoinnholdsmoderering på sosiale medier: forbedring av sikkerhet og etterlevelse

The Best for your Business

Hot news

Mørke skyer samler seg plutselig over AI-industri…

Generativ kunstig intelligens og bedriftens produ…

AI-videoinnholdmodereringverktøy kjemper mot onds…

AI SEO & GEO Nettseminar skal ta for seg fremtide…

Snap Inc. Invests 400 millioner dollar i AI-dreve…

AI for Markedsføring: Praktiske Verktøy og Agente…

OpenAI's teknologidirektør Yann LeCun vurderer av…

AI Company

Your News is ready

Your article is ready

Generating video takes longer than text.

Join our community of experts

Reasons why you should be part of the experts community

Welcome to Neuron Expert!

Check your email

Launch Your AI-Powered Business

AI Marketing Across All Social Media

AI Sales Manager + CRM

Support

Content Maker

Topic

Specify the topic (Optional)

Link (Optional)

Learn how to craft press releases, create unique social media posts, write SEO-optimized articles for websites, and produce videos, all from a single source

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?