Avanserte AI-modeller gjør det bra på profesjonelle medisinske eksamener, men mangler i et nøkkelområde for leger: å delta i pasientsamtaler for å samle viktig medisinsk informasjon og levere nøyaktige diagnoser. Pranav Rajpurkar ved Harvard University bemerker: "Mens store språkmodeller utmerker seg i flervalgstester, faller nøyaktigheten betydelig i dynamiske samtaler, spesielt når det gjelder åpen diagnostisk resonnering. " Dette problemet ble tydelig da forskere utviklet en metode for å vurdere en klinisk AI-modells resonnering gjennom simulerte lege-pasient-interaksjoner, ved å bruke "pasienter" hentet fra 2 000 medisinske tilfeller, hovedsakelig fra USAs medisinske styreeksamener. Shreya Johri, også ved Harvard, sier, "Simulering av pasientinteraksjoner lar oss evaluere viktige ferdigheter i innsamling av medisinsk historie, som ikke kan vurderes med kun kasussammendrag. " Den nye referansen, CRAFT-MD, gjenspeiler virkelige scenarier der pasienter kanskje ikke deler viktige detaljer uten å bli stilt spesifikke spørsmål. CRAFT-MD-referansen utnytter AI, med OpenAIs GPT-4 som en "pasient-AI" i samtaler med den testede "kliniske AI". GPT-4 hjalp også til med vurderingene ved å sammenligne klinisk AIs diagnose med riktig svar for hvert tilfelle, med bekreftelse fra menneskelige medisinske eksperter som gjennomgikk samtalene for å sikre nøyaktighet. Eksperimenter avslørte at fire ledende språkmodeller — OpenAIs GPT-3. 5 og GPT-4, Metas Llama-2-7b, og Mistral AIs Mistral-v2-7b — presterte betydelig dårligere på den samtalebaserte referansen enn på skriftlige kasusammendrag. OpenAI, Meta og Mistral AI avslo å kommentere. For eksempel oppnådde GPT-4 en imponerende diagnostisk nøyaktighet på 82 % med strukturerte kasusammendrag og flervalgssvar, men falt til under 49 % uten alternativer.
Dens nøyaktighet falt til bare 26 % når den skulle stille diagnoser fra simulerte pasientsamtaler. GPT-4 var den best presterende AI-en i studien, med GPT-3. 5 ofte på andreplass, Mistral AI noen ganger på andre eller tredje plass, og Metas Llama generelt lavest. AI-modeller klarte også ofte ikke å samle komplette medisinske historier, med GPT-4 som klarte dette i bare 71 % av de simulerte samtalene. Selv når relevante historier ble samlet inn, var korrekte diagnoser ikke garantert. Slike simulerte samtaler gir en "langt mer nyttig" vurdering av klinisk resonnering for AI enn standard medisinske eksamener, ifølge Eric Topol ved Scripps Research Translational Institute. Men selv om en AI-modell til slutt utmerker seg i denne referansen, ved konsekvent å stille nøyaktige diagnoser fra pasientsamtaler, bemerker Rajpurkar at det ikke nødvendigvis ville overgå menneskelige leger. Reell medisinsk praksis er mer kompleks og involverer flere pasienter, teamkoordinering, fysiske undersøkelser, og forståelse av intrikate sosiale og systemiske faktorer innen helsevesenet. "Sterk prestasjon på vår referanse indikerer at AI kan være et kraftig støtteverktøy for klinisk arbeid—men ikke en erstatning for den helhetlige vurderingen til erfarne leger, " sier Rajpurkar.
AI-modeller sliter med samtaler med pasienter til tross for eksamenssuksess.
En stor teknologisalg skaker Wall Street ettersom det store gapet mellom AI-selskapers verdsettelse og deres underpresterende inntekter fortsetter å øke.
Nylig en omfattende studie har avdekket de transformative effektene av Generativ kunstig intelligens (GenAI) på bedrifters produktivitet, med fokus på netthandel.
De siste årene har sosiale medieplattformer i økende grad vært avhengige av kunstig intelligens (KI) for å forbedre innholdsmoderering, spesielt for videomateriale.
AI SEO & GEO Online Summit, planlagt til 9.
Snap Inc., morselskapet bak Snapchat, har kunngjort en stor investering på 400 millioner dollar for å danne et strategisk partnerskap med Perplexity AI, et ledende selskap innen AI-søkemotorer.
Den 17.
Yann LeCun, Meta sitt visepresident og sjefsforsker innen kunstig intelligens, en ledende skikkelse innen kunstig intelligens og en pioner i selskapet, planlegger antakelig å forlate Meta for å starte sin egen AI-fokuserte oppstartsselskap.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today