lang icon En
Jan. 3, 2025, 6:36 a.m.
2429

Modele AI mają trudności z rozmowami z pacjentami mimo sukcesów na egzaminach.

Brief news summary

Zaawansowane modele AI, takie jak GPT-4, doskonale radzą sobie na profesjonalnych egzaminach medycznych, ale mają trudności w interaktywnych scenariuszach, które są kluczowe dla precyzyjnych diagnoz. Pranav Rajpurkar z Harvardu zauważa, że te modele dobrze radzą sobie z pytaniami wielokrotnego wyboru, ale zawodzą w otwartym rozumowaniu, które jest istotne dla zadań diagnostycznych. Naukowcy zmierzyli się z tym problemem, tworząc metodę oceny wykorzystującą symulacje interakcji lekarz-pacjent oparte na 2,000 przypadków medycznych z amerykańskich komisji lekarskich. Ta metoda ocenia umiejętności takie jak zbieranie wywiadu medycznego, co tradycyjne egzaminy często pomijają. Benchmark CRAFT-MD przedstawia scenariusze z życia wzięte, w których AI musi wyciągnąć kluczowe informacje od pacjentów. W tych symulacjach GPT-4 odgrywa rolę pacjenta, który wchodzi w interakcję z kliniczną AI w celu postawienia diagnozy, później ocenianej przez ekspertów. Chociaż modele takie jak GPT-3.5, GPT-4, Llama-2-7b od firmy Meta i Mistral-v2-7b od Mistral AI dobrze wypadały na testach pisemnych, miały trudności z oceną opartą na dialogu. Na przykład GPT-4 osiągnął dokładność 82% przy uporządkowanych danych, ale wynik ten spadał do 26% w symulacjach konwersacyjnych. Mimo że w 71% przypadków udało się uzyskać pełny wywiad medyczny, GPT-4 często nie potrafił postawić prawidłowej diagnozy, nawet przy dokładnych wywiadach. Eric Topol z Scripps Research Translational Institute sugeruje, że symulowane dialogi oferują głębszy wgląd w wydajność AI w porównaniu do tradycyjnych egzaminów. Rajpurkar podkreśla, że osiągnięcie wysokich wyników w benchmarkach może wskazywać na potencjał AI jako narzędzia wspierającego klinicznie, ale nie zastąpi ono złożonego osądu doświadczonych lekarzy. Rzeczywista praktyka medyczna obejmuje złożoności takie jak zarządzanie pacjentami, praca zespołowa i poruszanie się po systemie opieki zdrowotnej, czego symulacje nie oddają w pełni.

Zaawansowane modele AI radzą sobie dobrze na profesjonalnych egzaminach medycznych, ale mają braki w kluczowym obszarze dla lekarzy: prowadzeniu rozmów z pacjentami w celu zebrania istotnych informacji medycznych i dostarczania dokładnych diagnoz. Pranav Rajpurkar z Uniwersytetu Harvarda zauważa: "Chociaż duże modele językowe świetnie radzą sobie z testami wielokrotnego wyboru, ich dokładność znacznie spada w dynamicznych rozmowach, zwłaszcza w przypadku otwartego rozumowania diagnostycznego. " Problem ten stał się jasny, gdy naukowcy opracowali metodę oceny umiejętności rozumowania modelu AI w medycynie poprzez symulowane interakcje lekarza z pacjentem, wykorzystując "pacjentów" z 2000 przypadków medycznych, głównie z amerykańskich egzaminów medycznych. Shreya Johri, również z Harvardu, mówi: "Symulowanie interakcji z pacjentami pozwala ocenić istotne umiejętności zbierania wywiadu medycznego, czego nie można ocenić tylko na podstawie opisów przypadków. " Nowy benchmark, CRAFT-MD, odzwierciedla rzeczywiste scenariusze, w których pacjenci mogą nie zdradzić istotnych szczegółów, o ile nie zostaną zapytani o nie konkretne pytania. Benchmark CRAFT-MD wykorzystuje AI, z GPT-4 OpenAI jako "AI pacjent" w rozmowach z testowanym "AI klinicznym". GPT-4 pomagał także w ocenie, porównując diagnozę AI z prawidłową odpowiedzią dla każdego przypadku, przy czym eksperci medyczni weryfikowali te oceny i przeglądali rozmowy, aby zapewnić dokładność. Eksperymenty wykazały, że cztery wiodące modele językowe—GPT-3. 5 i GPT-4 OpenAI, Llama-2-7b Meta i Mistral-v2-7b Mistral AI—wypadły znacznie gorzej w teście opartym na rozmowach niż na pisemnych streszczeniach przypadków. OpenAI, Meta i Mistral AI odmówili komentarza. Na przykład GPT-4 osiągnął imponującą 82% dokładność diagnostyczną przy użyciu uporządkowanych streszczeń przypadków i odpowiedzi wielokrotnego wyboru, spadając poniżej 49% bez opcji.

Jego dokładność spadła do zaledwie 26% podczas diagnozowania na podstawie symulowanych rozmów z pacjentami. GPT-4 był najlepszym modelem AI w badaniu, za nim często był GPT-3. 5, czasami Mistral AI zajmował drugie lub trzecie miejsce, a Llama Meta była na ogół najniżej. Modele AI często nie potrafiły zebrać pełnych wywiadów medycznych, a GPT-4 zrobił to w zaledwie 71% symulowanych rozmów. Nawet gdy zebrano istotne wywiady, nie gwarantowało to prawidłowych diagnoz. Takie symulowane rozmowy stanowią "znacznie bardziej użyteczną" ocenę klinicznego rozumowania AI niż standardowe egzaminy medyczne, według Erica Topola z Instytutu Badań Translacyjnych Scripps. Jednak nawet jeśli model AI ostatecznie przoduje w tym benchmarku, konsekwentnie tworząc dokładne diagnozy na podstawie rozmów z pacjentami, Rajpurkar zauważa, że niekoniecznie przewyższyłby ludzkich lekarzy. Rzeczywista praktyka medyczna jest bardziej złożona, obejmuje wielu pacjentów, koordynację zespołową, badania fizykalne i zrozumienie skomplikowanych czynników społecznych i systemowych w opiece zdrowotnej. "Dobre wyniki w naszym benchmarku sugerują, że AI może być potężnym narzędziem wspierającym pracę kliniczną—ale nie zastąpi holistycznego osądu doświadczonych lekarzy, " mówi Rajpurkar.


Watch video about

Modele AI mają trudności z rozmowami z pacjentami mimo sukcesów na egzaminach.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 25, 2025, 9:43 a.m.

Techniki kompresji wideo wspomagane przez sztuczn…

Postępy w dziedzinie sztucznej inteligencji zmieniają sposób kompresji i strumieniowania treści wideo, przynosząc znaczne poprawki jakości obrazu oraz poprawiając doświadczenia widza.

Dec. 25, 2025, 9:41 a.m.

SkillSpot uruchamia kurs "Mistrz B2B Sales z AI",…

Allen, Teksas—(Newsfile Corp.

Dec. 25, 2025, 9:32 a.m.

Nowa strategia sztucznej inteligencji Meta: model…

Meta podejmuje odważny krok w dziedzinie AI, przedstawiając dwa nowe modele generatywne nazwane od owoców.

Dec. 25, 2025, 9:30 a.m.

Rola sztucznej inteligencji w optymalizacji lokal…

Lokalna optymalizacja wyszukiwarek (SEO) stała się kluczową strategią dla firm pragnących nawiązać kontakt z klientami w najbliższej okolicy geograficznej.

Dec. 25, 2025, 9:23 a.m.

Fińska firma zajmująca się sztuczną inteligencją …

Helsińska firma Get Lost ogłosiła uruchomienie wersji alpha narzędzia BookID, opartego na sztucznej inteligencji, służącego do analizy rękopisów, mającego pomóc autorom i wydawcom lepiej pozycjonować swoje dzieła na rynku, dostarczając wglądy, które tradycyjnie były dostępne tylko dla uznanych wydawców.

Dec. 25, 2025, 9:16 a.m.

Liu Liehong: „Gdziekolwiek pojawi się 'AI+', tam …

Liu Liehong, Sekretarz Grupy Kierowniczej Partii oraz Dyrektor Krajowego Biura Danych, niedawno podkreślił kluczowe znaczenie wysokiej jakości zestawów danych w szybko rozwijającej się dziedzinie sztucznej inteligencji (SI).

Dec. 25, 2025, 5:34 a.m.

Systemy monitoringu wideo oparte na sztucznej int…

W ostatnich latach centra miejskie na całym świecie coraz częściej wdrażają systemy monitoringu wideo zasilane sztuczną inteligencją (SI), które mają na celu zwiększenie bezpieczeństwa publicznego.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today