lang icon English
Jan. 3, 2025, 6:36 a.m.
2171

AI моделите се борат со разговори со пациенти и покрај успехот на испитите.

Brief news summary

Напредните модели на вештачка интелигенција како GPT-4 се истакнаа на професионалните медицински испити, но имаат проблеми во интерактивни сценарија кои се од суштинско значење за прецизни дијагнози. Пранај Ражпуркар од Харвард истакнува дека овие модели добро се справуваат со задачи со повеќекратен избор, но имаат проблеми со отвореното резонирање, кое е клучно за дијагностички задачи. Истражувачите го решија ова со создавање на евалуациски пристап користејќи симулации на интеракции лекар-пациент базирани на 2,000 случаи од медицинскиот одбор на САД. Овој метод ги оценува способностите како што е земањето на медицинска историја, што традиционалните испити често го запоставуваат. CRAFT-MD стандардот претставува реални сценарија каде што вештачката интелигенција мора да извлече важни информации од пациентите. Во овие симулации, GPT-4 игра улога на пациентска вештачка интелигенција која комуницира со клиничка вештачка интелигенција за да постави дијагнози, што потоа ги евалуираат човечки експерти. Иако модели како GPT-3.5, GPT-4, Llama-2-7b од Meta и Mistral-v2-7b од Mistral AI добро се справија на писмени тестови, тие имаа проблеми со оценувања базирани на дијалог. На пример, GPT-4 постигна 82% точност со структуирани податоци, но падна на 26% во симулации базирани на разговор. Иако во 71% од случаите заврши целосна медицинска историја, GPT-4 често не успеваше да постави точни дијагнози дури и со точни истории. Ерик Топол од Институтот за истражување на преведувачка медицина Scripps сугерира дека симулираните дијалози нудат подлабок увид во перформансите на вештачката интелигенција во споредба со традиционалните испити. Ражпуркар истакнува дека успехот во стандардите може да укаже на потенцијалот на вештачката интелигенција како клиничка поддршка, но не може да го замени суптилниот суд на искусните лекари. Реалната медицинска практика вклучува комплексности како управување со пациенти, тимска работа и навигација низ здравствениот систем, кои симулациите не ги опфаќаат целосно.

Напредните AI модели добро се справуваат на професионалните медицински испити, но недостасуваат во клучна област за лекарите: вклучување во разговори со пациентите за да соберат витални медицински информации и да дадат точни дијагнози. Пранава Рајпуркар од Универзитетот Харвард забележува: "Додека големите јазични модели успешно поминуваат на тестови со повеќекратен избор, нивната точност значително опаѓа во динамични разговори, особено во отворено дијагностичко размислување. " Овој проблем стана очигледен кога истражувачите развија метод за оценување на размислувањето на клинички AI модел преку симулирани интеракции доктор-пациент, користејќи "пациенти" од 2000 медицински случаи, претежно од испити на медицински одбори во САД. Шреја Џохри, исто така од Харвард, вели: "Симулацијата на интеракции со пациенти ни овозможува да ги оцениме критичните вештини за собирање медицинска историја, кои не можат да се оценат само со винети од случаи. " Новиот бенчмарк, CRAFT-MD, ги одразува животните ситуации каде пациентите можеби нема да ги споделат клучните детали освен ако не бидат прашани со специфични прашања. Бенчмаркот CRAFT-MD ја користи AI, со GPT-4 на OpenAI како "пациент AI" во разговорите со тестираната "клиничка AI. " GPT-4 исто така помага во оценувањето со споредување на дијагнозата на клиничкиот AI со точниот одговор за секој случај, при што медицински експерти од луѓе ги проверуваат овие оценки и ги прегледуваат разговорите за да обезбедат точност. Експериментите открија дека четири водечки јазични модели—GPT-3. 5 и GPT-4 на OpenAI, Llama-2-7b на Meta и Mistral-v2-7b на Mistral AI—значително полошо се справија на бенчмаркот заснован на разговори отколку на писмените резимеа на случаи. OpenAI, Meta и Mistral AI одбија да коментираат. На пример, GPT-4 постигна импресивна дијагностичка точност од 82% со структурирани резимеа на случаи и одговори со повеќекратен избор, паѓајќи под 49% кога немаше опции. Неговата точност падна на само 26% при дијагноза од симулирани разговори со пациенти. GPT-4 беше AI моделот со најдобри резултати во студијата, со GPT-3. 5 често на второ место, Mistral AI понекогаш на второ или трето место, а Llama на Meta генерално на најниско место. AI моделите, исто така, често не успеваа да соберат целосни медицински истории, при што GPT-4 го постигнуваше ова во само 71% од симулираните разговори.

Дури и кога се собираа релевантни истории, точните дијагнози не беа загарантирани. Таквите симулирани разговори обезбедуваат "многу покорисна" оценка на клиничкото размислување на AI отколку стандардните медицински испити, според Ерик Топол од Институтот за транслативни истражувања Scripps. Меѓутоа, дури и ако AI моделот конечно постигне одлични резултати на овој бенчмарк, постојано давајќи точни дијагнози од разговори со пациенти, Рајпуркар забележува дека тоа нема нужно да ги надмине човечките лекари. Реалната медицинска пракса е посложена, вклучувајќи повеќе пациенти, координација на тимови, физикални прегледи и разбирање на сложените социјални и системски фактори во здравството. "Силната изведба на нашиот бенчмарк сугерира дека AI би можел да биде моќна помошна алатка за клиничка работа, но не и замена за холистичкиот суд на искусни лекари", вели Рајпуркар.


Watch video about

AI моделите се борат со разговори со пациенти и покрај успехот на испитите.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Nov. 17, 2025, 9:30 a.m.

Дали BigBear.ai може да стане следната Палантир Т…

Палантир Текнолошииз (PLTR) постигна исклучителен перформанс на акциите, со раст од повеќе од 186% во последната година до 14 ноември.

Nov. 17, 2025, 9:21 a.m.

ИИ во маркетингот на социјалните мрежи: трансформ…

Вештачката интелигенција (AI) брзо ја трансформира маркетингот на социјалните мрежи воKenја, станувајќи клучен алат за маркетерите кои сакаат да ги подобрат стратегиите и да го стимулираат бизнисот.

Nov. 17, 2025, 9:20 a.m.

АИ алатки за видео конференции ги подобруваат сор…

Пејзажот на далечинскиот работен простор доживува голема промена поради интеграцијата на вештачката интелигенција (ВИ) во алатките за видео конференции.

Nov. 17, 2025, 9:17 a.m.

Лидери во маркетингот дискутираат за влијанието н…

На последниот Самит „Најмоќните жени во бизнисот“ што се одржа минатата вторник, водечки маркетинг извршни директори се собраа за да истражат променливиот пејзаж на промоција на брендови во услови на брзи технолошки напредоци.

Nov. 17, 2025, 9:17 a.m.

улогата на вештачката интелигенција во креирањето…

Создавањето содржини останува камен-темелник на успешната оптимизација за пребарувачи (SEO).

Nov. 17, 2025, 9:12 a.m.

CoreWeave собира 7,5 милијарди долари за долг за …

CoreWeave, водечка компанија за платформа на облачно преклопување која се специјализира за напредна инфраструктура за вештачка интелигенција, неодамна обезбеди импресивни 7,5 милијарди долари задолжително финансирање.

Nov. 17, 2025, 5:24 a.m.

Технолошка компанија за вештачка интелигенција тв…

Помеѓу Антропик, компанијата која ја создаде вештачката интелигенција चैтботот Клауд, тврдат дека ги идентификувале кинеските хакери поддржани од владата користејќи го нивниот алат за автоматизирани кибернапади на околу 30 глобални организации.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today