ИИ чатботови се соочуваат со постојани проблеми со халуцинации што ја влијаат на нивната доверливост

Чатботовите со вештачка интелигенција од водечките технолошки компании како OpenAI и Google во последните месеци добиваат подобрувања во размислувањето со цел да се зголеми доверливоста на одговорите. Сепак, неодамнешните тестови откриваат дека некои од новите модели делуваат полошо од претходните верзии, покажувајќи појава наречена „галуцинации“ — грешки каде што чатботовите генерираат лажни информации или даваат одговори кои се фактички точни, но не релевантни или не се согласуваат со инструкциите. Овој проблем постои од почетокот на големите јазични модели (LLMs) како ChatGPT од OpenAI и Gemini од Google, и изгледа малку потенцијално да биде целосно решен. Техничкиот извештај на OpenAI покажа дека моделите o3 и o4-mini, лансирани во април, имаа значително повисоки стапки на галуцинации од постариот модел o1 од крајот на 2024 година: o3 имаше стапка од 33%, o4-mini 48%, во споредба со 16% за o1, при сумирање на јавните факти. Истовремено, листата на Vectara за следење на стапките на галуцинации откри дека некои модели за размислување — вклучително и DeepSeek-R1 — забележале значителен пораст на галуцинации во споредба со претходниците, и покрај тоа што користеле повеќазначни пристапи пред да одговорат. OpenAI тврди дека процесите на размислување не се поединечно одговорни за зголемувањето на галуцинациите и активно истражува начини за намалување на овој проблем во сите модели. Овој феномен сериозно загاربува во рамките на одредени апликации: модели кои често создаваат лажливи информации пречат во истражување и анализа; чатботови за правна помош кои цитираат не постоечки случаи ризикуваат правни грешки; кориснички сервис модели со застарени информации предизвикуваат оперативни проблеми. Изначално, компаниите за вештачка интелигенција очекуваа дека галуцинациите ќе се намалуваат со текот на времето, бидејќи првите ажурирања ги покажаа подобрувањата. Сепак, најновите повисоки нивоа на галуцинации го оштетуваат тоа очекување, без оглед на учеството на размислување. Листата на Vectara покажува дека стапките на галуцинации се приближно еднакви кај моделите со размислување и без размислување од OpenAI и Google, иако точните бројки се помалку важни од релативните рангови.
Google се воздржа од коментар. Сепак, ваквите рангирања имаат свои ограничувања. Тие ги мешаат разните типови галуцинации; на пример, 14, 3% од галуцинациите на DeepSeek-R1 главно се состоеја од “безвредни” случаи — одговори кои се логички исправни и поддржани со знаење, но недостижни од изворниот текст. Исто така, тестирања базирани само на сумирање на текст можеби не одразуваат колкава евиденција на галуцинации постои во други задачи, бидејќи LLMs не се дизајнирани специјално за сумирање. Емили Бендер од Универзитетот Вашингтон нагласува дека овие модели предвидуваат најверојатните следни зборови наместо да процесираат информации за стварно да разберат текст, што го прави поимот „галуцинација“ и да збунувачки и антропоморфен. Бендер го критикува терминат „галуцинација“ како проблематичен, бидејќи имплицира дека грешките се изолирани случајности во otherwise сигурните системи и придава човечки перцепции на АИ, што всушност не „ percepe“ во никаков смисол. Арвинд Нарајанан од Принстън додава дека моделите грешат и поради употреба на неискварени или застарени податоци, а просто додавањето на тренинг податоци или повеќе изчислителна моќ не ги решил овие проблеми. Затоа, погрешните модели на вештачка интелигенција најверојатно ќе останат во иднина. Нарајанан препорачува да се користат таквите модели само ако фактичната проверка е побрза од правење оригинално истражување, додека Бендер советува целосно да се избегнува основањето на важни информации на АИ чатботи.
Brief news summary
Напредоците во развојот на AI чатботи од компании како OpenAI и Google, кои се фокусирани на подобрување на разужувањето и точноста, парадоксално доведоа до зголемување на учестеноста на халуцинации—случаи кога моделите генерираат лажни или заблудувачки информации и недоволно ги почитуваат инструкциите. На пример, новите модели на OpenAI o3 и o4-mini имаат стапки на халуцинации од 33% односно 48%, во споредба со 16% кај постариот модел o1, а слични трендови се забележани и кај модели како DeepSeek-R1. Иако овие предизвици се присутни, OpenAI тврди дека не заслужуваат blame за reasoning компонентите и продолжува да работи на намалување на халуцинациите. Оваа проблематика е особено значајна во области како истражување, правни совети и корисничка поддршка, каде неточни информации можат да имаат сериозни последици. Евалуациите направени од Vectara откриваат минимални разлики во честотата на халуцинации меѓу моделите што користат reasoning и оние што не, но податоците се ограничени. Експертите предупредуваат дека поимот „халуцинација“ соедноставува сложени проблеми кои вклучуваат зависност од застарени или unreliable податоци. Во услови на постојани неточности, некои препорачуваат ограничување на употребата на AI чатботи на ситуации каде што проверката на информациите е полесна од независната Fact-Checking. Севкупно, халуцинациите остануваат голем нерешен проблем во моделите на јазикот во AI.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Робин Худ развива програма базирана на блокчейн з…
Робинхуд работи на платформа базирана на блокчейн која има за цел да им овозможи на европските трговци пристап до финансиските средства на САД, според два извори запознати со ситуацијата кои разговарале со Блумберг.

OpenAI лансира o3-mini: брз, паметен и достапен м…
OpenAI го претстави o3-mini, нов модел за вештачка интелигенција за размислување, специјално дизајниран да го подобри прецизните математички пресметки, задачи во програмирање и научни решенија.

Тетер’s USDT започнува на Каја блокчейн, ги проши…
Издавачот на стабилни криптовалути Tether објави дека ќе го пушти своето родно USDT стабилкоин на Kaia блокчеинот, Layer 1 мрежа лансирана во август 2024 година.

Елтон Џон и Дуја Липа бараат заштита од вештачка …
Дуа Липа, сэр Елтон Џон, сэр Њан Маккелан, Флоренс Уелч и повеќе од 400 други британски музичари, писатели и уметници ги повикаа премиерот Сэр Кир Стармер да обнови закони за авторските права за да ја заштитат креаторите од злоупотреба на нивната работа од страна на вештачката интелигенција (ВИ).

Ролјата на блокчејн технологијата во иницијативит…
Блокчейн технологијата сè повеќе се препознава како моќен алат за напредување на финансиската инклузија на глобално ниво, особено за неповрзани и недоволно услужувани популации кои немаат пристап до традиционалните банкарски услуги.

Блокчейн во здравството: Обезбедување на податоци…
Индустријата на здравствената заштита се трансформира со голем чекор напред при примената на технологијата блокчейн за подобрување на безбедноста и управувањето со здравствените записи на пациентите.

Папата Лео XIV ги изложува своите визии и ја иден…
ВАТИКАНСКИ ГРАД (АП) — Во сабота, папата Лео XIV ги презентира визијата за неговото апостолско служење, нагласувајќи ги вештачката интелигенција (ВИ) како клучен предизвик со кој се соочува човештвото и ветувајќи дека ќе продолжи со клучните приоритети поставени од папата Фрањо.