lang icon Macedonian
Auto-Filling SEO Website as a Gift

Launch Your AI-Powered Business and get clients!

No advertising investment needed—just results. AI finds, negotiates, and closes deals automatically

May 10, 2025, 5:50 p.m.
2

ИИ чатботови се соочуваат со постојани проблеми со халуцинации што ја влијаат на нивната доверливост

Чатботовите со вештачка интелигенција од водечките технолошки компании како OpenAI и Google во последните месеци добиваат подобрувања во размислувањето со цел да се зголеми доверливоста на одговорите. Сепак, неодамнешните тестови откриваат дека некои од новите модели делуваат полошо од претходните верзии, покажувајќи појава наречена „галуцинации“ — грешки каде што чатботовите генерираат лажни информации или даваат одговори кои се фактички точни, но не релевантни или не се согласуваат со инструкциите. Овој проблем постои од почетокот на големите јазични модели (LLMs) како ChatGPT од OpenAI и Gemini од Google, и изгледа малку потенцијално да биде целосно решен. Техничкиот извештај на OpenAI покажа дека моделите o3 и o4-mini, лансирани во април, имаа значително повисоки стапки на галуцинации од постариот модел o1 од крајот на 2024 година: o3 имаше стапка од 33%, o4-mini 48%, во споредба со 16% за o1, при сумирање на јавните факти. Истовремено, листата на Vectara за следење на стапките на галуцинации откри дека некои модели за размислување — вклучително и DeepSeek-R1 — забележале значителен пораст на галуцинации во споредба со претходниците, и покрај тоа што користеле повеќазначни пристапи пред да одговорат. OpenAI тврди дека процесите на размислување не се поединечно одговорни за зголемувањето на галуцинациите и активно истражува начини за намалување на овој проблем во сите модели. Овој феномен сериозно загاربува во рамките на одредени апликации: модели кои често создаваат лажливи информации пречат во истражување и анализа; чатботови за правна помош кои цитираат не постоечки случаи ризикуваат правни грешки; кориснички сервис модели со застарени информации предизвикуваат оперативни проблеми. Изначално, компаниите за вештачка интелигенција очекуваа дека галуцинациите ќе се намалуваат со текот на времето, бидејќи првите ажурирања ги покажаа подобрувањата. Сепак, најновите повисоки нивоа на галуцинации го оштетуваат тоа очекување, без оглед на учеството на размислување. Листата на Vectara покажува дека стапките на галуцинации се приближно еднакви кај моделите со размислување и без размислување од OpenAI и Google, иако точните бројки се помалку важни од релативните рангови.

Google се воздржа од коментар. Сепак, ваквите рангирања имаат свои ограничувања. Тие ги мешаат разните типови галуцинации; на пример, 14, 3% од галуцинациите на DeepSeek-R1 главно се состоеја од “безвредни” случаи — одговори кои се логички исправни и поддржани со знаење, но недостижни од изворниот текст. Исто така, тестирања базирани само на сумирање на текст можеби не одразуваат колкава евиденција на галуцинации постои во други задачи, бидејќи LLMs не се дизајнирани специјално за сумирање. Емили Бендер од Универзитетот Вашингтон нагласува дека овие модели предвидуваат најверојатните следни зборови наместо да процесираат информации за стварно да разберат текст, што го прави поимот „галуцинација“ и да збунувачки и антропоморфен. Бендер го критикува терминат „галуцинација“ како проблематичен, бидејќи имплицира дека грешките се изолирани случајности во otherwise сигурните системи и придава човечки перцепции на АИ, што всушност не „ percepe“ во никаков смисол. Арвинд Нарајанан од Принстън додава дека моделите грешат и поради употреба на неискварени или застарени податоци, а просто додавањето на тренинг податоци или повеќе изчислителна моќ не ги решил овие проблеми. Затоа, погрешните модели на вештачка интелигенција најверојатно ќе останат во иднина. Нарајанан препорачува да се користат таквите модели само ако фактичната проверка е побрза од правење оригинално истражување, додека Бендер советува целосно да се избегнува основањето на важни информации на АИ чатботи.



Brief news summary

Напредоците во развојот на AI чатботи од компании како OpenAI и Google, кои се фокусирани на подобрување на разужувањето и точноста, парадоксално доведоа до зголемување на учестеноста на халуцинации—случаи кога моделите генерираат лажни или заблудувачки информации и недоволно ги почитуваат инструкциите. На пример, новите модели на OpenAI o3 и o4-mini имаат стапки на халуцинации од 33% односно 48%, во споредба со 16% кај постариот модел o1, а слични трендови се забележани и кај модели како DeepSeek-R1. Иако овие предизвици се присутни, OpenAI тврди дека не заслужуваат blame за reasoning компонентите и продолжува да работи на намалување на халуцинациите. Оваа проблематика е особено значајна во области како истражување, правни совети и корисничка поддршка, каде неточни информации можат да имаат сериозни последици. Евалуациите направени од Vectara откриваат минимални разлики во честотата на халуцинации меѓу моделите што користат reasoning и оние што не, но податоците се ограничени. Експертите предупредуваат дека поимот „халуцинација“ соедноставува сложени проблеми кои вклучуваат зависност од застарени или unreliable податоци. Во услови на постојани неточности, некои препорачуваат ограничување на употребата на AI чатботи на ситуации каде што проверката на информациите е полесна од независната Fact-Checking. Севкупно, халуцинациите остануваат голем нерешен проблем во моделите на јазикот во AI.
Business on autopilot

AI-powered Lead Generation in Social Media
and Search Engines

Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment

Language

Content Maker

Our unique Content Maker allows you to create an SEO article, social media posts, and a video based on the information presented in the article

news image

Last news

The Best for your Business

Learn how AI can help your business.
Let’s talk!

May 10, 2025, 9:47 p.m.

Робин Худ развива програма базирана на блокчейн з…

Робинхуд работи на платформа базирана на блокчейн која има за цел да им овозможи на европските трговци пристап до финансиските средства на САД, според два извори запознати со ситуацијата кои разговарале со Блумберг.

May 10, 2025, 9:02 p.m.

OpenAI лансира o3-mini: брз, паметен и достапен м…

OpenAI го претстави o3-mini, нов модел за вештачка интелигенција за размислување, специјално дизајниран да го подобри прецизните математички пресметки, задачи во програмирање и научни решенија.

May 10, 2025, 8:22 p.m.

Тетер’s USDT започнува на Каја блокчейн, ги проши…

Издавачот на стабилни криптовалути Tether објави дека ќе го пушти своето родно USDT стабилкоин на Kaia блокчеинот, Layer 1 мрежа лансирана во август 2024 година.

May 10, 2025, 7:29 p.m.

Елтон Џон и Дуја Липа бараат заштита од вештачка …

Дуа Липа, сэр Елтон Џон, сэр Њан Маккелан, Флоренс Уелч и повеќе од 400 други британски музичари, писатели и уметници ги повикаа премиерот Сэр Кир Стармер да обнови закони за авторските права за да ја заштитат креаторите од злоупотреба на нивната работа од страна на вештачката интелигенција (ВИ).

May 10, 2025, 6:49 p.m.

Ролјата на блокчејн технологијата во иницијативит…

Блокчейн технологијата сè повеќе се препознава како моќен алат за напредување на финансиската инклузија на глобално ниво, особено за неповрзани и недоволно услужувани популации кои немаат пристап до традиционалните банкарски услуги.

May 10, 2025, 5:14 p.m.

Блокчейн во здравството: Обезбедување на податоци…

Индустријата на здравствената заштита се трансформира со голем чекор напред при примената на технологијата блокчейн за подобрување на безбедноста и управувањето со здравствените записи на пациентите.

May 10, 2025, 4:16 p.m.

Папата Лео XIV ги изложува своите визии и ја иден…

ВАТИКАНСКИ ГРАД (АП) — Во сабота, папата Лео XIV ги презентира визијата за неговото апостолско служење, нагласувајќи ги вештачката интелигенција (ВИ) како клучен предизвик со кој се соочува човештвото и ветувајќи дека ќе продолжи со клучните приоритети поставени од папата Фрањо.

All news