Штучні інтелектуальні чат-боти стикаються з постійними проблемами галюцинацій, що впливають на їхню надійність

Чатботи на основі штучного інтелекту від провідних технологічних компаній, таких як OpenAI та Google, у останні місяці отримували покращення у логічному мисленні з метою підвищення надійності відповідей. Однак нещодавні випробування виявили, що деякі новіші моделі працюють гірше за попередні версії, демонструючи явище, яке називають "галюцинаціями" — помилки, коли чатботи створюють неправильну інформацію або надають відповіді, які є фактично правильними, але нерелевантними або не відповідають інструкціям. Це питання залишається актуальним з моменту появи великих мовних моделей (LLMs), таких як ChatGPT від OpenAI і Gemini від Google, і, ймовірно, не буде повністю вирішено. Технічний звіт OpenAI показав, що моделі o3 та o4-mini, випущені у квітні, мали значно вищі показники галюцинацій, ніж більш стара модель o1 з кінця 2024 року: рівень галюцинацій у o3 становив 33%, у o4-mini — 48%, проти 16% у o1 під час підсумовування публічно доступних фактів. Аналогічно, лідерборд Vectara, який відслідковує рівень галюцинацій, показав, що деякі моделі логічного мислення — зокрема DeepSeek-R1 — зазнали значного зростання кількості галюцинацій у порівнянні з попередниками, незважаючи на їх багатоступеневий підхід до розв'язання задач перед відповіддю. OpenAI стверджує, що процеси логічного мислення не є безпосередньою причиною зростання галюцинацій і активно вивчає способи зменшення їх кількості у всіх моделях. Триваюча проблема галюцинацій загрожує низці застосувань: моделі, що часто помиляються, ускладнюють дослідницьку допомогу; чатботи-паралегали, що цитують неіснуючі справи, можуть спричиняти юридичні помилки; боти служби підтримки з застарілою інформацією створюють оперативні проблеми. Спочатку компанії, що розробляють ШІ, очікували, що галюцинації зменшуватимуться з часом, оскільки оновлення ранніх моделей показували покращення. Однак, останні високі показники галюцинацій ставлять під сумнів цю перспективу, незалежно від участі логіки. Лідерборд Vectara показує, що рівень галюцинацій приблизно однаковий у моделях з логікою і без неї у OpenAI та Google, хоча точні цифри менш важливі, ніж відносні рейтинги.
Google відмовився коментувати цю інформацію. Однак, такі рейтинги мають свої обмеження. Вони змішують різні типи галюцинацій; наприклад, 14. 3% у DeepSeek-R1 складається переважно з "добросовісних" випадків — відповідей, логічно обґрунтованих і підтриманих знаннями, але відсутніх у вихідному тексті. Крім того, тестування лише на підставі узагальнення тексту може не відображати реальну частоту галюцинацій у інших задачах, оскільки LLM не розроблені спеціально для підсумовування. Емілі Бендер із Вашингтонського університету підкреслює, що ці моделі прогнозують ймовірні слова, які наймовірніше з'являться далі, а не справді обробляють інформацію для розуміння тексту, тому термін "галюцинація" є як неправильним, так і антропоморфним. Бендер критикує використання терміну "галюцинація", оскільки він натякає, що помилки — це відхилення в надійних системах, і приписує AI людські сприйняття, яких він не має. Арвінд Нарайян from Прінстонського університету додає, що моделі також помиляються через залежність від ненадійних або застарілих даних, і просто додавання даних для тренування або обчислювальної потужності не вирішить ці проблеми. Отже, помилковий штучний інтелект може залишатися реальністю надовго. Нарайян пропонує використовувати такі моделі лише тоді, коли перевірка фактів швидша, ніж проведення власного дослідження, тоді як Бендер радить уникати використання AI-чату для отримання фактичної інформації взагалі.
Brief news summary
Останні досягнення у галузі чатботів на основі штучного інтелекту від компаній таких як OpenAI та Google, спрямовані на покращення логіки та точності, парадоксально призвели до збільшення частоти галюцинацій — випадків, коли моделі генерують неправдиву або ввідповідну інформацію та неправильно дотримуються інструкцій. Наприклад, новіші моделі OpenAI o3 та o4-mini демонструють рівень галюцинацій відповідно 33 % та 48 %, у порівнянні з 16 % у старої моделі o1, а схожі тенденції спостерігаються у моделях на зразок DeepSeek-R1. Попри ці труднощі, OpenAI стверджує, що причина не криється у компонентах логіки і продовжує працювати над зменшенням кількості галюцинацій. Ця проблема особливо важлива у сферах досліджень, юридичних консультацій та обслуговування клієнтів, де неточності можуть мати серйозні наслідки. Оцінки компанії Vectara показують невеликі різниці у частоті галюцинацій між моделями, що використовують логіку, та тими, що її не застосовують, хоча даних поки що небагато. Експерти застерігають, що термін «галюцинація» занадто спрощує складні проблеми, що пов’язані з використанням застарілих або ненадійних даних. Через постійні неточності деякі пропонують обмежити використання чатботів ШІ у ситуаціях, де перевірка інформації є простішою, ніж незалежна фактологічна перевірка. Загалом, галюцинації залишаються однією з головних нерозв’язаних проблем у мовних моделях штучного інтелекту.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Грок — єдиний союзник Еллона Маска у гіпотетичній…
Якщо б довелося обирати між Елоном Маском і Самом Альтманом для керівництва гонкою у сфері штучного інтелекту із долею людства на кону, переважно штучно розумні чат-боти віддали перевагу Альтану, окрім Grok, що належить Маску, який став на його сторону.

Robinhood розробляє блокчейн-інноваційну програму…
Robinhood працює над платформою на основі блокчейну, яка має надати європейським трейдерам доступ до фінансових активів США, повідомили двоє джерел, ознайомлених із ситуацією, у розмові з Bloomberg.

OpenAI запускає o3-mini: швидку, розумну та досту…
OpenAI представила o3-mini, нову модель штучного інтелекту для міркування, спеціально розроблену для підвищення точності математичних обчислень, завдань з програмування та наукового розв'язання проблем.

Tether’s USDT запустився на блокчейні Kaia, розши…
Випускник стейблкоїнів Tether оголосив про запуск власної стабільної монети USDT на блокчейні Kaia — мережі Layer 1, запущеній у серпні 2024 року.

Елтон Джон і Дуа Ліпа шукають захист від ШІ
Дуа Ліпа, сер Елтон Джон, сер Іан Маккеллен, Флоренс Велч та понад 400 інших британських музикантів, письменників і художників закликали прем'єр-міністра сер Кіра Стармера оновити закони про авторське право, щоб захистити творців від зловживань їхньою роботою з боку штучного інтелекту (ШІ).

Роль блокчейну у ініціативах фінансової інклюзії
Технологія блокчейн все більше визнається потужним інструментом для просування фінансової інклюзії в усьому світі, особливо для населення без банківського обслуговування і тих, хто недоотримує послуг через необґрунтовані потреби, що позбавляє їх доступу до традиційних банківських установ.

Блокчейн у галузі охорони здоров'я: забезпечення …
Медична галузь зазнала значної трансформації шляхом впровадження технології блокчейн для покращення безпеки та управління медичними записами пацієнтів.