lang icon En
May 10, 2025, 5:50 p.m.
4316

ИИ-чаты сталкиваются с постоянными проблемами галлюцинаций, влияющими на надежность

Brief news summary

Недавние достижения в области чат-ботов на базе ИИ, такие как разработки компаний OpenAI и Google, ориентированные на повышение качества логического обоснования и точности, парадоксальным образом привели к росту частоты галлюцинаций — случаев, когда модели генерируют ложную или вводящую в заблуждение информацию и неправильно соблюдают инструкции. Например, новые модели OpenAI o3 и o4-mini демонстрируют уровень галлюцинаций в 33% и 48% соответственно, по сравнению с 16% у более старой модели o1, а в аналогичных моделях, таких как DeepSeek-R1, тенденция сохраняется. Несмотря на эти сложности, OpenAI утверждает, что причины кроются не в компонентах логического вывода, и продолжает работать над снижением уровня галлюцинаций. Эта проблема особенно актуальна в таких сферах, как исследования, юридические консультации и обслуживание клиентов, где ошибки могут иметь серьезные последствия. Исследования компании Vectara показывают, что различия в частоте галлюцинаций между моделями с логическими компонентами и без них весьма малы, хотя объем данных пока ограничен. Эксперты предупреждают, что термин «галлюцинация» упрощает решение сложных задач, связанных с зависимостью от устаревших или ненадежных данных. Учитывая постоянные неточности, некоторые рекомендуют ограничивать использование ИИ-чат-ботов сценариями, в которых проверка информации проще, чем независимая проверка фактов. В целом, проблема галлюцинаций остаётся одной из крупнейших нерешенных задач в области языковых моделей ИИ.

Искусственные интеллектуальные чат-боты от ведущих технологических компаний, таких как OpenAI и Google, в последние месяцы получают улучшения в области рассуждений с целью повышения надежности ответов. Однако недавние тесты показывают, что некоторые новые модели работают хуже предыдущих, демонстрируя явление, называемое "галлюцинациями" — ошибки, при которых чат-боты генерируют ложную информацию или дают ответы, которые являются фактически правильными, но нерелевантными или не соответствующими инструкции. Эта проблема сохраняется с момента появления больших языковых моделей (LLMs), таких как ChatGPT от OpenAI и Gemini от Google, и, по-видимому, полностью решить ее не удастся. Технический отчет OpenAI показал, что модели o3 и o4-mini, выпущенные в апреле, имели значительно более высокий уровень галлюцинаций по сравнению со старой моделью o1 конца 2024 года: уровень галлюцинаций у o3 составлял 33%, у o4-mini — 48%, тогда как у o1 — всего 16% при обобщении публичных фактов. Аналогично, на лидерборде Vectara, отслеживающем уровни галлюцинаций, обнаружено, что некоторые модели рассуждений, включая DeepSeek-R1, показывали заметное увеличение таких ошибок по сравнению с предшественниками, несмотря на их многоступенчатый подход к ответу. OpenAI утверждает, что процессы рассуждения сами по себе не являются причиной роста галлюцинаций и активно исследует способы снижения их частоты во всех моделях. Упрямство галлюцинаций создает угрозу для ряда приложений: модели, часто выдающие ложные сведения, мешают исследовательской деятельности; чат-боты-юристы с фейковыми делами могут привести к юридическим ошибкам; боты службы поддержки с устаревой информацией провоцируют операционные сбои. Изначально компании разрабатывали ИИ с ожиданием, что уровень галлюцинаций со временем снизится, поскольку ранние обновления моделей показывали улучшения. Однако последние показатели с более высоким уровнем ошибок ставят под сомнение этот прогноз, независимо от участия рассуждений. Лидерборд Vectara показывает, что уровни галлюцинаций примерно одинаковы у моделей с рассуждениями и без них от OpenAI и Google, хотя точные цифры важнее для сравнения позиций.

Google отказался комментировать ситуацию. Однако такие рейтинги имеют ограничения. Они объединяют различные виды галлюцинаций: например, частота галлюцинаций DeepSeek-R1 — 14, 3% — в основном состояла из "безобидных" случаев — ответов, логически обоснованных и подтвержденных знаниями, но отсутствующих в исходном тексте. Кроме того, тестирование только на основе суммирования текста может не отражать уровень галлюцинаций в других задачах, поскольку LLM не предназначены специально для суммирования. Эмили Бендер из Университета Вашингтона подчеркивает, что эти модели скорее прогнозируют вероятные следующие слова, чем воспринимают информацию с целью истинного понимания текста, что делает термин "галлюцинация" искажающим и антропоморфичным. Бендер критикует "галлюцинацию" как проблематичный термин, поскольку он предполагает появление ошибок в иначе надежных системах и приписывает ИИ человеческое восприятие, которого у моделей нет. Арвинд Нараянан из Принстона добавляет, что модели также ошибаются, полагаясь на ненадежные или устаревшие данные, и простое добавление обучающих данных или увеличение вычислительных ресурсов не решило эти проблемы. Следовательно, ошибочные ИИ могут оставаться реальностью на долгий срок. Нараянан советует использовать такие модели лишь тогда, когда проверка фактов быстрее, чем проведение самостоятельных исследований, а Бендер рекомендует полностью избегать использования ИИ-чат-ботов как источника фактической информации.


Watch video about

ИИ-чаты сталкиваются с постоянными проблемами галлюцинаций, влияющими на надежность

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 12, 2025, 1:42 p.m.

Дисней направляет Google предупреждение о прекращ…

The Walt Disney Company начал серьезное юридическое действие против Google, направив им предостерегащее письмо с требованием прекратить нарушение авторских прав.

Dec. 12, 2025, 1:35 p.m.

Искусственный интеллект и будущее поисковой оптим…

По мере развития искусственного интеллекта (ИИ) и его все более глубокого внедрения в цифровой маркетинг, его влияние на поисковую оптимизацию (SEO) становится всё заметнее.

Dec. 12, 2025, 1:33 p.m.

Искусственный интеллект: план MiniMax и Zhipu AI …

МиниМакс и Zhipu AI, две ведущие компании в области искусственного интеллекта, по сообщениям, готовятся выйти на биржу Гонконга уже в январе следующего года.

Dec. 12, 2025, 1:31 p.m.

OpenAI назначает генерального директора Slack Ден…

Дениза Дрезер, генеральный директор Slack, собирается покинуть свою должность, чтобы стать директором по доходам в OpenAI, компании, которая создала ChatGPT.

Dec. 12, 2025, 1:30 p.m.

Техники синтеза видео с помощью искусственного ин…

Кинематографическая индустрия переживает масштабную трансформацию, поскольку студии все чаще используют технологии синтеза видео с помощью искусственного интеллекта (ИИ) для улучшения постпродакшн-процессов.

Dec. 12, 2025, 1:24 p.m.

19 лучших инструментов ИИ для социальных сетей, к…

Искусственный интеллект революционизирует маркетинг в социальных сетях, предлагая инструменты, которые упрощают и улучшают взаимодействие с аудиторией.

Dec. 12, 2025, 9:42 a.m.

ИИ-влиятельные лица в социальных сетях: возможнос…

Появление влиятельных лиц, созданных с помощью искусственного интеллекта, в социальных сетях свидетельствует о значительном сдвиге в цифровой среде, вызывая широкие обсуждения по поводу подлинности онлайн-общения и этических вопросов, связанных с этими виртуальными персонажами.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today