Искусственные интеллектуальные чат-боты от ведущих технологических компаний, таких как OpenAI и Google, в последние месяцы получают улучшения в области рассуждений с целью повышения надежности ответов. Однако недавние тесты показывают, что некоторые новые модели работают хуже предыдущих, демонстрируя явление, называемое "галлюцинациями" — ошибки, при которых чат-боты генерируют ложную информацию или дают ответы, которые являются фактически правильными, но нерелевантными или не соответствующими инструкции. Эта проблема сохраняется с момента появления больших языковых моделей (LLMs), таких как ChatGPT от OpenAI и Gemini от Google, и, по-видимому, полностью решить ее не удастся. Технический отчет OpenAI показал, что модели o3 и o4-mini, выпущенные в апреле, имели значительно более высокий уровень галлюцинаций по сравнению со старой моделью o1 конца 2024 года: уровень галлюцинаций у o3 составлял 33%, у o4-mini — 48%, тогда как у o1 — всего 16% при обобщении публичных фактов. Аналогично, на лидерборде Vectara, отслеживающем уровни галлюцинаций, обнаружено, что некоторые модели рассуждений, включая DeepSeek-R1, показывали заметное увеличение таких ошибок по сравнению с предшественниками, несмотря на их многоступенчатый подход к ответу. OpenAI утверждает, что процессы рассуждения сами по себе не являются причиной роста галлюцинаций и активно исследует способы снижения их частоты во всех моделях. Упрямство галлюцинаций создает угрозу для ряда приложений: модели, часто выдающие ложные сведения, мешают исследовательской деятельности; чат-боты-юристы с фейковыми делами могут привести к юридическим ошибкам; боты службы поддержки с устаревой информацией провоцируют операционные сбои. Изначально компании разрабатывали ИИ с ожиданием, что уровень галлюцинаций со временем снизится, поскольку ранние обновления моделей показывали улучшения. Однако последние показатели с более высоким уровнем ошибок ставят под сомнение этот прогноз, независимо от участия рассуждений. Лидерборд Vectara показывает, что уровни галлюцинаций примерно одинаковы у моделей с рассуждениями и без них от OpenAI и Google, хотя точные цифры важнее для сравнения позиций.
Google отказался комментировать ситуацию. Однако такие рейтинги имеют ограничения. Они объединяют различные виды галлюцинаций: например, частота галлюцинаций DeepSeek-R1 — 14, 3% — в основном состояла из "безобидных" случаев — ответов, логически обоснованных и подтвержденных знаниями, но отсутствующих в исходном тексте. Кроме того, тестирование только на основе суммирования текста может не отражать уровень галлюцинаций в других задачах, поскольку LLM не предназначены специально для суммирования. Эмили Бендер из Университета Вашингтона подчеркивает, что эти модели скорее прогнозируют вероятные следующие слова, чем воспринимают информацию с целью истинного понимания текста, что делает термин "галлюцинация" искажающим и антропоморфичным. Бендер критикует "галлюцинацию" как проблематичный термин, поскольку он предполагает появление ошибок в иначе надежных системах и приписывает ИИ человеческое восприятие, которого у моделей нет. Арвинд Нараянан из Принстона добавляет, что модели также ошибаются, полагаясь на ненадежные или устаревшие данные, и простое добавление обучающих данных или увеличение вычислительных ресурсов не решило эти проблемы. Следовательно, ошибочные ИИ могут оставаться реальностью на долгий срок. Нараянан советует использовать такие модели лишь тогда, когда проверка фактов быстрее, чем проведение самостоятельных исследований, а Бендер рекомендует полностью избегать использования ИИ-чат-ботов как источника фактической информации.
ИИ-чаты сталкиваются с постоянными проблемами галлюцинаций, влияющими на надежность
The Walt Disney Company начал серьезное юридическое действие против Google, направив им предостерегащее письмо с требованием прекратить нарушение авторских прав.
По мере развития искусственного интеллекта (ИИ) и его все более глубокого внедрения в цифровой маркетинг, его влияние на поисковую оптимизацию (SEO) становится всё заметнее.
МиниМакс и Zhipu AI, две ведущие компании в области искусственного интеллекта, по сообщениям, готовятся выйти на биржу Гонконга уже в январе следующего года.
Дениза Дрезер, генеральный директор Slack, собирается покинуть свою должность, чтобы стать директором по доходам в OpenAI, компании, которая создала ChatGPT.
Кинематографическая индустрия переживает масштабную трансформацию, поскольку студии все чаще используют технологии синтеза видео с помощью искусственного интеллекта (ИИ) для улучшения постпродакшн-процессов.
Искусственный интеллект революционизирует маркетинг в социальных сетях, предлагая инструменты, которые упрощают и улучшают взаимодействие с аудиторией.
Появление влиятельных лиц, созданных с помощью искусственного интеллекта, в социальных сетях свидетельствует о значительном сдвиге в цифровой среде, вызывая широкие обсуждения по поводу подлинности онлайн-общения и этических вопросов, связанных с этими виртуальными персонажами.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today