Os chatbots de IA enfrentam problemas persistentes de alucinação que afetam sua confiabilidade

Chatbots de IA de empresas de tecnologia líderes como OpenAI e Google têm recebido melhorias de raciocínio nos últimos meses para aumentar a confiabilidade das respostas. No entanto, testes recentes revelam que alguns modelos mais novos apresentam desempenho pior que versões anteriores, exibindo um fenômeno chamado "alucinações" — erros onde os chatbots geram informações falsas ou fornecem respostas que, embora factualmente corretas, são irrelevantes ou não seguem as instruções. Esse problema persiste desde o surgimento de grandes modelos de linguagem (LLMs), como o ChatGPT da OpenAI e o Gemini do Google, e parece improvável que seja totalmente resolvido. Um relatório técnico da OpenAI mostrou que seus modelos o3 e o4-mini, lançados em abril, apresentaram taxas de alucinação significativamente maiores que o modelo mais antigo o1, do final de 2024: o3 tinha uma taxa de 33%, o4-mini de 48%, contra 16% do o1, ao resumir fatos publicamente disponíveis. De forma semelhante, o leaderboard da Vectara que acompanha as taxas de alucinação constatou que alguns modelos de raciocínio — incluindo o DeepSeek-R1 — tiveram aumentos notáveis nas alucinações em relação aos seus predecessores, apesar de usarem raciocínio em múltiplas etapas antes de responderem. A OpenAI mantém que processos de raciocínio não são, por si só, responsáveis pelo aumento das alucinações e está pesquisando ativamente maneiras de reduzir esses erros em todos os modelos. A persistência das alucinações ameaça várias aplicações: modelos que frequentemente produzem informações falsas dificultam a assistência em pesquisas; bots paralegais citando casos inexistentes arriscam erros jurídicos; bots de atendimento ao cliente com informações desatualizadas causam problemas operacionais. Inicialmente, as empresas de IA esperavam que as alucinações diminuíssem com o tempo, pois atualizações iniciais de modelos mostraram melhorias. Entretanto, os níveis mais altos de alucinação recentes desafiam essa expectativa, independentemente do envolvimento do raciocínio. O leaderboard da Vectara indica que as taxas de alucinação são aproximadamente iguais em modelos de raciocínio versus não raciocínio, da OpenAI e do Google, embora os números exatos tenham menos importância que as posições relativas na classificação.
O Google optou por não comentar. No entanto, tais classificações têm limitações. Elas mesclam diferentes tipos de alucinação; por exemplo, a taxa de 14, 3% do DeepSeek-R1 compõe principalmente casos “benignos”—respostas logicamente consistentes e sustentadas pelo conhecimento, mas ausentes do texto fonte. Além disso, testes baseados apenas em sumarização de textos podem não refletir as frequências de alucinação em outras tarefas, já que os LLMs não são projetados especificamente para resumir. Emily Bender, da Universidade de Washington, destaca que esses modelos predizem palavras próximas às que vêm a seguir, em vez de processar informação para compreender de fato o texto, tornando o termo “alucinação” tanto enganoso quanto antropomórfico. Bender critica o uso de “alucinação” por ser problemático, pois sugere que erros são aberrações em sistemas geralmente confiáveis e atribui percepção semelhante à humana à IA, a qual não “percebe” de nenhuma maneira. Arvind Narayanan, de Princeton, acrescenta que os modelos também erram ao depender de dados não confiáveis ou desatualizados, e simplesmente aumentar os dados de treinamento ou o poder de cálculo não resolveu esses problemas. Portanto, uma IA propensa a erros pode ser uma realidade duradoura. Narayanan sugere usar esses modelos apenas quando a verificação de fatos for mais rápida que realizar pesquisas adicionais, enquanto Bender recomenda evitar a dependência de chatbots de IA para informações factuais.
Brief news summary
Avanços recentes em chatbots de IA por empresas como OpenAI e Google, com foco na melhoria do raciocínio e precisão, paradoxalmente resultaram em taxas aumentadas de alucinação — casos em que os modelos geram informações falsas ou enganosas e não seguem corretamente as instruções. Por exemplo, os modelos mais novos o3 e o4-mini da OpenAI apresentam taxas de alucinação de 33% e 48%, respectivamente, em comparação com 16% do modelo o1 mais antigo, com tendências semelhantes observadas em modelos como o DeepSeek-R1. Apesar desses desafios, a OpenAI afirma que os componentes de raciocínio não são os culpados e continua a trabalhar na redução das alucinações. Essa questão é particularmente crítica em áreas como pesquisa, aconselhamento jurídico e atendimento ao cliente, onde imprecisões podem ter consequências graves. Avaliações feitas pela Vectara revelam diferenças mínimas nas frequências de alucinação entre modelos de raciocínio e não raciocínio, embora os dados permaneçam limitados. Especialistas alertam que “alucinação” simplifica demais problemas complexos que envolvem dependência de dados desatualizados ou pouco confiáveis. Diante de imprecisões persistentes, alguns sugerem limitar o uso de chatbots de IA a cenários onde verificar a informação seja mais fácil do que uma checagem de fatos independente. No geral, as alucinações continuam sendo um problema não resolvido importante nos modelos de linguagem de IA.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Grok é o único aliado de Elon Musk em uma hipotét…
Se forçado a escolher entre Elon Musk e Sam Altman para liderar a corrida pela IA, com o futuro da humanidade em jogo, os chatbots artificialmente inteligentes, na maioria, preferiram Altman, exceto pelo Grok, de propriedade de Musk, que apoiou Musk.

Robinhood Está Desenvolvendo Programa Baseado em …
A Robinhood está trabalhando em uma plataforma baseada em blockchain com o objetivo de oferecer aos traders europeus acesso a ativos financeiros dos EUA, de acordo com duas fontes familiarizadas com a situação que falaram à Bloomberg.

OpenAI lança o3-mini: modelo de IA rápido, inteli…
A OpenAI lançou o3-mini, um novo modelo de raciocínio de inteligência artificial projetado especificamente para melhorar a precisão em cálculos matemáticos, tarefas de codificação e resolução de problemas científicos.

O USDT da Tether é lançado na Kaia Blockchain, am…
Emissor de stablecoin Tether anunciou o lançamento de sua stablecoin nativa USDT na blockchain Kaia, uma rede Layer 1 lançada em agosto de 2024.

Elton John e Dua Lipa buscam proteção contra a IA
Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch e mais de 400 outros músicos, escritores e artistas britânicos solicitaram ao Primeiro-Ministro Sir Keir Starmer que atualize as leis de direitos autorais para proteger os criadores do uso indevido de suas obras por inteligência artificial (IA).

O papel da blockchain nas iniciativas de inclusão…
A tecnologia blockchain é cada vez mais reconhecida como uma ferramenta poderosa para promover a inclusão financeira globalmente, especialmente para populações não bancarizadas e desatendidas que não têm acesso aos serviços bancários tradicionais.

Blockchain na Saúde: Protegendo os Dados dos Paci…
A indústria da saúde está passando por uma grande transformação ao adotar a tecnologia blockchain para melhorar a segurança e a gestão dos registros de saúde dos pacientes.