Los chatbots de inteligencia artificial enfrentan problemas persistentes de alucinaciones que afectan su fiabilidad

Los chatbots de inteligencia artificial de empresas tecnológicas líderes como OpenAI y Google han estado recibiendo mejoras en su capacidad de razonamiento en los últimos meses para aumentar la fiabilidad de sus respuestas. Sin embargo, pruebas recientes revelan que algunos de los modelos más nuevos funcionan peor que versiones anteriores, exhibiendo un fenómeno llamado "alucinaciones"— errores en los que los chatbots generan información falsa o proporcionan respuestas que, aunque sean factualmente correctas, son irrelevantes o no cumplen con las instrucciones. Este problema ha persistido desde el inicio de los grandes modelos de lenguaje (LLMs), como ChatGPT de OpenAI y Gemini de Google, y parece poco probable que se resuelva por completo. Un informe técnico de OpenAI mostró que sus modelos o3 y o4-mini lanzados en abril tenían tasas de alucinaciones significativamente mayores que el antiguo modelo o1 de finales de 2024: o3 tenía una tasa del 33%, o4-mini del 48%, en comparación con el 16% de o1, al resumir hechos disponibles públicamente. De manera similar, la lista de clasificación de Vectara que monitorea las tasas de alucinaciones encontró que algunos modelos de razonamiento, incluido DeepSeek-R1, experimentaron aumentos notables en las alucinaciones en comparación con sus predecesores, a pesar de su enfoque de razonamiento en múltiples pasos antes de responder. OpenAI sostiene que los procesos de razonamiento no son inherentemente responsables del aumento de las alucinaciones y está investigando activamente formas de reducir estas en todos los modelos. La persistencia de las alucinaciones amenaza varias aplicaciones: modelos que frecuentemente generan falsedades dificultan la asistencia en investigación; los bots paralegales que citan casos inexistentes pueden cometer errores legales; los bots de servicio al cliente con información desactualizada generan problemas operativos. Al principio, las empresas de IA esperaban que las alucinaciones disminuyeran con el tiempo, ya que las primeras actualizaciones de modelos mostraron mejoras. Sin embargo, los niveles más altos recientes desafían esa perspectiva, independientemente de la participación del razonamiento. La lista de clasificación de Vectara indica que las tasas de alucinaciones son aproximadamente iguales en modelos de razonamiento y sin razonamiento de OpenAI y Google, aunque los números exactos importan menos que los rankings relativos.
Google se negó a comentar. No obstante, estos rankings tienen sus limitaciones. Mezclan diferentes tipos de alucinaciones; por ejemplo, la tasa del 14. 3% en DeepSeek-R1 se compone principalmente de casos “benignos”: respuestas lógicamente sólidas y respaldadas por conocimientos, pero ausentes en el texto fuente. Además, las pruebas basadas únicamente en resumen de textos pueden no reflejar las frecuencias de alucinaciones en otras tareas, ya que los LLMs no están diseñados específicamente para resumir. Emily Bender, de la Universidad de Washington, destaca que estos modelos predicen las palabras siguientes más probables, en lugar de procesar la información para entender verdaderamente el texto, lo que hace que el término "alucinación" sea engañoso y anthropomórfico. Bender critica que el concepto de "alucinación" sea problemático porque implica que los errores son aberraciones en sistemas generalmente confiables y atribuye percepción humana a la IA, que no "percibe" en ningún sentido. Arvind Narayanan, de Princeton, añade que los modelos también fallan al confiar en datos poco confiables o desactualizados, y simplemente agregar más datos de entrenamiento o potencia de cálculo no ha resuelto estos problemas. En consecuencia, que la IA cometa errores podría ser una realidad duradera. Narayanan sugiere utilizar estos modelos solo cuando la verificación de hechos sea más rápida que realizar una investigación original, mientras que Bender recomienda evitar confiar en chatbots de IA para información factual en general.
Brief news summary
Los avances recientes en los chatbots de IA por parte de empresas como OpenAI y Google, enfocados en mejorar el razonamiento y la precisión, han resultado paradójicamente en un aumento de las tasas de alucinaciones, es decir, casos en los que los modelos generan información falsa o engañosa y no siguen correctamente las instrucciones. Por ejemplo, los modelos más nuevos de OpenAI, o3 y o4-mini, presentan tasas de alucinación del 33% y 48%, respectivamente, en comparación con el 16% del modelo anterior o1, con tendencias similares observadas en modelos como DeepSeek-R1. A pesar de estos desafíos, OpenAI afirma que los componentes de razonamiento no son los responsables y continúa trabajando en reducir las alucinaciones. Este problema es especialmente crítico en campos como la investigación, la asesoría legal y el atención al cliente, donde las inexactitudes pueden tener consecuencias graves. Evaluaciones realizadas por Vectara revelan diferencias mínimas en las frecuencias de alucinaciones entre modelos que incluyen razonamiento y los que no, aunque los datos aún son limitados. Los expertos advierten que el término "alucinación" simplifica en exceso problemas complejos que dependen de datos desactualizados o poco confiables. Dada la persistencia de inexactitudes, algunos sugieren limitar el uso de los chatbots de IA a escenarios donde verificar la información sea más sencillo que realizar una verificación de hechos independiente. En general, las alucinaciones siguen siendo un problema importante sin resolver en los modelos de lenguaje de IA.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Ten cuidado con estos niveles si el precio de Bit…
El precio de Bitcoin no ha mostrado el mismo impulso que tuvo al inicio del mes pasado a lo largo de junio.

Las empresas se están quedando atrapadas en el in…
Entrevista Antes de que la inteligencia artificial (IA) se vuelva ampliamente utilizada en las empresas, los líderes corporativos deben comprometerse con un régimen continuo de pruebas de seguridad adaptado a las particularidades de los modelos de IA

Meta en conversaciones para una inversión de 10 m…
Se informa que Meta Platforms está en conversaciones para invertir más de 10 mil millones de dólares en la startup de inteligencia artificial Scale AI, según Bloomberg News.

Deutsche Bank explora las monedas estables y los …
Deutsche Bank está investigando activamente las stablecoins y los depósitos tokenizados como parte de su creciente estrategia en activos digitales, reflejando un interés cada vez mayor en infraestructura financiera basada en blockchain entre las instituciones bancarias globales.

Las dificultades de Apple para actualizar Siri ge…
Apple enfrenta importantes desafíos para actualizar su asistente de voz Siri con capacidades avanzadas de inteligencia artificial (IA), lo que genera preocupación entre los inversores sobre su estrategia general en IA y su competitividad en un panorama tecnológico en rápida evolución.

La compañía de criptomonedas Gemini, liderada por…
© 2025 Fortune Media IP Limited.

Paul Brody, EY: Cómo la Blockchain Está Transform…
Paul Brody, líder global de blockchain en EY y copar GRATISautante del libro de 2023 *Ethereum for Business*, analiza el impacto de la cadena de bloques en pagos, remesas, banca y finanzas corporativas con Global Finance.