Por más impresionantes que resulten los avances de la inteligencia artificial (IA), aún persiste un problema fundamental: su propensión a inventar información. A esta falla se la llama "alucinación" y lejos de haberse resuelto con los nuevos modelos de IA, está empeorando.
El caso más reciente lo vivieron usuarios de Cursor, una herramienta de programación. El mes pasado, un bot de soporte técnico automatizado —basado en IA— les comunicó erróneamente que ya no podían usar el software en más de una computadora. La supuesta nueva política causó revuelo: hubo reclamos en foros, cancelaciones de cuentas y una creciente frustración entre usuarios. Pero la empresa nunca había implementado tal restricción.
El episodio no es aislado. Más de dos años después del lanzamiento de ChatGPT, empresas tecnológicas, profesionales y consumidores utilizan bots para tareas tan variadas como escribir textos, resumir documentos o programar. Sin embargo, como reportó The New York Times, no existe aún una forma de garantizar que la información que generan sea cierta.
Las llamadas “alucinaciones” ocurren porque estos sistemas no razonan ni validan hechos: predicen cuál es la respuesta más probable basándose en patrones matemáticos extraídos de enormes volúmenes de datos. Amr Awadallah, ex ejecutivo de Google y fundador de la start-up Vectara es tajante en el artículo de The New York Times: “Por más que nos esforcemos, siempre van a alucinar. Eso no va a desaparecer”.
De hecho, según cifras internas de OpenAI, sus modelos más recientes son más propensos a cometer estos errores. El modelo o3 alucina 33% de las veces al responder preguntas sobre figuras públicas, más del doble que su predecesor, o1. El o4-mini tiene una tasa aún más alta: 48%. En otras pruebas, como SimpleQA —diseñada para preguntas generales—, las tasas de alucinación alcanzaron 79%.
Cuando se trata de datos legales médicos o de negocios, el impacto es crítico. “Pasás mucho tiempo tratando de saber qué respuestas son reales y cuáles no”, explicó Pratik Verma, CEO de Okahu, una firma que ayuda a empresas a navegar este problema. “Si no resolvés esto, se elimina el valor de usar IA: automatizar tareas”.
El problema también afecta a los bots integrados en buscadores como Google o Bing. The New York Times pone ejemplos de Estados Unidos pero quien escribe estas líneas puede atestiguar que el ChatGPT escribió que Uruguay tiene 5,2 millones de habitantes, que existe un Festival Internacional de Cine de Maldonado que se celebra anualmente desde 1998 con sede rotativa entre Punta del Este y Rocha, o que el Ministerio de Tecnología e Innovación de Uruguay lanzó en 2022 un fondo de 100 millones de dólares para IA.
Durante años, compañías como OpenAI partieron de una premisa sencilla: cuanta más información de internet incorporaran a sus modelos, mejores serían sus respuestas. Pero se toparon con un límite: ya consumieron prácticamente todo el texto disponible en inglés en la web. Para seguir mejorando sus sistemas, recurrieron a una nueva técnica: el aprendizaje por refuerzo (reinforcement learning).
Este método, basado en el ensayo y error, está dando buenos resultados en áreas como las matemáticas o la programación. Sin embargo, su desempeño es mucho más errático en otros campos.
Los modelos de razonamiento, además, están diseñados para “pensar” paso a paso antes de dar una respuesta. Pero ese proceso escalonado puede ser un arma de doble filo: si fallan en uno de esos pasos, el error se arrastra —y a menudo se multiplica— hasta la conclusión final. Para mayor transparencia, muchos de estos bots muestran a los usuarios el razonamiento intermedio, pero los investigadores han comprobado que esos pasos muchas veces no tienen ninguna relación con la respuesta obtenida.
Aunque compañías como OpenAI afirman estar trabajando activamente para reducir estos errores —y algunas pruebas muestran mejoras en tareas específicas—, la confiabilidad general sigue siendo un desafío pendiente. Incluso herramientas que intentan rastrear el origen de cada respuesta no logran descifrar del todo por qué los sistemas se comportan como lo hacen.
En definitiva, mientras el desarrollo de la IA continúa acelerándose, su utilidad práctica sigue atada a una paradoja: cuanto más compleja es la tecnología, más difícil resulta confiar en lo que dice.