Descubra por qué las respuestas generadas por la Inteligencia artificial de Google pueden ser peligrosas

05/06/2024, 04:00

Compartir esta noticia

La nueva función de Google, llamada AI Overviews y solo disponible para Estados Unidos al momento, proporciona resúmenes breves generados por IA que destacan información clave y enlaces en la parte superior de los resultados de búsqueda. Lamentablemente, y algo sobre lo que ya hemos escrito en estas columnas, los sistemas de IA son inherentemente poco confiables. A los pocos días del lanzamiento de AI Overviews en los Estados Unidos, los usuarios estaban compartiendo ejemplos de respuestas que eran, en el mejor de los casos, extrañas, cuando no decir directamente peligrosas. Sugería que los usuarios agregaran pegamento a la pizza o comieran al menos una pequeña roca al día, y que el expresidente de los Estados Unidos, Andrew Johnson, obtuvo títulos universitarios entre 1947 y 2012, a pesar de haber muerto en 1875.

Lo interesante es entender cómo funciona el sistema y, con ello, el por qué de estos errores.

Para esto es necesario primero entender cómo han sido optimizados para funcionar. AI Overviews utiliza un modelo de IA generativa en Gemini, el grupo de modelos de lenguaje de gran tamaño de Google. En este caso está integrado con los sistemas principales de clasificación web de Google y diseñado para extraer resultados relevantes de su índice de sitios web. La mayoría de estos modelos predicen la siguiente palabra en una secuencia, lo que los hace parecer fluidos pero también muy propensos a inventar cosas. No tienen una verdad absoluta en la que basarse, sino que eligen cada palabra únicamente sobre la base de un cálculo estadístico. Esto es lo que conduce a las famosas alucinaciones.

Muchos especialistas en el tema dicen que es probable que el modelo Gemini en AI Overviews pueda superar esto usando una técnica de IA llamada generación aumentada por recuperación (RAG), que permite a un modelo verificar fuentes específicas fuera de los datos en los que ha sido entrenado, como ciertas páginas web. Una vez que un usuario ingresa una consulta, se verifica con los documentos que conforman las fuentes de información del sistema, y se genera una respuesta. Debido a que el sistema puede coincidir la consulta original con partes específicas de páginas web, es capaz de citar de dónde obtuvo su respuesta, algo que los grandes modelos normales no pueden hacer.

Una ventaja de RAG es que las respuestas que genera a las consultas de los usuarios deberían estar más actualizadas, ser más precisas y más relevantes que las de un modelo típico que solo genera una respuesta basada en sus datos de entrenamiento. Entonces, ¿por qué devuelve respuestas incorrectas? Porque RAG está lejos de ser infalible. Para que pueda dar una buena respuesta, debe tanto recuperar la información correctamente como generar la respuesta correctamente. Una mala respuesta resulta cuando una o ambas partes del proceso fallan. En el caso de la recomendación de AI Overviews de una receta de pizza que contiene pegamento, sacada de una publicación humorística en Reddit, es probable que la publicación pareciera relevante para la consulta original del usuario sobre el queso que no se pega a la pizza, pero algo salió mal en el proceso de recuperación

De manera similar, si un sistema RAG se encuentra con información contradictoria, como un manual y una versión actualizada del mismo manual, no puede determinar de cuál versión extraer su respuesta. En su lugar, puede combinar información de ambas para crear una respuesta potencialmente engañosa.

Mientras los sistemas usen probabilidades para generar texto palabra por palabra, la alucinación siempre será un riesgo, y aunque AI Overviews probablemente mejore con el tiempo, nunca será totalmente preciso.

¿Encontraste un error?

Reportar