Por Raúl Limón/El País de Madrid
Los últimos avances de la inteligencia artificial (IA) presentados la semana pasada no son nimios. ¿Hacia dónde va? Demis Hassabis, director de Google DeepMind, la división de investigación de la compañía, lo tiene claro: “Hacia la inteligencia artificial general, la que iguala o supera a la humana”. En la última década hemos contado con dispositivos, como los asistentes Siri, Alexa, Hey Google o Bixby, con capacidades limitadas para responder y ejecutar acciones en electrodomésticos vinculados. Por otro lado, desde finales del pasado siglo, los buscadores han ayudado a encontrar respuestas y ofertas a demandas de los usuarios. Ambos tienen los días contados. Los avances de la IA han comenzado a cavar las tumbas para ambos servicios con el fin de unificarlos en una única plataforma capaz de dialogar como un humano, analizar documentos (de texto, imágenes o vídeos) en distintos dominios, ofrecer respuestas y soluciones complejas y ejecutarlas en nombre del usuario. El buscador y el asistente van a convertirse en una sola herramienta, en un agente, “en un colega supercompetente” —según Sam Altman, máximo responsable de OpenAI— que estará presente en todas las acciones de nuestras vidas.
Los nuevos desarrollos suponen un paso crucial en la inteligencia artificial. Hasta ahora contábamos con herramientas de IA, como los asistentes de voz (Siri o Alexa), que ya entendían el lenguaje natural, o con aplicaciones para convertir una petición de texto en imágenes o vídeos (Sora) o con chats (robots conversacionales) que creaban texto o resumían una reunión o varios documentos (ChatGPT). Las evoluciones lanzadas la semana pasada tanto por Google como por Open AI son mucho más. Un documento de DeepMind y una decena de universidades y entidades los define: “Son agentes artificiales que utilizan el lenguaje natural y cuya función es planificar y ejecutar secuencias de acciones en nombre de un usuario, en uno o más dominios (en la web, en documentos propios o en interrelación con otros humanos y máquinas), de acuerdo con las expectativas de la persona”.
La clave está, de acuerdo con esta investigación, en la utilización del lenguaje natural, que facilita la interacción con la máquina, en su autonomía para elaborar planes y llevarlos a cabo “en nombre del usuario”, en su transversalidad en cuanto a las fuentes que puede utilizar y en su capacidad de contextualizar la situación del demandante para ajustarse a sus expectativas. Ya no es una simple herramienta, es un complejo robot que sabe con quién habla y qué resultados debe arrojar. “Tendrán un profundo impacto en nuestras vidas individuales y colectivas”, advierte el documento.
Al margen de los innumerables problemas éticos, que este mismo trabajo identifica, la transición que ahora comienza tiene una consecuencia tecnológica próxima: las herramientas de IA que hemos venido utilizando quedan obsoletas de forma singular y pasan a integrarse en el complejo sistema de los agentes. La evolución de la IA ha comenzado a cavar las fosas del buscador y de los asistentes tal y como los hemos conocido hasta ahora.
El buscador convencional agoniza
Larry Page y Sergey Brin fundaron Google en 1998 tras conocerse en la Universidad de Stanford y publicar La anatomía de un motor de búsqueda web hipertextual a gran escala. Con esa investigación desarrollaron un buscador que en solo un año pasó a registrar 3,5 millones de consultas al día y hoy se ha convertido en el más utilizado del mundo, con más de 3.500 millones de demandas de información diarias.
Pero en esta época de eras efímeras, la del buscador de Google tal y como lo conocemos comienza su decadencia. El propio Sergey Brin asistió el pasado martes a este proceso en la sede del gigante en Mountain View (California).
“Durante los últimos 25 años, hemos invertido mucho en el buscador. Pero necesitamos pensar en cómo podemos satisfacer las nuevas necesidades de los usuarios y realmente creo que es la búsqueda en Gemini (nombre de la IA y del chat inteligente de la compañía, competidor de ChatGPT de Open AI)”, afirma Liz Reid, directora de Google Search para dar paso a la nueva era.
Reid explica que el sistema convencional, aunque admite que ha sido una “herramienta increíblemente poderosa”, “requiere mucho trabajo”. La búsqueda tradicional (conocida como googlear) de un restaurante o cualquier otro servicio cerca de la ubicación del usuario ofrece un mapa de sus localizaciones y una ristra de sus páginas webs donde el demandante de la información tiene que completar el proceso consultando una a una y sorteando, si quiere, las que pagan por situarse en la cabeza de los resultados. O también puede ir acotando y precisando qué tipo de comida o servicio específico necesita hasta conseguir listas de webs más precisas.
Este tedioso proceso llega a su fin. “Modificamos radicalmente cómo funciona”, afirma Sundai Pichai, máximo responsable de Google. Y Reid lo completa: “Hemos construido un modelo personalizado de Gemini diseñado específicamente para la búsqueda que combina nuestra información en tiempo real con sistemas de clasificación y calidad sin precedentes”.
La directiva asegura que, en las pruebas realizadas, “la gente también hace clic en una mayor diversidad de sitios web”. Esta tendencia obligará a modificar las estrategias de SEO, siglas en inglés de Search Engine Optimization (Optimización para Motores de Búsqueda) y que son las técnicas para mejorar la posición de un sitio web en los resultados de los motores de búsqueda. Ahora se tendrán que adaptar a la forma de procesar la información de la inteligencia artificial.
Los nuevos motores escuchan, entienden el contexto del usuario, razonan, planifican y, a petición de la persona, pueden ejecutar la orden de compra de un producto o servicio, sugerir complementos y reservar un servicio.
Entiende, ve, razona y planifica
Los nuevos buscadores tienen capacidad de razonar por pasos. De esta forma, le podemos pedir por voz un menú semanal que, con la interacción del usuario o con sus precisiones, ajustará a sus gustos. El siguiente paso puede ser que lo adapte a un vegetariano y modificará las recetas ya seleccionadas a esta petición.
También planifican. El usuario le puede pedir que programe un viaje a cualquier parte con actividades para niños y adultos, uno amante de la naturaleza y otro apasionado de la cultura.
Del mismo modo, pueden comprar por imagen. El usuario solo tiene que introducir un vídeo e indicar por voz o texto qué personaje lleva la prenda que busca y los resultados mostrarán localizaciones, precios y disponibilidad. O simplemente rodear con el dedo la imagen de la ropa precisa en cuestión. O incluso mostrar la secuencia de una avería y los resultados llevarán a información para repararla o servicios que lo hacen.
Google ha sido el primero en lanzar su nuevo buscador, pero otras compañías, como Microsoft, avanzan con Copilot en similares características y con el apoyo de OpenAI.
Agentes
Precisamente OpenAI, que ha servido de motor en el vertiginoso desarrollo de la inteligencia artificial, aún no ha presentado un producto similar, pero sí ha abierto la brecha con el otro gran avance de la semana pasada, aunque Google ya lo presentó en abril para sus clientes de Cloud, la nube que alberga gran parte de los trabajos de los desarrolladores. Se trata de los agentes o asistentes avanzados de inteligencia artificial, los que están cavando la tumba de Siri, Alexa o el propio Hey Google.
Solo 24 horas antes que Google anunciara Astra, el nombre de su futuro agente, OpenAI presentó ChatGPT-4o, un robot conversacional que también es capaz de ver, oír, resolver y ejecutar tareas en nombre del usuario. Será accesible a través de la web y de la aplicación móvil de forma gratuita, aunque la versión más avanzada (cinco veces más capaz) costará 20 dólares al mes.
Sam Altman, máximo responsable OpenAI, coincide con DeepMind en que estos revolucionarán las vidas, según publica MIT Technology Review. Altman también considera en que las aplicaciones de IA como el generador de imágenes mediante peticiones de voz o texto, como DALL-E o Sora, o de textos, como las primeras versiones de ChatGPT, han sido solo eso, herramientas simples. “Nos han cautivado, pero, en su mayoría, las usamos para tareas aisladas y tienen una capacidad limitada para aprender sobre nosotros a partir de nuestras conversaciones con ellos”, afirma.
El asistente avanzado de IA o agente, según el directivo responsable de ChatGPT-4o, “es capaz de ayudarnos fuera de la interfaz de chat (el acceso conversacional) y quitarnos de encima las tareas del mundo real”. “Es un colega supercompetente que sabe absolutamente todo de mi vida, cada correo electrónico, cada conversación que he tenido, pero no se siente como una extensión. Puede abordar algunas tareas al instante y, para las más complejas, salir y hacer una propuesta o regresar con preguntas si es necesario”, añade.
Chirag Shah, profesor de la Universidad de Washington y ajeno a los desarrollos de las grandes compañías coincide. “Este agente realmente te conoce bien, puede hacer muchas cosas por ti y puede trabajar en múltiples tareas y dominios”, afirma también en MIT Technology Review.
El de Google se denomina Astra y estará plenamente operativo a finales de año. Su versión más avanzada estará disponible en la versión IA Premium de Google One y se ofrecerá (ha comenzado en EE.UU. antes de extenderse) de forma gratuita dos meses para pasar a costar unos 20 dólares al mes. Google trabaja para incluirlo, además de en el móvil, en gafas inteligentes y otros dispositivos. “Estamos abiertos a todas las formas, pero si OpenAI mantiene una versión limitada gratuita, es posible que tengamos que hacer lo mismo”, admite un directivo que pide no ser identificado durante un encuentro en EE.UU.
Astra combina las nuevas capacidades del buscador Gemini con habilidades robóticas humanizadas, como empatía y sentidos del oído y vista para analizar y registrar el contexto con el fin de responder a cualquier interacción relacionada con lo que pasa por la cámara y los micrófonos. Demis Hassabis, lo explica: “Estamos procesando un flujo de información sensorial diferente. Estos agentes pueden ver y escuchar mejor lo que hacemos, entienden el contexto en el que nos encontramos y responden rápidamente en la conversación, haciendo que el ritmo y la calidad de la interacción sean mucho más naturales”.
Con estas habilidades, Astra y ChatGPT-4o son capaces de acompañar al usuario desde el móvil y ver el contexto en el que se produce la interacción para responder cómo se llama la parte específica de un objeto que señala o resolver un problema matemático escrito sobre un papel o identificar una página de códigos o saber dónde hemos dejado un objeto que haya pasado por sus ojos.
Pero, aunque estas capacidades sean espectaculares, su mayor utilidad está en el ámbito cotidiano de trabajo o doméstico. El usuario puede pedirle que identifique todos los gastos destinados a una partida, como los seguros o la electricidad, los analice, los muestre en una hoja ordenada por cuantías e incluso identifique opciones de ahorro.
El agente se moverá por los correos, los documentos almacenados y cualquier archivo o web que contenga esa información y al que se le autorice el acceso, lo resumirá y ordenará, navegará por las páginas de proveedores de los servicios en cuestión, propondrá un plan de ahorro y, si el usuario lo demanda, ejecutará las renovaciones, bajas o sustituciones.
Las aplicaciones son varias y el objetivo es contar con máquinas asistentes de forma general. Minsu Jang, investigador principal del Laboratorio de Robótica Social del Instituto de Investigación en Electrónica y Telecomunicaciones de Corea, trabaja el desarrollo de la IA para planificación de tareas: “Planeamos investigar y desarrollar tecnologías que puedan predecir fallos en tareas en situaciones inciertas y mejorar la respuesta al humano cuando pida ayuda. Esta tecnología es esencial para hacer realidad la era de un robot por hogar”.
Ventajas y riesgos
El trabajo de una decena de universidades y entidades para DeepMind sobre los nuevos desarrollos identifica ventajas y riesgos de estos.
En el primer grupo, destacan que estos agentes o asistentes avanzados pueden “empoderar a los usuarios” para alcanzar sus metas o su bienestar o actuar como “mentores, amigos o asesores de confianza”. En este sentido, un nuevo estudio publicado recientemente en el Journal of the American Medical Informatics Association (JAMIA), revela cómo la inteligencia artificial es capaz de responder a diferentes estados motivacionales. En una evaluación de ChatGPT, Gemini y Llama (Meta), la Universidad de Illinois ha mostrado la importancia de esta habilidad. “Los agentes pueden ayudar a aumentar, por ejemplo, la conciencia sobre los comportamientos saludables, a comprometerse emocionalmente con los cambios y a darse cuenta de cómo sus hábitos podrían afectar a las personas que los rodean”, explica Michelle Bak, investigadora de los modelos.
También pueden ayudar a los usuarios a tomar decisiones más informadas o a desarrollar su creatividad o la formación personal o a la resolución de problemas, aportando más tiempo para otras actividades, como la relación personal o familiar.
La otra campana
Pero este mundo ideal tiene también sus sombras. La misma semana pasadase ha producido una dimisión en el departamento de seguridad de OpenAI. Jan Leike, uno de sus directores, ha sido tajante al escribir en X que la empresa valora más la creación de nuevos productos que la seguridad y ha acompañado el portazo de una reflexión. “Construir máquinas más inteligentes que los humanos es una empresa intrínsecamente peligrosa”.
Estos robots que pueden acompañarnos en nuestros bolsillos pueden equivocarse al interpretar los intereses de los usuarios y de la sociedad o utilizar fuentes de información imprecisas e incluso falsas para lanzar sus propuestas y conclusiones o priorizar soluciones a corto plazo frente a las consecuencias a largo plazo.
Los asistentes de IA también podrían vulnerar la privacidad y ser potencialmente inseguros si arrojan una respuesta incorrecta o incluso dañina para el usuario con apariencia de veracidad. Las alucinaciones, como se denominan estos errores, son habituales en las herramientas existentes.
Del mismo modo, pueden responder a intereses particulares de los desarrolladores y limitar las respuestas solo a los objetivos de estos, que pueden ser económicos, y no de los usuarios o incluso primar el beneficio de estos últimos frente a las consecuencias en la colectividad.
Y estos agentes pueden imponer valores a la sociedad, creando corrientes de opinión determinadas, o ser utilizados para campañas maliciosas de ataques informáticos. “Hemos investigado 36 elecciones parlamentarias, regionales y presidenciales celebradas entre setiembre de 2023 y febrero de 2024 y descubierto que, en al menos diez casos, se utilizaron vídeos y grabaciones de audio con clonación de voz para campañas de desinformación. En el contexto de las elecciones europeas, podemos esperar una nueva oleada de engaños en todos los países”, explica Sergey Shykevich, director del grupo de inteligencia sobre amenazas de Check Point Research.