Los datos de nuestro pasado y la Inteligencia Artificial

02/08/2023, 04:00

Compartir esta noticia

En los últimos meses, las preocupaciones sobre el daño potencial que los sistemas alimentados con Inteligencia Artificial podrían hacernos han sido muchas y han ocupado la primera plana de los portales de todo el mundo. Lo que esos sistemas de IA hacen con nuestros datos, es una de esas cosas que han encendido las alarmas. Es que sabemos muy poco sobre el lugar dónde obtienen estos modelos los petabytes de datos que necesitan, cómo se utilizan esos datos y qué protecciones, si las hay, existen cuando se trata de información confidencial. Las empresas que fabrican estos sistemas no nos dicen mucho y es incluso posible que ni siquiera lo sepan.

Hace dos semanas, un tuit se volvió viral tras acusar a Google de extraer datos de Google Docs para entrenar sus herramientas de IA. Vanesa Villareal, la autora del tuit en cuestión, siguió tuiteando y afirmó lo que muchos sabíamos y muchos otros no tanto: que Google "utilizó documentos y correos electrónicos para entrenar su IA durante años". El hecho de que esto puede que ni siquiera sea cierto está casi fuera de lugar. Google por su parte dice que no usa datos de sus productos Workspace gratuitos o empresariales, que incluyen Gmail y Docs, para entrenar sus modelos generativos de IA a menos que tenga el permiso del usuario, aunque sí entrena algunas características de Workspace AI como el corrector ortográfico y el sistema de redacción inteligente usando datos anonimizados.

Para explicarlo de forma sencilla, los sistemas de IA generativa necesitan la mayor cantidad de datos posible para entrenarse y aprender. Cuantos más datos obtengan, mejor podrán generar aproximaciones de cómo suenan, se ven, hablan y escriben los humanos. Internet proporciona cantidades masivas de datos que son relativamente fáciles de capturar a través de herramientas de web scraping y API. Pero ese proceso de captura no distingue entre obras protegidas por derechos de autor o datos personales. Si está ahí, se lo lleva. Es posible que esos datos se hayan publicado en Internet años antes de que existieran las empresas que ahora los están usando. Es posible también que esos datos de todos nosotros no hayan sido puestos en Internet por nosotros mismos. Por ejemplo, dándole a una empresa sus datos para un propósito con el que estaba de acuerdo. Ahora estos sistemas de IA acceden a los sitios de esas empresas y levantan nuestros datos.

Todas las empresas aseguran que usan datos que son de acceso público. Incluso la lista más detallada de fuentes de Meta para su primer modelo LLaMA se refiere a cosas como "Common Crawl", que es un archivo de código abierto de todo Internet que incluye sitios como Github, Wikipedia y Stack Exchange, que también son enormes repositorios de información. Todas estas fuentes pueden contener información personal. OpenAI admite que usa datos personales para entrenar sus modelos, pero dice que se encuentra con esos datos "incidentalmente" y solo los usa para “mejorar nuestros modelos", en lugar de crear perfiles de personas para venderles anuncios.

Lo cierto es que muchos de los problemas de privacidad actuales son el resultado de la falta de aprobación de leyes de privacidad reales y significativas en el pasado que podrían haber protegido nuestros datos incluso antes de que existieran estos conjuntos de datos y tecnologías. Siempre es posible tratar de minimizar los datos que publicamos ahora, pero no podemos hacer mucho con lo que ya se ha extraído y utilizado.

¿Encontraste un error?

Reportar