Por Christian Mestanza Arquiñigo, El Comercio/GDA
La inteligencia artificial ya es multimodal. OpenAI, la empresa desarrolladora del popular ChatGPT, reveló el pasado jueves una nueva herramienta para generar videos a partir de descripciones de texto.
Se trata de Sora, palabra que en japonés significa cielo. Al poco tiempo de su presentación, la noticia viajó por internet y las redes sociales. ¿Qué hizo que esta IA halla llamado tanto la atención? El gran realismo de sus imágenes.
La IA puede producir imágenes siguiendo las instrucciones del usuario tanto en tema como en estilo, así como ya nos tienen acostumbrados otras herramientas generativas de texto e imágenes. La duración de sus videos es de un minuto.
La compañía ha dicho en su blog que Sora puede crear un video desde cero a partir de las instrucciones de texto o tomando como referencia una imagen fija para después ampliarla con material nuevo.
“Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción en el mundo real”, explica OpenAI al presentar la nueva herramienta de conversión de texto a video. “Sora puede generar videos de hasta un minuto de duración manteniendo la calidad visual y la fidelidad a las indicaciones del usuario”, añade.
"nighttime footage of a hermit crab using an incandescent lightbulb as its shell"
— Aditya Ramesh (@model_mechanic) February 18, 2024
Video generated by Sora pic.twitter.com/YcsxCeE5W2
La IA multimodal
OpenAI presentó en 2022 su chatbot ChatGPT, aunque un año antes ya había lanzado Dall-E, su herramienta para generar imágenes a partir de texto. La fama de ChatGPT, que es una IA especializada en el dialogo, no tardó demasiado en llegar, en pocos meses ya había acumulado 100 millones de usuarios.
Si bien la inteligencia artificial es una tecnología con la cual se experimenta desde hace décadas, la popularidad de los productos de la compañía hizo que estás herramientas irrumpieran en el mundo tecnológico. Desde entonces otras empresas de talla mundial como Google, Meta o, incluso, Apple, trabajan en sus propios proyectos.
Sora is here! It's a diffusion transformer that can generate up to a minute of 1080p video with great coherence and quality. @_tim_brooks and I have been working on this at @openai for a year, and we're pumped about pursuing AGI by simulating everything! https://t.co/DzbyReLJEc pic.twitter.com/IFqfh8H6FW
— Bill Peebles (@billpeeb) February 15, 2024
Aunque ya existen otros modelos para generar videos, aún se encuentran varios pasos atrás de sus homólogos en texto e imagen fija. Sora cambia un poco este escenario, ya que puede generar videos de cualquier resolución y relación de aspecto, incluso hasta 1080p.
Meses atrás, en una conversación con El Comercio, César Beltran, coordinador del Grupo de Investigación en Inteligencia Artificial de la Pontificia Universidad Católica del Perú (PUCP), el especialista señaló que el camino que seguiría la inteligencia artificial sería volverse multimodal, es decir, combinar texto, imagen, video y sonido. Ya hemos llegado. ¿Cuál será el siguiente paso?
https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024
Disponibilidad de Sora
El consejero delegado de OpenAI, Sam Altman, anunció el lanzamiento de Sora en la red social X. Por el momento, Sora no es de acceso abierto, solo está disponible a algunos investigadores y creadores de video. Sin embargo, tanta ha sido la fascinación que se ha conocido en la red social de Elon Musk, que Altman ha presentado varios ejemplos más.
El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes convincentes que expresan emociones vibrantes, explica la empresa.
Aquí un ejemplo del ‘prompt’ que ha utilizado OpenAI en uno de sus videos: “Una mujer elegante camina por una calle de Tokio llena de luces de neón brillantes y carteles animados de la ciudad. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Lleva lentes de sol y lápiz labial rojo. Camina con confianza y despreocupación. La calle está húmeda y refleja, creando un efecto espejo de las luces de colores. Muchos peatones caminan por ahí”.
Aquí hay un ejemplo más: “Se ve un gato atigrado blanco y naranja corriendo felizmente por un denso jardín, como si persiguiera algo. Sus ojos están muy abiertos y felices mientras corre hacia adelante, escaneando las ramas, flores y hojas mientras camina. El camino es estrecho ya que se abre paso entre todas las plantas. La escena se captura desde un ángulo a nivel del suelo, siguiendo de cerca al gato, brindando una perspectiva baja e íntima. La imagen es cinematográfica con tonos cálidos y una textura granulada. La luz del día dispersa entre las hojas y las plantas de arriba crea un cálido contraste que acentúa el pelaje naranja del gato. La toma es clara y nítida, con poca profundidad de campo”.
El equipo con acceso a la herramienta estará encargado de poner a prueba sus capacidades y encontrar fallos, así como determinar su susceptibilidad a eludir los términos de servicio de OpenAI, que prohíben “la violencia extrema, el contenido sexual, las imágenes de odio, la imagen de celebridades o la propiedad intelectual de terceros.
We were blown away by the Sora announcement but felt it needed something...
— ElevenLabs (@elevenlabsio) February 18, 2024
What if you could describe a sound and generate it with AI? pic.twitter.com/HcUxQ7Wndg
Tecnología en la mira
OpenAI ha sido demandada en más de una ocasión por presunta infracción de derechos de autor en el entrenamiento de sus herramientas de inteligencia artificial generativa, que digieren cantidades gigantescas de material extraído de Internet e imitan las imágenes o el texto contenidos en esos conjuntos de datos. Medios internacionales de noticias como New York Times han demandado a la compañía.
La irrupción de herramientas como Sora, que tiene gran realismo, abren la posibilidad a la industria del entretenimiento y la producción audiovisual, pero también existe riesgos como la masificación de los ‘deepfakes’, video manipulados que se hacen pasar por reales. La industria tecnológica enfrenta grandes retos para los próximos años.