OpenAI está compartiendo la nueva tecnología, llamada Sora, con un pequeño grupo de los primeros probadores mientras intenta comprender los peligros potenciales.
Aunque aún no está disponible para su implementación, el creador de ChatGPT asegura que la herramienta de inteligencia artificial generativa será capaz de generar videos de alta calidad a partir de instrucciones escritas.
Según The Muffin por Mauricio Cabrera “Sora, el Text to Video de OpenAI que pondrá a Hollywood en las manos de cualquier usuario. En el futuro la inteligencia artificial será como el genio de la lámpara para los usuarios que sin realmente hacer se convertirán en creadores”
El fabricante de ChatGPT dio a conocer el jueves su incursión en la inteligencia artificial generativa con Sora, una herramienta que crea instantáneamente videos cortos en respuesta a comandos escritos. Aunque no es pionero en su categoría, ya que empresas como Google, Meta y la startup Runway ML han presentado tecnologías similares, la destacada calidad de los videos generados por OpenAI ha dejado impresionados a los observadores. Algunos de estos videos fueron producidos luego de que Sam Altman, director ejecutivo de OpenAI, solicitara a los usuarios de redes sociales que enviaran ideas para guiones escritos. Este logro sorprendente ha generado preocupaciones sobre las implicaciones éticas y sociales asociadas.
Crear vídeo a partir de texto
Sora es un modelo de IA que puede crear escenas realistas e imaginativas a partir de instrucciones de texto.
Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción con el mundo real.
Presentamos Sora, nuestro modelo de texto a video. Sora puede generar videos de hasta un minuto de duración manteniendo la calidad visual y el cumplimiento de las indicaciones del usuario.
Sin embargo, la sobresaliente calidad de los videos presentados por OpenAI, algunos de los cuales fueron producidos después de que el director ejecutivo, Sam Altman, solicitara a los usuarios de redes sociales que enviaran ideas para guiones escritos, dejó boquiabiertos a los observadores. Esto, al mismo tiempo, generó inquietudes sobre las posibles implicaciones éticas y sociales.
“Un fotógrafo independiente de New Hampshire (EE.UU.) sugirió en X, antes Twitter, una sesión de cocina instructiva con ñoquis caseros a cargo de una abuela influyente en las redes sociales en una rústica cocina toscana con iluminación cinematográfica. Altman respondió poco después con un video realista que representaba fielmente la sugerencia”.
Aquí te presentamos 9 vídeos que te sorprenderán
Hoy en día, Sora está disponible para los miembros del equipo rojo para evaluar áreas críticas en busca de daños o riesgos. También estamos otorgando acceso a una serie de artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo hacer avanzar el modelo para que sea más útil para los profesionales creativos.
Estamos compartiendo el progreso de nuestra investigación desde el principio para comenzar a trabajar y recibir comentarios de personas ajenas a OpenAI y para brindarle al público una idea de las capacidades de IA que hay en el horizonte.
Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico.
El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo video generado que persisten con precisión los personajes y el estilo visual.
El modelo actual tiene debilidades. Puede tener dificultades para simular con precisión la física de una escena compleja y es posible que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco.
El modelo también puede confundir los detalles espaciales de un mensaje, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica.
Seguridad
Tomaremos varias medidas de seguridad importantes antes de que Sora esté disponible en los productos de OpenAI. Estamos trabajando con los miembros del equipo rojo (expertos en áreas como desinformación, contenido que incita al odio y prejuicios) que probarán el modelo de manera adversa.
También estamos creando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede indicar cuándo Sora generó un video. Planeamos incluir metadatos de C2PA en el futuro si implementamos el modelo en un producto OpenAI.
Además de desarrollar nuevas técnicas para prepararnos para el despliegue, estamos aprovechando los métodos de seguridad existentes que creamos para nuestros productos que utilizan DALL·E 3, que también son aplicables a Sora.
Por ejemplo, una vez en un producto OpenAI, nuestro clasificador de texto verificará y rechazará las solicitudes de ingreso de texto que infrinjan nuestras políticas de uso, como aquellas que solicitan violencia extrema, contenido sexual, imágenes de odio, imágenes de celebridades o la IP de otros. También hemos desarrollado clasificadores de imágenes sólidos que se utilizan para revisar los fotogramas de cada video generado para ayudar a garantizar que cumpla con nuestras políticas de uso, antes de mostrarlo al usuario.
Involucraremos a formuladores de políticas, educadores y artistas de todo el mundo para comprender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología. A pesar de investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas utilizarán nuestra tecnología, ni todas las formas en que abusarán de ella. Es por eso que creemos que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo.
Técnicas de investigación
Sora es un modelo de difusión que genera un vídeo comenzando con uno que parece ruido estático y lo transforma gradualmente eliminando el ruido en muchos pasos.
Sora es capaz de generar vídeos completos de una sola vez o ampliar los vídeos generados para hacerlos más largos. Al darle al modelo previsión de muchos fotogramas a la vez, hemos resuelto el difícil problema de garantizar que un sujeto permanezca igual incluso cuando se pierde de vista temporalmente.
Al igual que los modelos GPT, Sora utiliza una arquitectura de transformador, lo que desbloquea un rendimiento de escalado superior.
Representamos videos e imágenes como colecciones de unidades de datos más pequeñas llamadas parches, cada una de las cuales es similar a un token en GPT. Al unificar la forma en que representamos los datos, podemos entrenar transformadores de difusión en una gama más amplia de datos visuales de lo que era posible antes, abarcando diferentes duraciones, resoluciones y relaciones de aspecto.
Sora se basa en investigaciones anteriores sobre los modelos DALL·E y GPT. Utiliza la técnica de recaptioning de DALL·E 3, que implica generar subtítulos altamente descriptivos para los datos de entrenamiento visual. Como resultado, el modelo puede seguir más fielmente las instrucciones de texto del usuario en el vídeo generado.
Además de poder generar un vídeo únicamente a partir de instrucciones de texto, el modelo puede tomar una imagen fija existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y atención al pequeño detalle. El modelo también puede tomar un vídeo existente y ampliarlo o completar los fotogramas faltantes. Obtenga más información en nuestro informe técnico .
Sora sirve como base para modelos que pueden comprender y simular el mundo real, una capacidad que creemos será un hito importante para lograr AGI.
¿EXISTEN OTRAS HERRAMIENTAS DE IA PARA LA GENERACIÓN DE VIDEOS?
Sora de OpenAI no representa la primera incursión en este tipo de herramientas. Google, Meta y Runway ML son otras compañías que han introducido tecnologías similares.
No obstante, los expertos de la industria han destacado la calidad y la notable duración de los videos generados por Sora hasta el momento. Fred Havemeyer, director de investigación sobre IA y software en Estados Unidos para Macquarie, subrayó que el lanzamiento de Sora marca un importante avance en el sector.
“No solo es posible generar videos más extensos, con una duración de hasta 60 segundos, sino que también los videos creados presentan un aspecto más natural y parecen adherirse más a las leyes de la física y al mundo real”, explicó Havemeyer. “Se observa una menor presencia de elementos desconcertantes o fragmentos en los videos que los hagan parecer… poco auténticos”.
Aunque ha habido un “tremendo progreso” en los videos generados por IA en el último año, que incluye el lanzamiento de Stable Video Diffusion en noviembre pasado, según el analista sénior de Forrester, Rowan Curran, estos videos han necesitado más “ajustes” para lograr la coherencia entre personajes y escenas.
Sin embargo, la coherencia y la duración de los videos creados por Sora presentan “nuevas oportunidades para que los creativos integren elementos de video generados por IA en contenidos más tradicionales, e incluso ahora permiten la generación de videos narrativos completos a partir de uno o unos pocos comandos”, señaló Curran en un correo electrónico enviado a The Associated Press el viernes.
¿CUÁLES SON LOS POTENCIALES RIESGOS?
A pesar de que las capacidades de Sora han dejado impresionados a los observadores desde su lanzamiento el jueves, también persisten las preocupaciones en torno a las implicaciones éticas y sociales de las aplicaciones de esta herramienta.
Havemeyer ilustra riesgos significativos, especialmente en el ciclo electoral de 2024. La disponibilidad de una forma “potencialmente mágica” de generar videos que parecen auténticos plantea una serie de problemas, tanto en el ámbito político como fuera de él, incluyendo la posibilidad de fraudes, propaganda y desinformación.
“Las consecuencias negativas de la IA generativa serán un tema crucial de debate en 2024”, afirmó Havemeyer. “Es un asunto sustancial que todas las empresas y personas tendrán que abordar este año”.
Las decisiones sobre la regulación de la IA y sus riesgos siguen estando en manos de las empresas tecnológicas, mientras que los gobiernos a nivel mundial se esfuerzan por ponerse al día. Aunque la Unión Europea alcanzó un acuerdo sobre las primeras normas integrales de IA en diciembre, la ley no entrará en vigor hasta dos años después de su aprobación definitiva.
OpenAI anunció el jueves que implementaría medidas de seguridad significativas antes de generalizar el uso de Sora. La empresa está trabajando con “equipos rojos”, expertos en áreas como desinformación, contenidos que incitan al odio y prejuicios, para evaluar el modelo. También están desarrollando herramientas para detectar contenido engañoso, como un clasificador capaz de indicar si un video ha sido generado por Sora.
Anna Makanju, vicepresidenta de Asuntos Globales de OpenAI, reiteró esto durante su participación el viernes en la Conferencia de Seguridad de Múnich, donde OpenAI y otras 19 compañías tecnológicas se comprometieron a colaborar voluntariamente para combatir los deepfakes electorales generados por IA. Makanju afirmó que el lanzamiento de Sora se llevará a cabo “de manera bastante cautelosa”.
Al mismo tiempo, OpenAI ha revelado escasa información sobre la creación de Sora. El informe técnico de la compañía no especifica las imágenes y fuentes de video utilizadas para entrenar a Sora, y hasta el momento, la empresa no ha respondido a una solicitud de comentarios realizada el viernes.
El lanzamiento de Sora también se produce en un contexto de demandas contra OpenAI y su socio comercial Microsoft, presentadas por algunos escritores y por The New York Times, por el uso de obras escritas protegidas por derechos de autor para entrenar a ChatGPT. OpenAI paga a la AP una cantidad no divulgada por la licencia de su archivo de noticias en texto.
Esa fue la pregunta que se realizó en el #ConcejoDeManizales este fin de semana. En este espacio nos acompañaron @crc_caldas, @ccmanizales , @sdeicaldas , entre otras entidades que socializaron sobre las competencias de nuestros empresarios, el poder de la innovación y sus habilidades productivas. https://www.instagram.com/reel/C3gijXbtbvK/?igsh=MXNxd3BxdG9xb3loYw==