IA de texto a vídeo como Sora

[anuncio_1]

Sora (OpenAI)

Sora es el nombre más reciente en ser anunciado pero el que ha causado más revuelo, en parte porque es un producto de OpenAI, el famoso desarrollador de ChatGPT, pero principalmente por la calidad de los vídeos que el programa crea solo con comandos de texto.

El éxito de la compañía con ChatGPT también proporciona a su IA una profunda comprensión del lenguaje. Los vídeos que demuestran las capacidades de Sora muestran a los personajes moviéndose y expresándose con la misma realismo que una película.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — Vídeo "surrealista" creado por Sora a partir de comandos de texto

Sin embargo, Sora aún no está disponible para el público por razones de seguridad. OpenAI tomará medidas rigurosas antes de hacerlo público, especialmente dado el creciente número de usuarios de IA que lo utilizan con fines maliciosos, suplantación de identidad o ilegales.

Lumiere (Google)

Lumiere es un producto de Google que también permite generar videos a partir de texto, basándose en el modelo de difusión estructurada STUNet (Espacio-Tiempo-U-Net). Lumiere no se molesta en unir imágenes fijas, sino que su IA identifica los detalles del video (parte espacial) y rastrea cómo se mueven y cambian simultáneamente (parte temporal), lo que facilita el proceso.

Al igual que Sora, Lumiere aún no se ha lanzado al público. La compañía lo presentó a finales de enero de 2024, tras el lanzamiento de Gemini, un importante modelo de lenguaje que acaba de sincronizarse con Bard.

VideoPoet (Google)

Este gran modelo de lenguaje (LLM) se entrena a partir de un enorme repositorio de vídeos, imágenes, audio y texto desarrollado por Google Search en 2023. VideoPoet puede realizar diversas tareas a partir de fuentes de entrada como texto, imágenes, vídeos... para crear vídeos, resaltar contenido, convertir vídeos a audio, convertir imágenes fijas en animaciones...

La idea original de VideoPoet surgió de la necesidad de convertir cualquier modelo de lenguaje autorregresivo en un sistema de generación de video. Los modelos de lenguaje autorregresivo actuales pueden procesar texto y código de programación como los humanos, pero presentan dificultades con el video. VideoPoet soluciona este problema mediante la tokenización para convertir la entrada de cualquier formato a un lenguaje comprensible.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — Las herramientas para crear vídeos a partir de texto están probando en gran medida sus límites

Vídeo de Emu (Meta)

Además de Google y OpenAI, Meta es una de las grandes tecnológicas que se dedica a la creación de IA. La empresa propietaria de Facebook también desarrolló una IA para crear videos llamada Emu Video, que puede convertir imágenes en texto y luego usarlas como datos para crear clips.

Emu Video está recibiendo críticas positivas de los usuarios de la versión beta, con un 81% que lo prefiere a Imagen Video (Google). Más del 90% eligió el modelo de Meta en lugar de PYOCO (Nvidia), e incluso superó a Make-A-Video de Meta (el 96% lo eligió).

CogVideo (Universidad de Tsinghua, China)

A diferencia de los modelos anteriores, todos ellos productos de las principales empresas tecnológicas del mundo , CogVideo es una IA desarrollada por un equipo de investigación de la Universidad de Tsinghua, una prestigiosa institución educativa de referencia en China y Asia. El programa se basa en CogView2, un modelo de texto a imagen preentrenado.

El experto en arte digital Glenn Marshall, quien probó CogVideo, afirmó que "los directores podrían perder sus trabajos". El clip titulado "El Cuervo ", creado con la ayuda de CogVideo, recibió grandes elogios y fue nominado a los Premios de la Academia Británica de Cine (BAFTA).

[anuncio_2]
Enlace de origen