Искусственный интеллект для преобразования текста в видео, такой как Sora

Сора (OpenAI)

Sora — самое новое из объявленных названий, но оно уже вызвало наибольший ажиотаж, отчасти потому, что это продукт OpenAI — известного разработчика ChatGPT, но в основном из-за качества видео, которые программа создает из простых текстовых команд.

Успех компании с ChatGPT также обеспечивает её ИИ глубокое понимание языка. В видеороликах, демонстрирующих возможности Sora, персонажи двигаются и выражают свои мысли так же реалистично, как в кино.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — «Сюрреалистическое» видео, созданное Сорой из текстовых команд

Однако Sora пока недоступна широкой публике по соображениям безопасности. OpenAI проведёт тщательные проверки, прежде чем сделать её общедоступной, особенно учитывая растущее число пользователей ИИ, которые используют её в корыстных целях, выдавая себя за других пользователей или в незаконных целях.

Люмьер (Google)

Lumiere — это продукт от Google, который также способен генерировать видео из текстового ввода на основе структурированной модели диффузии STUNet (Space-Time-U-Net). Lumiere не занимается сшивкой кадров, а вместо этого ИИ распознаёт детали в видео (пространственная составляющая), отслеживает их движение и изменение одновременно (временная составляющая), тем самым обеспечивая плавность процесса.

Как и Sora, Lumiere пока не был представлен широкой публике. Компания представила его лишь в конце января 2024 года, после выхода Gemini, крупной языковой модели, которая недавно была синхронизирована с Bard.

ВидеоПоэт (Google)

Эта большая языковая модель (LLM) обучается на основе огромного хранилища видео, изображений, аудио и текста, разработанного Google Search в 2023 году. VideoPoet может выполнять различные задачи с такими источниками входных данных, как текст, изображения, видео... для создания видео, выделения контента, преобразования видео в аудио, превращения статичных изображений в анимацию...

Первоначальная идея VideoPoet возникла из необходимости преобразовать любую модель языка авторегрессии в систему генерации видео. Современные модели языка авторегрессии способны обрабатывать текст и программный код подобно человеку, но испытывают трудности с видео. VideoPoet решает эту проблему, используя токенизацию для преобразования входных данных из любого формата в понятный ему язык.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — Инструменты для создания видео из текста в основном проверяют свои пределы

Эму Видео (Мета)

Помимо Google и OpenAI, Meta также является одним из крупных технологических гигантов, активно занимающихся разработкой ИИ. Компания, которой принадлежит Facebook, также разработала ИИ для создания видео под названием Emu Video, который может преобразовывать изображения в текст и затем использовать его в качестве данных для создания клипов.

Emu Video получает положительные отзывы от бета-тестеров: 81% предпочитают его Imagen Video (Google). Более 90% выбрали модель Meta вместо PYOCO (Nvidia), и она даже превзошла Meta Make-A-Video (которую выбрали 96%).

CogVideo (Университет Цинхуа, Китай)

В отличие от вышеперечисленных моделей, которые являются продуктами ведущих мировых технологических компаний, CogVideo — это искусственный интеллект, разработанный исследовательской группой из Университета Цинхуа — ведущего престижного учебного заведения в Китае и Азии. Программа основана на CogView2 — предобученной модели преобразования текста в изображение.

Эксперт по компьютерному искусству Гленн Маршалл, тестировавший CogVideo, заявил, что «режиссёры могут потерять работу». Клип под названием «Ворон », созданный им с помощью CogVideo, получил высокую оценку и был номинирован на премию Британской академии кино (BAFTA).

Ссылка на источник