Text-zu-Video-KIs wie Sora

[Anzeige_1]

Sora (OpenAI)

Sora ist der neuste Name, der angekündigt wurde, hat aber für das größte Aufsehen gesorgt, teilweise weil es ein Produkt von OpenAI ist – dem berühmten Entwickler von ChatGPT –, aber hauptsächlich wegen der Qualität der Videos, die das Programm nur aus Textbefehlen erstellt.

Der Erfolg des Unternehmens mit ChatGPT verleiht seiner KI zudem ein tiefes Sprachverständnis. Clips, die Soras Fähigkeiten demonstrieren, zeigen Charaktere, die sich so real bewegen und ausdrücken wie in einem menschlichen Film.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — „Surrealistisches“ Video, erstellt von Sora aus Textbefehlen

Aus Sicherheitsgründen ist Sora jedoch noch nicht öffentlich verfügbar. OpenAI wird sorgfältige Prüfungen durchführen, bevor es der Öffentlichkeit zugänglich gemacht wird, insbesondere angesichts der wachsenden Zahl von KI-Nutzern, die es für schändliche Zwecke, die Identitätsbetrug oder illegale Zwecke verwenden.

Lumiere (Google)

Lumiere ist ein Produkt von Google, das ebenfalls Videos aus Texteingaben generieren kann. Dabei basiert es auf dem strukturierten Diffusionsmodell STUNet (Space-Time-U-Net). Lumiere fügt keine Standbilder zusammen, sondern erkennt mithilfe der KI die Details im Video (räumlicher Teil), verfolgt deren Bewegung und gleichzeitige Veränderung (zeitlicher Teil) und trägt so zu einem reibungslosen Ablauf bei.

Wie Sora wurde auch Lumiere noch nicht veröffentlicht. Das Unternehmen stellte es erst Ende Januar 2024 vor, nach der Veröffentlichung von Gemini, einem wichtigen Sprachmodell, das gerade mit Bard synchronisiert wurde.

VideoPoet (Google)

Dieses große Sprachmodell (LLM) wird anhand eines riesigen Repositorys mit Videos, Bildern, Audiodateien und Texten trainiert, das 2023 von Google Search entwickelt wurde. VideoPoet kann verschiedene Aufgaben aus Eingabequellen wie Text, Bildern, Videos usw. ausführen, um Videos zu erstellen, Inhalte hervorzuheben, Videos in Audiodateien umzuwandeln, Standbilder in Animationen umzuwandeln usw.

Die ursprüngliche Idee für VideoPoet entstand aus der Notwendigkeit, jedes autoregressive Sprachmodell in ein Videogenerierungssystem zu konvertieren. Aktuelle autoregressive Sprachmodelle können Text und Programmcode wie Menschen verarbeiten, haben aber bei Videos Schwierigkeiten. VideoPoet löst dieses Problem, indem es mithilfe von Tokenisierung Eingaben aus jedem Format in eine verständliche Sprache konvertiert.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — Tools zum Erstellen von Videos aus Text stoßen meist an ihre Grenzen

Emu-Video (Meta)

Neben Google und OpenAI ist auch Meta einer der großen Technologiekonzerne, die sich aktiv mit der Entwicklung künstlicher Intelligenz beschäftigen. Das Unternehmen, dem Facebook gehört, entwickelte ebenfalls eine KI zur Videoerstellung namens Emu Video. Diese kann Bilder in Text umwandeln und diese Daten dann zur Erstellung von Clips verwenden.

Emu Video erhält positive Bewertungen von Betatestern. 81 % bevorzugen es gegenüber Imagen Video (Google). Über 90 % entscheiden sich für Metas Modell gegenüber PYOCO (Nvidia) und es übertrifft sogar Metas Make-A-Video (für das sich 96 % entscheiden).

CogVideo (Tsinghua-Universität, China)

Im Gegensatz zu den oben genannten Modellen, die allesamt Produkte weltweit führender Technologieunternehmen sind, handelt es sich bei CogVideo um eine KI, die von einem Forschungsteam der Tsinghua -Universität – einer führenden und renommierten Universität in China und Asien – entwickelt wurde. Das Programm basiert auf CogView2, einem vortrainierten Text-zu-Bild-Modell.

Der Computerkunstexperte Glenn Marshall, der CogVideo testete, sagte, dass „Regisseure ihren Job verlieren könnten“. Der Clip mit dem Titel The Crow , den er mit Hilfe von CogVideo erstellte, erhielt großes Lob und wurde für einen British Academy Film Award (BAFTA) nominiert.

[Anzeige_2]
Quellenlink