
Çin'in önde gelen teknoloji şirketi Tencent, tek bir girdi görüntüsüyle üç boyutlu uzayda hareketi simüle eden videolar oluşturabilen yeni bir yapay zeka modelini duyurdu.

HunyuanWorld-Voyager adı verilen sistem, derinlik bilgisi içeren kısa klipler üretiyor ve bunları 3 boyutlu nokta matrisine yeniden yapılandırabiliyor. Bu sayede içerik oluşturucular için yeni olanaklar açılıyor, ancak 3 boyutlu modellerle tam olarak etkileşime giremiyor.

HunyuanWorld-Voyager, 49 karelik (yaklaşık iki saniyelik video) diziler üreten açık ağırlıklı bir modeldir; ancak kullanıcılar klipleri birbirine bağlayarak birkaç dakikalık sürekli çekimler oluşturabilirler.

Ars Technica, izleyici sanal kameranın perspektifini değiştirdikçe nesnelerin göreceli konumlarını koruduğunu ve ortamın tamamen üç boyutluymuş gibi davrandığını belirtiyor. Nihai çıktı hâlâ iki boyutlu bir video olsa da, Tencent, eşlik eden derinlik verilerinin geleneksel modelleme tekniklerine gerek kalmadan 3B yeniden yapılandırmaya olanak sağladığını belirtiyor.

Voyager, giriş görüntülerini kullanıcı tanımlı kamera yollarıyla birleştirerek çalışır. Kullanıcı, sahnede kaydırma, eğme veya hareket etme gibi hareketleri belirler ve sistem aynı anda renkli video ve derinlik haritası oluşturur. Videoda bir nesne belirdiğinde, çıkış derinlik verileri nesnenin doğru konuma olan göreceli mesafesini kaydeder.

Tencent'in teknik makalesinde dünya önbelleği olarak adlandırılan ikincil bir bileşen, sistem yeni kareler oluşturdukça 3B nokta bulutlarını depolar.

Voyager, her kamera hareketinde bu noktaları iki boyuta yansıtır ve referans olarak kullanır. Bu işlem, sonraki karelerin daha önce oluşturulan içerikle eşleşmesini sağlayarak mekansal tutarlılığın korunmasına yardımcı olur.

Bu model, çerçeveler oluşturulduktan sonra bozulmaya karşı koruma sağlamak için bunları 3B noktalara dönüştürür ve karşılaştırma için sisteme geri besler. Bu geri bildirim döngüsü, hatalar zamanla birikse bile geometrik stabiliteyi sağlar.

Bu yöntem birkaç dakika boyunca tutarlı video sağlar ancak daha uzun veya daha karmaşık kamera hareketlerinde, özellikle 360° dönüşlerde zorlanır.

Tencent, Voyager'ı gerçek hayattan görüntüler ve Unreal Engine ile oluşturulmuş sahneler de dahil olmak üzere 100.000'den fazla video klip üzerinde eğitti. Bu büyük ölçekli veri seti, sisteme kameraların üç boyutlu bir ortamda nasıl hareket ettiğini öğretti. Ayrı bir otomatik işlem, her kare için derinliği hesaplamak üzere video klipleri tarayarak eğitim girdileri oluşturdu ve böylece verilerin manuel olarak etiketlenmesine gerek kalmadı.

Sistem muazzam miktarda işlem gücü gerektiriyor. Modeli 540p çözünürlükte çalıştırmak için en az 60 GB GPU belleği gerekiyor; optimum sonuçlar için 80 GB önerilir. Tencent, modelin Hugging Face'e ağırlık verdiğini ve hem tek GPU'lu hem de çoklu GPU'lu kurulumları desteklediğini duyurdu. Şirket, xDiT platformunu kullanarak performansın yatay olarak ölçeklendiğini belirtiyor; sekiz GPU'lu bir sistem, görüntüleri tek bir GPU'da çalıştırmaktan yaklaşık 6,7 kat daha hızlı işleyebilir.

Çoğu üretken video modeli, her kareyi geometrik tutarlılık uygulamadan oluşturur. Örneğin, OpenAI'nin Sora modeli, 3B tutarlılıktan ziyade görsel gerçekçiliğe öncelik verir. Voyager ise farklı bir yaklaşım benimseyerek, tam 3B anlayışı yerine geri bildirim tabanlı desen eşleştirme yoluyla kareler arasında temiz bir geometri sağlar.

Stanford araştırmacıları tarafından 3 boyutlu dünya oluşturma sistemlerini değerlendirmek için geliştirilen bir ölçek olan WorldScore'da Voyager 77,62 puan aldı. Tencent raporunda, bunun benzer modeller arasında en yüksek puan olduğu ve WonderWorld'ün 72,69 ve CogVideoX-I2V'nin 62,15 puanlarını geride bıraktığı belirtildi. Voyager, stilistik tutarlılık ve öznel kalite açısından WonderWorld'ü geride bıraktı, ancak kamera kontrolü açısından geride kaldı.

Umut vadeden puanlara rağmen, sistem önemli bir uyarıyla geliyor: bazı lisans kısıtlamaları. Tencent'in Hunyuan paketindeki diğer modeller gibi, Tencent de Voyager'ın Avrupa Birliği, Birleşik Krallık veya Güney Kore'de kullanılmasını yasaklıyor. Şirket ayrıca, aylık 100 milyondan fazla aktif kullanıcıya hizmet veren ticari dağıtımlar için ek anlaşmalar gerektiriyor.

Çıktı kalitesi, yapay zeka destekli ortamlar için büyük bir ilerleme. Ancak, yüksek hesaplama maliyetleri ve sahne tutarlılığındaki mevcut sınırlamalar, Voyager gibi sistemlerin tamamen etkileşimli, gerçek zamanlı deneyimleri desteklemesinin biraz zaman alabileceği anlamına geliyor. Şimdilik, sistem muhtemelen video oluşturma ve deneysel 3B yeniden yapılandırma iş akışları için en değerli olanı.
Kaynak: https://khoahocdoisong.vn/mo-hinh-ai-bien-mot-buc-anh-duy-nhat-thanh-the-gioi-3d-post2149050727.html
Yorum (0)