Model s umělou inteligencí promění jednu fotografii ve 3D svět

Přední čínská technologická společnost Tencent právě oznámila nový model umělé inteligence, který dokáže vytvářet videa simulující pohyb v trojrozměrném prostoru pouze s jediným vstupním obrázkem.

Systém s názvem HunyuanWorld-Voyager generuje krátké klipy obsahující informace o hloubce, které lze následně rekonstruovat do 3D bodové matice – otevírá tak tvůrcům obsahu nové možnosti, i když nedokáže plně interagovat s 3D modely.

HunyuanWorld-Voyager je model s otevřeným vážením, který generuje sekvence 49 snímků – přibližně dvě sekundy videa – ale uživatelé mohou klipy propojit a vytvořit tak několik minut nepřetržitého záznamu.

Ars Technica poznamenává, že jakmile divák změní perspektivu virtuální kamery, objekty si zachovají svou relativní polohu a prostředí se chová, jako by bylo plně trojrozměrné. I když je konečným výstupem stále dvourozměrné video, Tencent tvrdí, že doprovodná hloubková data umožňují 3D rekonstrukci bez nutnosti tradičních modelovacích technik.

Voyager funguje na principu kombinování vstupních obrazů s uživatelem definovanými trajektoriemi kamery. Uživatel zadává pohyby, jako je posouvání, naklánění nebo pohyb v scéně, a systém současně generuje barevné video a mapu hloubky. Když se objekt objeví ve videu, výstupní data hloubky zaznamenají jeho relativní vzdálenost od správného místa.

Sekundární komponenta, v technickém dokumentu společnosti Tencent nazvaná world cache, ukládá 3D mračna bodů, když systém generuje nové snímky.

S každým pohybem kamery Voyager promítá tyto body zpět do dvou rozměrů a používá je jako referenci. Tento proces zajišťuje, že následující snímky odpovídají dříve generovanému obsahu, což pomáhá zachovat prostorovou konzistenci.

Tento model chrání snímky před zkreslením po jejich vytvoření tím, že je převádí na 3D body, které jsou následně odesílány zpět do systému pro porovnání. Tato zpětnovazební smyčka zajišťuje geometrickou stabilitu, i když se chyby v průběhu času hromadí.

Tato metoda udržuje souvislé video po dobu několika minut, ale potýká se s delšími nebo složitějšími pohyby kamery, zejména s rotacemi o 360°.

Společnost Tencent trénovala Voyager na více než 100 000 videoklipech, včetně reálných záběrů a scén vytvořených pomocí Unreal Engine. Tato rozsáhlá datová sada naučila systém, jak se kamery obvykle pohybují v trojrozměrném prostředí. Samostatný automatizovaný proces generoval trénovací vstupy skenováním videoklipů za účelem výpočtu hloubky pro každý snímek, čímž eliminoval nutnost ručního označování dat.

Systém vyžaduje obrovské množství výpočetního výkonu. Spuštění modelu v rozlišení 540p vyžaduje alespoň 60 GB paměti GPU, pro optimální výsledky se doporučuje 80 GB. Společnost Tencent oznámila váhy modelu pro Hugging Face a podporuje nastavení s jednou i více GPU. Společnost uvádí, že při použití platformy xDiT se výkon škáluje horizontálně – systém s osmi GPU dokáže zpracovat záběry přibližně 6,7krát rychleji než běh na jedné GPU.

68b68857d11c1-68b68857c9889-68b68857c9858-obrázek99.gif

Většina generativních video modelů generuje každý snímek bez použití geometrické konzistence. Například Sora od OpenAI upřednostňuje vizuální realismus před 3D konzistencí. Voyager volí jiný přístup a udržuje čistou geometrii napříč snímky prostřednictvím zpětné vazby na základě porovnávání vzorů, nikoli na základě plného 3D porozumění.

68b686ef2d656-68b686ef281f7-68b686ef281b6-obrázek1-min.gif

Na škále WorldScore, kterou vyvinuli vědci ze Stanfordu k hodnocení systémů generujících 3D světy, dosáhl Voyager skóre 77,62. Zpráva společnosti Tencent uvádí, že se jedná o nejvyšší skóre mezi srovnatelnými modely, které překonalo 72,69 u WonderWorld a 62,15 u CogVideoX-I2V. Voyager WonderWorld překonal ve stylistické konzistenci a subjektivní kvalitě, ale zaostával v ovládání kamery.

68b6882bd44de-68b6882bd0a69-68b6882bd0a34-obrázek88-min.gif

Navzdory slibným výsledkům má systém jednu pozoruhodnou výhradu: určitá licenční omezení. Stejně jako ostatní modely v sadě Hunyuan od společnosti Tencent, i Tencent zakazuje používání Voyageru v Evropské unii, Spojeném království nebo Jižní Koreji. Společnost také vyžaduje dodatečné smlouvy pro komerční nasazení, která slouží více než 100 milionům aktivních uživatelů měsíčně.

Výstupní kvalita je obrovským krokem vpřed pro prostředí generovaná umělou inteligencí. Vysoké výpočetní náklady a současná omezení v konzistenci scén však znamenají, že může nějakou dobu trvat, než systémy jako Voyager budou moci podporovat plně interaktivní zážitky v reálném čase. Prozatím je systém pravděpodobně nejcennější pro tvorbu videa a experimentální pracovní postupy 3D rekonstrukce.

techspot.com

Odkaz na původní článek Kopírovat odkaz

https://www.techspot.com/news/109328-tencent-voyager-ai-can-turn-one-photo-explorable.html

Zdroj: https://khoahocdoisong.vn/mo-hinh-ai-bien-mot-buc-anh-duy-nhat-thanh-the-gioi-3d-post2149050727.html