អត្ថបទទៅវីដេអូ AIs ដូចជា Sora

សូរ៉ា (OpenAI)

Sora គឺជាឈ្មោះថ្មីបំផុតដែលត្រូវបានប្រកាស ប៉ុន្តែបានធ្វើឱ្យមានការរំជើបរំជួលបំផុត មួយផ្នែកដោយសារតែវាជាផលិតផលរបស់ OpenAI ដែលជាអ្នកបង្កើតកម្មវិធី ChatGPT ដ៏ល្បីល្បាញ ប៉ុន្តែភាគច្រើនដោយសារតែគុណភាពនៃ វីដេអូ ដែលកម្មវិធីបង្កើតចេញពីពាក្យបញ្ជាអត្ថបទប៉ុណ្ណោះ។

ភាពជោគជ័យរបស់ក្រុមហ៊ុនជាមួយ ChatGPT ក៏ផ្តល់ឱ្យ AI របស់ខ្លួននូវការយល់ដឹងយ៉ាងស៊ីជម្រៅអំពីភាសាផងដែរ។ ឃ្លីបដែលបង្ហាញពីសមត្ថភាពរបស់ Sora បង្ហាញតួអង្គផ្លាស់ទី និងបង្ហាញខ្លួនឯងតាមរបៀបដែលពិតដូចខ្សែភាពយន្តមនុស្ស។

Video "siêu thực" do Sora tạo từ các lệnh văn bản — វីដេអូ "Surrealistic" បង្កើតឡើងដោយ Sora ពីពាក្យបញ្ជាអត្ថបទ

ប៉ុន្តែ Sora មិនទាន់មានដល់សាធារណជននៅឡើយទេ ដោយសារហេតុផលសុវត្ថិភាព។ OpenAI នឹងធ្វើការវាស់វែងយ៉ាងប្រុងប្រយ័ត្ន មុនពេលធ្វើឱ្យវាអាចប្រើបានសម្រាប់សាធារណជនទូទៅ ជាពិសេសដោយសារតែការកើនឡើងនៃអ្នកប្រើប្រាស់ AI ដែលកំពុងប្រើប្រាស់វាសម្រាប់ភាពមិនសមរម្យ ការក្លែងបន្លំអ្នកប្រើប្រាស់ ឬគោលបំណងខុសច្បាប់។

Lumiere (Google)

Lumiere គឺជាផលិតផលពី Google ដែលមានសមត្ថភាពបង្កើតវីដេអូពីការបញ្ចូលអត្ថបទ ដោយផ្អែកលើគំរូនៃការសាយភាយដែលមានរចនាសម្ព័ន្ធ STUNet (Space-Time-U-Net)។ Lumiere មិនធុញទ្រាន់នឹងការបិទភ្ជាប់ស៊ុមដដែល ប៉ុន្តែផ្ទុយទៅវិញ AI នេះកំណត់ព័ត៌មានលម្អិតនៅក្នុងវីដេអូ (ផ្នែកលំហ) តាមដានពីរបៀបដែលពួកគេផ្លាស់ទី ផ្លាស់ប្តូរក្នុងពេលតែមួយ (ផ្នែកបណ្ដោះអាសន្ន) ដោយហេតុនេះជួយឱ្យដំណើរការដំណើរការរលូន។

ដូច Sora ដែរ Lumiere មិនទាន់ត្រូវបានបញ្ចេញជាសាធារណៈនៅឡើយទេ។ ក្រុមហ៊ុនទើបតែណែនាំវានៅចុងខែមករាឆ្នាំ 2024 បន្ទាប់ពីការចេញផ្សាយរបស់ Gemini ដែលជាគំរូភាសាដ៏សំខាន់ដែលទើបតែត្រូវបានធ្វើសមកាលកម្មជាមួយ Bard ។

VideoPoet (Google)

គំរូភាសាដ៏ធំនេះ (LLM) ត្រូវបានបណ្តុះបណ្តាលពីឃ្លាំងដ៏ធំនៃវីដេអូ រូបភាព អូឌីយ៉ូ និងអត្ថបទដែលត្រូវបានបង្កើតឡើងដោយ Google Search ក្នុងឆ្នាំ 2023។ VideoPoet អាចបំពេញកិច្ចការផ្សេងៗពីប្រភពបញ្ចូលដូចជា អត្ថបទ រូបភាព វីដេអូ... ដើម្បីបង្កើតវីដេអូ បន្លិចខ្លឹមសារ បំប្លែងវីដេអូទៅជាសំឡេង បង្វែររូបភាពទៅជាចលនា...

គំនិតដើមសម្រាប់ VideoPoet កើតចេញពីតម្រូវការក្នុងការបំប្លែងគំរូភាសា autoregressive ណាមួយទៅជាប្រព័ន្ធបង្កើតវីដេអូ។ គំរូភាសា autoregressive បច្ចុប្បន្នអាចដំណើរការអត្ថបទ និងកូដសរសេរកម្មវិធីដូចមនុស្ស ប៉ុន្តែពួកគេតស៊ូនៅពេលនិយាយអំពីវីដេអូ។ VideoPoet ដោះស្រាយវាដោយប្រើសញ្ញាសម្ងាត់ដើម្បីបំប្លែងការបញ្ចូលពីទម្រង់ណាមួយទៅជាភាសាដែលវាអាចយល់បាន។

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — ឧបករណ៍សម្រាប់បង្កើតវីដេអូពីអត្ថបទភាគច្រើនកំពុងសាកល្បងដែនកំណត់របស់វា។

វីដេអូ Emu (Meta)

បន្ថែមពីលើ Google និង OpenAI មេតាក៏ជាបច្ចេកវិទ្យាធំមួយដែលសកម្មក្នុងការបង្កើត AI ។ ក្រុមហ៊ុនដែលជាម្ចាស់ Facebook ក៏បានបង្កើត AI បង្កើតវីដេអូ ហៅថា Emu Video ដែលអាចបំប្លែងរូបភាពទៅជាអត្ថបទ រួចប្រើវាជាទិន្នន័យដើម្បីបង្កើតឃ្លីប។

Emu Video កំពុងទទួលបានការពិនិត្យវិជ្ជមានពីអ្នកសាកល្បងបែតា ដោយ 81% ចូលចិត្តវាជាង Imagen Video (Google)។ ជាង 90% បានជ្រើសរើសគំរូរបស់ Meta លើ PYOCO (Nvidia) ហើយវាថែមទាំងដំណើរការជាង Meta's Make-A-Video (ដែល 96% បានជ្រើសរើស)។

CogVideo (សាកលវិទ្យាល័យ Tsinghua ប្រទេសចិន)

មិនដូចម៉ូដែលខាងលើ ដែលសុទ្ធសឹងជាផលិតផលរបស់ក្រុមហ៊ុនបច្ចេកវិទ្យាឈានមុខគេ របស់ពិភពលោក CogVideo គឺជា AI ដែលបង្កើតឡើងដោយក្រុមស្រាវជ្រាវមកពី សាកលវិទ្យាល័យ Tsinghua ដែលជាសាលាដ៏ល្បីល្បាញឈានមុខគេនៅក្នុងប្រទេសចិនក៏ដូចជាអាស៊ីផងដែរ។ កម្មវិធីនេះផ្អែកលើ CogView2 ដែលជាគំរូអត្ថបទទៅរូបភាពដែលបានបណ្តុះបណ្តាលជាមុន។

អ្នកជំនាញផ្នែកសិល្បៈកុំព្យូទ័រលោក Glenn Marshall ដែលបានសាកល្បង CogVideo បាននិយាយថា "អ្នកដឹកនាំអាចបាត់បង់ការងាររបស់ពួកគេ" ។ ឃ្លីបនេះមានឈ្មោះថា The Crow ដែលគាត់បានបង្កើតដោយជំនួយពី CogVideo ទទួលបានការសរសើរខ្ពស់ និងត្រូវបានតែងតាំងសម្រាប់ពានរង្វាន់ British Academy Film Award (BAFTA) ។

ប្រភពតំណ