AI แปลงข้อความเป็นวิดีโอ เช่น Sora

โซระ (OpenAI)

Sora คือชื่อใหม่ล่าสุดที่ประกาศออกมา แต่กลับสร้างความฮือฮาเป็นอย่างมาก ส่วนหนึ่งเป็นเพราะว่ามันเป็นผลิตภัณฑ์ของ OpenAI ซึ่งเป็นผู้พัฒนา ChatGPT ที่มีชื่อเสียง และส่วนสำคัญที่สุดคือเป็นเพราะคุณภาพของ วิดีโอ ที่โปรแกรมสร้างขึ้นจากคำสั่งข้อความเพียงอย่างเดียว

ความสำเร็จของบริษัทกับ ChatGPT ยังช่วยให้ AI ของบริษัทเข้าใจภาษาได้อย่างลึกซึ้ง คลิปวิดีโอที่แสดงให้เห็นถึงความสามารถของโซระแสดงให้เห็นตัวละครเคลื่อนไหวและแสดงออกอย่างสมจริงราวกับภาพยนตร์มนุษย์

Video "siêu thực" do Sora tạo từ các lệnh văn bản — วิดีโอ "เหนือจริง" ที่สร้างโดย Sora จากคำสั่งข้อความ

แต่ Sora ยังไม่เปิดให้สาธารณชนใช้งานจริงเนื่องจากเหตุผลด้านความปลอดภัย OpenAI จะทำการวัดอย่างละเอียดถี่ถ้วนก่อนเปิดให้สาธารณชนใช้งาน โดยเฉพาะอย่างยิ่งเมื่อพิจารณาถึงจำนวนผู้ใช้ AI ที่เพิ่มขึ้นเรื่อยๆ ซึ่งใช้งานเพื่อวัตถุประสงค์ที่ผิดกฎหมาย ปลอมแปลงตัวตน หรือเพื่อวัตถุประสงค์ที่ผิดกฎหมาย

ลูมิแอร์ (Google)

Lumiere เป็นผลิตภัณฑ์จาก Google ซึ่งสามารถสร้างวิดีโอจากการป้อนข้อความได้เช่นกัน โดยอาศัยแบบจำลองการกระจายโครงสร้าง STUNet (Space-Time-U-Net) Lumiere ไม่จำเป็นต้องเชื่อมต่อเฟรมภาพนิ่งเข้าด้วยกัน แต่ AI นี้จะระบุรายละเอียดในวิดีโอ (ส่วนเชิงพื้นที่) ติดตามการเคลื่อนไหว และการเปลี่ยนแปลงในเวลาเดียวกัน (ส่วนเชิงเวลา) ช่วยให้กระบวนการทำงานราบรื่นยิ่งขึ้น

เช่นเดียวกับโซระ ลูมิแอร์ยังไม่ได้เปิดตัวสู่สาธารณะ บริษัทเพิ่งเปิดตัวในช่วงปลายเดือนมกราคม 2024 หลังจากการเปิดตัว Gemini ซึ่งเป็นโมเดลภาษาหลักที่เพิ่งซิงโครไนซ์กับ Bard

VideoPoet (กูเกิล)

โมเดลภาษาขนาดใหญ่ (LLM) นี้ได้รับการฝึกฝนจากคลังวิดีโอ รูปภาพ เสียง และข้อความขนาดใหญ่ที่พัฒนาโดย Google Search ในปี 2023 VideoPoet สามารถทำงานต่างๆ จากแหล่งข้อมูลอินพุต เช่น ข้อความ รูปภาพ วิดีโอ... เพื่อสร้างวิดีโอ เน้นเนื้อหา แปลงวิดีโอเป็นเสียง เปลี่ยนภาพนิ่งเป็นแอนิเมชัน...

แนวคิดดั้งเดิมของ VideoPoet เกิดจากความต้องการแปลงโมเดลภาษาอัตโนมัติใดๆ ให้เป็นระบบสร้างวิดีโอ โมเดลภาษาอัตโนมัติในปัจจุบันสามารถประมวลผลข้อความและโค้ดโปรแกรมได้เหมือนมนุษย์ แต่กลับประสบปัญหาเมื่อต้องประมวลผลวิดีโอ VideoPoet แก้ปัญหานี้โดยใช้การแปลงโทเค็นเพื่อแปลงอินพุตจากรูปแบบใดๆ ให้เป็นภาษาที่เข้าใจได้

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — เครื่องมือสำหรับสร้างวิดีโอจากข้อความส่วนใหญ่กำลังทดสอบขีดจำกัดของตัวเอง

วิดีโออีมู (เมตา)

นอกจาก Google และ OpenAI แล้ว Meta ยังเป็นหนึ่งในบริษัทเทคโนโลยียักษ์ใหญ่ที่มุ่งมั่นพัฒนา AI อย่างต่อเนื่อง บริษัทที่เป็นเจ้าของ Facebook ยังได้พัฒนา AI สำหรับสร้างวิดีโอชื่อ Emu Video ซึ่งสามารถแปลงรูปภาพเป็นข้อความและใช้เป็นข้อมูลเพื่อสร้างคลิปวิดีโอได้

Emu Video ได้รับคำวิจารณ์เชิงบวกจากผู้ทดสอบเบต้า โดย 81% เลือกมากกว่า Imagen Video (Google) กว่า 90% เลือกโมเดลของ Meta มากกว่า PYOCO (Nvidia) และยังทำผลงานได้ดีกว่า Make-A-Video ของ Meta (ซึ่ง 96% เลือก)

CogVideo (มหาวิทยาลัยชิงหัว ประเทศจีน)

ต่างจากโมเดลข้างต้น ซึ่งล้วนเป็นผลิตภัณฑ์ของบริษัทเทคโนโลยีชั้นนำของโลก CogVideo คือ AI ที่พัฒนาโดยทีมวิจัยจาก มหาวิทยาลัย ชิงหัว ซึ่งเป็นมหาวิทยาลัยชั้นนำที่มีชื่อเสียงทั้งในประเทศจีนและเอเชีย โปรแกรมนี้พัฒนาจาก CogView2 ซึ่งเป็นโมเดลแปลงข้อความเป็นรูปภาพที่ผ่านการฝึกอบรมมาแล้ว

เกล็นน์ มาร์แชลล์ ผู้เชี่ยวชาญด้านศิลปะคอมพิวเตอร์ ซึ่งเป็นผู้ทดสอบ CogVideo กล่าวว่า "ผู้กำกับอาจต้องสูญเสียงาน" คลิปที่ชื่อว่า The Crow ซึ่งเขาสร้างขึ้นด้วยความช่วยเหลือจาก CogVideo ได้รับคำชื่นชมอย่างสูงและได้รับการเสนอชื่อเข้าชิงรางวัล British Academy Film Award (BAFTA)

ลิงค์ที่มา