الذكاء الاصطناعي لتحويل النص إلى فيديو مثل Sora

[إعلان 1]

سورا (OpenAI)

Sora هو أحدث اسم تم الإعلان عنه ولكنه تسبب في أكبر قدر من الضجة، ويرجع ذلك جزئيًا إلى أنه منتج من OpenAI - المطور الشهير لـ ChatGPT، ولكن بشكل أساسي بسبب جودة مقاطع الفيديو التي ينشئها البرنامج من أوامر نصية فقط.

كما أن نجاح الشركة مع ChatGPT يمنح ذكائها الاصطناعي فهمًا عميقًا للغة. تُظهر المقاطع التي تُظهر قدرات Sora شخصيات تتحرك وتعبّر عن نفسها بطريقة واقعية كفيلم سينمائي.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — فيديو "سريالي" من إنتاج سورا باستخدام أوامر نصية

لكن سورا غير متاح للجمهور بعد لأسباب أمنية. ستجري OpenAI اختبارات دقيقة قبل إتاحته للعامة، خاصةً في ظل تزايد عدد مستخدمي الذكاء الاصطناعي الذين يستخدمونه لأغراض خبيثة، مثل انتحال هوية المستخدمين أو لأغراض غير قانونية.

لوميير (جوجل)

Lumiere منتج من جوجل، قادر أيضًا على إنشاء مقاطع فيديو من خلال إدخال نص، استنادًا إلى نموذج الانتشار الهيكلي STUNet (Space-Time-U-Net). لا يُكلف Lumiere نفسه بربط اللقطات الثابتة معًا، بل يُحدد هذا الذكاء الاصطناعي تفاصيل الفيديو (الجزء المكاني)، ويتتبع حركتها وتغيرها في الوقت نفسه (الجزء الزمني)، مما يُساعد على سير العملية بسلاسة.

مثل سورا، لم يُطرح لوميير للجمهور بعد. لم تُطلقه الشركة إلا في أواخر يناير 2024، بعد إصدار جيميني، وهو نموذج لغوي رئيسي تمت مزامنته مؤخرًا مع بارد.

فيديو بويت (جوجل)

يتم تدريب نموذج اللغة الكبير هذا (LLM) من مستودع ضخم من مقاطع الفيديو والصور والصوت والنصوص التي طورتها Google Search في عام 2023. يمكن لبرنامج VideoPoet تنفيذ مهام مختلفة من مصادر الإدخال مثل النصوص والصور ومقاطع الفيديو... لإنشاء مقاطع فيديو، وتسليط الضوء على المحتوى، وتحويل مقاطع الفيديو إلى صوت، وتحويل الصور الثابتة إلى رسوم متحركة...

انبثقت الفكرة الأصلية لـ VideoPoet من الحاجة إلى تحويل أي نموذج لغوي انحداري ذاتي إلى نظام توليد فيديو. تستطيع نماذج اللغة الانحدارية ذاتي الحالية معالجة النصوص وأكواد البرمجة كالبشر، لكنها تواجه صعوبات في التعامل مع الفيديو. يحلّ VideoPoet هذه المشكلة باستخدام التجزئة لتحويل المُدخلات من أي صيغة إلى لغة يفهمها.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — تختبر أدوات إنشاء مقاطع الفيديو من النصوص حدودها في الغالب

فيديو إيمو (ميتا)

إلى جانب جوجل وOpenAI، تُعد Meta أيضًا من شركات التكنولوجيا الكبرى الناشطة في تطوير الذكاء الاصطناعي. كما طورت الشركة المالكة لفيسبوك نظام ذكاء اصطناعي لإنتاج الفيديو يُسمى Emu Video، والذي يُمكنه تحويل الصور إلى نصوص ثم استخدامها كبيانات لإنشاء مقاطع.

يحظى Emu Video بتقييمات إيجابية من مُختبري النسخة التجريبية، حيث يُفضّله 81% منهم على Imagen Video (من Google). اختار أكثر من 90% نموذج Meta على PYOCO (من Nvidia)، بل وتفوق حتى على Make-A-Video من Meta (الذي اختاره 96%).

CogVideo (جامعة تسينغهوا، الصين)

بخلاف النماذج المذكورة أعلاه، والتي تُعدّ جميعها منتجات شركات التكنولوجيا الرائدة عالميًا ، يُعدّ CogVideo ذكاءً اصطناعيًا طوّره فريق بحثي من جامعة تسينغهوا، وهي جامعة مرموقة رائدة في الصين وآسيا. يعتمد البرنامج على CogView2، وهو نموذج مُدرّب مسبقًا لتحويل النص إلى صورة.

قال خبير فنون الحاسوب جلين مارشال، الذي اختبر CogVideo، إن "المخرجين قد يفقدون وظائفهم". وقد حظي مقطع الفيديو "الغراب "، الذي أنتجه بمساعدة CogVideo، بإشادة كبيرة، ورُشِّح لجائزة الأكاديمية البريطانية للأفلام (BAFTA).

[إعلان 2]
رابط المصدر