Vietnam.vn - Nền tảng quảng bá Việt Nam

طالبان ينشران بحثًا في مؤتمر الذكاء الاصطناعي الرائد عالميًا

VnExpressVnExpress12/02/2024

[إعلان 1]

باستخدام أساليب التدريب التنافسية للسماح للذكاء الاصطناعي بإنشاء بيانات جديدة، تم نشر بحث لطالبين من جامعة مدينة هوشي منه للتكنولوجيا في AAAI - مؤتمر الذكاء الاصطناعي الرائد في العالم .

نُشر البحث حول النماذج متعددة اللغات لتدريب الذكاء الاصطناعي على إنشاء مرادفات بواسطة فام خان ترينه ولي مينه كوي، البالغ من العمر 23 عامًا، في وثائق مؤتمر AAAI-24 حول الذكاء الاصطناعي، الذي عقد في نهاية شهر فبراير في فانكوفر، كندا.

أشاد الأستاذ المشارك الدكتور كوان ثانه ثو، نائب عميد كلية علوم وهندسة الحاسوب بجامعة مدينة هو تشي منه للتكنولوجيا، بهذه النتيجة. وأوضح ثو أن الباحثين والخبراء يعتبرون AAAI من أفضل الجامعات في المؤتمرات العلمية في مجالات علوم الحاسوب والذكاء الاصطناعي، مع معدل قبول منخفض جدًا للمقالات هذا العام، بلغ 23.75%.

مينه كوي وخان ترينه (في الوسط) أثناء مناقشة أطروحة تخرجهما، عام 2023. الصورة: مقدمة من الشخصية

مينه كوي وخان ترينه (في الوسط) أثناء مناقشة أطروحة تخرجهما، عام 2023. الصورة: مقدمة من الشخصية

بشغفهما المشترك بالتعلم العميق ومعالجة اللغات الطبيعية، اختار ترينه وخوي البحث في نماذج اللغات الكبيرة (LLMs). أراد كلاهما اكتشاف حدود نماذج اللغات الكبيرة وتطويرها.

قال خان ترينه إن متعلمي الدردشة (GPTs) أو متعلمي اللغة الإنجليزية (LLMs) يحتاجون إلى التدريب على كمية هائلة من البيانات النصية لتوليد استجابات دقيقة ومتنوعة للمستخدمين. أدرك الشابان أنه في اللغات الأقل شيوعًا، مثل الهندية والكازاخية والإندونيسية، غالبًا ما يُقدم متعلمو الدردشة (GPTs) ومتعلمو اللغة الإنجليزية (LLMs) نتائج غير متوقعة لأنهم لم يدرسوا هذه اللغات جيدًا، أو لا تتوفر لديهم بيانات كافية لتعلمها.

تساءل الطالبان: "لماذا لا ننشئ المزيد من البيانات النصية من الموارد المحدودة لتلك اللغات لتدريب الذكاء الاصطناعي بشكل أكبر؟". ومن هنا، وُلد نموذج LAMPAT (التكيف منخفض الرتبة لإعادة الصياغة متعددة اللغات باستخدام التدريب التنافسي) - وهو نموذج ترجمة متعدد اللغات باستخدام أسلوب التدريب التنافسي الذي بحثه ترينه وخوي.

يستطيع LAMPAT توليد مرادف من جملة إدخال مُعطاة، وذلك لتوليد المزيد من البيانات النصية. يُعدّ شرح "التدريب المُنافس" طريقةً جديدةً نسبيًا لتدريب نماذج اللغات الكبيرة. باستخدام أساليب التدريب التقليدية، يُولّد التطبيق جملةً مُخرَجة. أما باستخدام التدريب المُنافس، فيُمكن للتطبيق التعليق على جملة الإخراج "المُنافسة" وتعديلها لتوليد المزيد من الجمل.

تكمن الطبيعة المتعددة اللغات لنموذج LAMPAT في قدرته على دمج 60 لغة في آنٍ واحد. بناءً على مجموعات البيانات المُجمعة، يواصل الفريق تدريب LAMPAT لتوليد المرادفات. سيستمر استخدام كمية البيانات النصية المُولّدة من LAMPAT لتدريب نماذج LLM، بحيث تتمكن هذه النماذج من تعلم طرق مختلفة للتعبير عن المعلومات للمحتوى نفسه، مما يُعطي إجابات متنوعة ذات احتمالية صحة أعلى. بفضل هذه الميزة، يعتقد ممثل الفريق أنه يُمكن دمج LAMPAT في تطبيقات مثل ChatGPT لتحسين هذا النموذج بشكل أكبر.

بالإضافة إلى ذلك، يُجبر نقص البيانات المتعلقة بـ Chat GPT أو LLM بعض الشركات على البحث عن مصادر خارجية عديدة، كالكتب والصحف والمدونات وغيرها، دون مراعاة حقوق النشر. ووفقًا لخان ترينه، يُعدّ إنشاء المرادفات إحدى طرق الحد من الانتحال وانتهاك حقوق النشر.

أعطى نام سينه مثالاً لتطبيقات مثل Chat GPT، عندما يطلب المستخدم ملخصًا لنص موجود A، سيقوم التطبيق بإنشاء نص ملخص B. إذا تم دمج طريقة البحث الخاصة بالمجموعة، فعند تلقي النص A، سيقوم التطبيق بإنشاء نصوص متعددة بنفس المحتوى A1، A2، A3 بناءً على آلية إنشاء المرادفات، والتي سيلخص منها النص وينتج العديد من النتائج للمستخدم للاختيار من بينها.

في المراحل الأولى من البحث، واجه الفريق صعوبة في إعداد بيانات التقييم لستين لغة. ونظرًا لعدم توفر كمية كافية من البيانات، جمع الفريق مجموعة بيانات متنوعة وشاملة من 13 لغة لتقييم النموذج بموضوعية، بما في ذلك: الفيتنامية، والإنجليزية، والفرنسية، والألمانية، والروسية، واليابانية، والصينية، والإسبانية، والمجرية، والبرتغالية، والسويدية، والفنلندية، والتشيكية. وتُعد هذه المجموعة أيضًا موثوقة لمرحلة التقييم البشري النهائية.

التقط مينه كوي (يسار) وخان ترينه (يمين) صورة تذكارية مع المعلم كوان ثانه ثو في يوم التخرج، نوفمبر 2023. الصورة: مقدمة من الشخصية

التقط مينه كوي (يسار) وخان ترينه (يمين) صورة تذكارية مع المعلم كوان ثانه ثو في يوم التخرج، نوفمبر 2023. الصورة: مقدمة من الشخصية

لكلٍّ من اللغات الإنجليزية والفيتنامية والألمانية والفرنسية واليابانية، استخرج الفريق عشوائيًا 200 زوج من الجمل (يتكون كل زوج من الجملة الناتجة والاسم الصحيح) للتقييم. لكلٍّ من اللغات المذكورة أعلاه، طلب الفريق من خمسة خبراء لغويين تقييمها بشكل مستقل، بناءً على ثلاثة معايير: الحفاظ على الدلالة؛ اختيار الكلمات والتشابه المعجمي؛ وطلاقة الجملة الناتجة وتماسكها. حُسب المقياس من 1 إلى 5. ونتيجةً لذلك، تراوح متوسط درجات التقييم من خبراء اللغات في هذه اللغات الخمس بين 4.2 و4.6/5 نقاط.

يقدم المثال زوجًا من الجمل الفيتنامية التي حصلت على تقييم 4.4/5، حيث تكون الجملة المدخلة: "لقد شرح المشكلة بالتفصيل"، والجملة الناتجة هي: "لقد شرح المشكلة بالتفصيل".

ولكن هناك أيضًا أزواج من الجمل ذات جودة رديئة وأخطاء دلالية، مثل زوج الجمل "نأكل بينما الحساء ساخن - نأكل الحساء بينما نحن ساخنون"، والتي تحصل فقط على 2/5 نقاط.

قال خان ترينه إن البحث في هذا المشروع وإكماله استغرق ثمانية أشهر. وهذا أيضًا موضوع أطروحة تخرج ترينه وخوي. وقد حصلت الأطروحة على المركز الأول في مجلس علوم الحاسوب الثاني بتقييم 9.72 من 10 نقاط.

وبحسب السيد كوان ثانه تو، على الرغم من أن LAMPAT أثبت كفاءته في توليد عبارات مرادفة تشبه الإنسان عبر لغات متعددة، إلا أنه لا يزال بحاجة إلى التحسين للتعامل مع التعبيرات الاصطلاحية والأغاني الشعبية والأمثال في لغات مختلفة.

علاوة على ذلك، لا تشمل قاعدة بيانات التقييم الخاصة بالفريق سوى 13 لغة، مما يُغفل العديد من اللغات، وخاصة لغات الأقليات. لذلك، يحتاج الفريق إلى إجراء بحوث لتحسين وتوسيع قدرات نماذج الترجمة الفورية متعددة اللغات الحالية. ومن هنا، يُمكننا إزالة حاجز اللغة بين البلدان والأعراق.

في نهاية عام ٢٠٢٣، تخرج ترينه وخوي بمرتبة الشرف والتميز في علوم الحاسوب بمعدل تراكمي ٣.٧ و٣.٩ من ٤ على التوالي. يخطط كلاهما للدراسة في الخارج للحصول على درجة الماجستير، ومواصلة البحث في مجال الذكاء الاصطناعي والتعلم الآلي.

"نحن نواصل البحث في هذا الموضوع بهدف تطبيق LAMPAT بشكل أكبر على المشاريع العلمية القادمة، وإنشاء منتج متعدد اللغات موثوق به للمستخدمين"، كما شارك ترينه.

لي نجوين


[إعلان 2]
رابط المصدر

تعليق (0)

No data
No data
مشهد ساحر على تلة الشاي "الوعاء المقلوب" في فو ثو
3 جزر في المنطقة الوسطى تشبه جزر المالديف وتجذب السياح في الصيف
شاهد مدينة جيا لاي الساحلية الرائعة في كوي نون في الليل
صورة للحقول المتدرجة في فو ثو، المنحدرة بلطف، والمشرقة والجميلة مثل المرايا قبل موسم الزراعة
مصنع Z121 جاهز لليلة الختام الدولية للألعاب النارية
مجلة سفر شهيرة تشيد بكهف سون دونغ وتصفه بأنه "الأكثر روعة على هذا الكوكب"
كهف غامض يجذب السياح الغربيين، يشبه كهف "فونج نها" في ثانه هوا
اكتشف الجمال الشعري لخليج فينه هاي
كيف تتم معالجة أغلى أنواع الشاي في هانوي، والذي يصل سعره إلى أكثر من 10 ملايين دونج للكيلوغرام؟
طعم منطقة النهر

إرث

شكل

عمل

No videos available

أخبار

النظام السياسي

محلي

منتج