تصنيف RRC في فئة DocVQA 6/2025.
في سياق التحول الرقمي وتطبيقات الذكاء الاصطناعي في فيتنام، تتزايد أهمية تقنية التعرف الضوئي على الحروف (OCR) في رقمنة المستندات، وأتمتة العمليات التجارية، وتوفير التكاليف، وتحسين كفاءة الإدارة. ومع ذلك، فمع خصائص اللغة الفيتنامية من لهجات وكتابة يدوية، لا تقتصر مشكلة التعرف على الحروف على "قراءة الكلمات"، بل تتطلب من النموذج القدرة على فهم السياق فهمًا شاملًا.
أعلن معهد تطبيق تكنولوجيا CMC ( CMC ATI) مؤخرًا عن نموذج CATI-VLM (فهم المستندات المرئية) - الذي طوره فريق البحث من مستودع بيانات كبير بسعة 5 تيرابايت، متجاوزًا العديد من المنافسين الدوليين للوصول إلى المراكز الـ 12 الأولى في العالم والمركز الأول في فيتنام في التصنيف الذي أعلنته للتو مسابقة القراءة القوية (RRC) في يونيو 2025 في فئة الإجابة على الأسئلة المرئية للمستندات (DocVQA).
مسابقة القراءة القوية (RRC) هي ساحة لعب علمية مرموقة (https://rrc.cvc.uab.es/) ينظمها مركز رؤية الكمبيوتر (CVC) التابع لجامعة برشلونة المستقلة (UAB) إسبانيا، وهو منشأة بحثية مرموقة في العالم في مجال رؤية الكمبيوتر.
انطلقت المسابقة عام ٢٠١١، وتُعقد سنويًا في إطار المؤتمر الدولي لتحليل النصوص والتعرف عليها (ICDAR)، أحد أبرز المؤتمرات العالمية في مجال الرؤية الحاسوبية. تجذب المسابقة عددًا كبيرًا من الباحثين والمهندسين من الجامعات ومعاهد البحث وشركات التكنولوجيا الكبرى، مثل جامعة تسينغهوا، ومجموعة هيونداي موتور، وتينسنت... صُممت تحديات RRC لتعزيز التقدم التكنولوجي، وترتبط ارتباطًا وثيقًا بالمشكلات العملية، بدءًا من الترجمة، وإدارة بيانات المؤسسات، وصولًا إلى تحليل المدن، ومعالجة الوثائق التاريخية.
صرح الدكتور دانج مينه توان، مدير مركز CMC ATI، قائلاً: "نحن سعداء للغاية بتعزيز القدرات البحثية لفريق CMC من خلال منصة بحثية عالمية مرموقة مثل مركز RRC. في وقت قصير، حقق فريق البحث تصنيفات عالية، مما يُثبت قدرته التنافسية الدولية مع أسماء مرموقة من الدول المتقدمة. والأهم من ذلك، أن هذا يُمثل دليلاً واضحاً على القدرة على إتقان التكنولوجيا لحل مشاكل فيتنامية محددة ومجالات متخصصة في فيتنام."
الدكتور دانغ مينه توان، مدير CMC ATI.
يختلف برنامج CATI-VLM عن تقنية التعرف الضوئي على الحروف (OCR) التقليدية، إذ لا يقتصر على استخراج الأحرف فحسب، بل يستوعب أيضًا طبقات متعددة من المعلومات: المحتوى النصي، والعناصر غير النصية (مثل مربعات الاختيار، والمخططات، والتوقيعات، والصيغ)، والتخطيط (هيكل الصفحة، والجداول، والنماذج)، والأسلوب (الخطوط، والإبرازات، إلخ). يستطيع هذا النموذج الإجابة على الأسئلة المرئية المطروحة على صور المستندات، على غرار ChatGPT، دون الحاجة إلى تعلم نماذج محددة مسبقًا.
ومن الجدير بالذكر أنه في تصنيفات RRC، حقق CATI-VLM مع 3 مليارات معلمة فقط أعلى دقة في مجموعات البيانات 4/7، متجاوزًا العديد من نماذج Big Tech مثل Deepseek (27 مليار معلمة)، وGPT-4 Vision Turbo + Amazon Textract OCR (أعلى 34) أو Baidu (أعلى 22).
ويُظهر الإنجاز أيضًا نهجًا عمليًا يركز على إتقان التكنولوجيا الأساسية وتحسين النموذج ليناسب ظروف البنية التحتية في فيتنام بدلاً من مطاردة مقياس المعلمات.
نموذج طلب الالتحاق بالجامعة
تم التعرف على النص من خلال الكتابة اليدوية في الصورة أعلاه.
أكد السيد نجوين ترونغ تشينه، رئيس مجلس الإدارة والرئيس التنفيذي لمجموعة CMC للتكنولوجيا، قائلاً: "هذا ثمرة أكثر من عقد من الاستثمار الدؤوب في البحث والتطوير التكنولوجي. وتؤكد إنجازات CMC المتميزة في مجال التكنولوجيا الدولي استراتيجية إتقان التكنولوجيا الفيتنامية، إلى جانب التوجه نحو التحول في الذكاء الاصطناعي ودخول السوق العالمية. ونؤمن بأن الذكاء الاصطناعي الفيتنامي قادر تمامًا على مواكبة شركات التكنولوجيا العالمية الكبرى، مما يضعه في مكانة مرموقة على خريطة التكنولوجيا العالمية."
سيتم تطبيق CATI-VLM في سلسلة منتجات نظام C.OpenAI البيئي، بما في ذلك: المساعد الافتراضي CLS لمراجعة المستندات القانونية، وCMC SmartDoc - منصة تحويل المستندات الرقمية، ونظام إدارة المعرفة CMC KMS، ونظام إعداد التقارير التلقائي للمكاتب الذكية وتطبيقات Agentic Documents من الجيل الجديد.
كوانغ هوي
المصدر: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
تعليق (0)