في سياق التحول الرقمي وتحول تطبيقات الذكاء الاصطناعي في فيتنام الذي يحدث بقوة، تلعب تقنية OCR (التعرف الضوئي على الحروف) دورًا متزايد الأهمية في رقمنة المستندات وأتمتة العمليات التجارية وتوفير التكاليف وتحسين كفاءة الإدارة.
ومع ذلك، مع خصائص اللغة الفيتنامية من حيث اللهجات والكتابة اليدوية، فإن مشكلة التعرف لا تتوقف عند "قراءة الكلمات"، بل تتطلب من النموذج أن يكون لديه القدرة على فهم السياق بشكل شامل.
وفي مواجهة هذا التحدي، قام معهد تطبيق تكنولوجيا CMC (CMC ATI) بتطوير نموذج CATI-VLM - وهو نظام لفهم المستندات باستخدام الرؤية الحاسوبية (الفهم البصري للمستندات).
استنادًا إلى مستودع بيانات كبير يصل إلى 5 تيرابايت، تم تصنيف هذا النموذج مؤخرًا ضمن أفضل 12 نموذجًا في العالم والأول في فيتنام في مسابقة القراءة القوية الدولية (RRC)، فئة الإجابة على الأسئلة المرئية للوثائق (DocVQA)، والتي عقدت في يونيو 2025.
(وكالة أنباء فيتنام/فيتنام+)
المصدر: https://www.vietnamplus.vn/tri-tue-nhan-tao-viet-vao-top-12-the-gioi-ve-nhan-dang-van-ban-post1048696.vnp
تعليق (0)