ভিয়েতনামে ডিজিটাল রূপান্তর এবং কৃত্রিম বুদ্ধিমত্তা (এআই) রূপান্তরের প্রেক্ষাপটে, ওসিআর প্রযুক্তি (অপটিক্যাল ক্যারেক্টার রিকগনিশন) নথি ডিজিটালাইজেশন, ব্যবসায়িক প্রক্রিয়া স্বয়ংক্রিয়করণ, খরচ সাশ্রয় এবং ব্যবস্থাপনা দক্ষতা উন্নত করার ক্ষেত্রে ক্রমবর্ধমান গুরুত্বপূর্ণ ভূমিকা পালন করে। যাইহোক, উচ্চারণ এবং হাতের লেখা সহ ভিয়েতনামী ভাষার বৈশিষ্ট্যগুলির সাথে, স্বীকৃতি সমস্যা 'শব্দ পড়া'-এ থেমে থাকে না, বরং মডেলটির প্রেক্ষাপটটি ব্যাপকভাবে বোঝার ক্ষমতা থাকা প্রয়োজন।
সম্প্রতি, সিএমসি টেকনোলজি অ্যাপ্লিকেশন ইনস্টিটিউট (সিএমসি এটিআই) ৫ টেরাবাইটের বৃহৎ ডেটা গুদাম থেকে গবেষণা দল কর্তৃক তৈরি CATI-VLM (ভিজ্যুয়াল ডকুমেন্ট আন্ডারস্ট্যান্ডিং) মডেল ঘোষণা করেছে, যা ২০২৫ সালের জুনে ডকুমেন্ট ভিজ্যুয়াল কোয়েশ্চেন অ্যানসারিং (DocVQA) বিভাগে রোবাস্ট রিডিং কম্পিটিশন (RRC) কর্তৃক ঘোষিত র্যাঙ্কিংয়ে বিশ্বের শীর্ষ ১২ এবং ভিয়েতনামের শীর্ষ ১-এ পৌঁছেছে।
DocVQA বিভাগে RRC র্যাঙ্কিং ৬/২০২৫।
রোবাস্ট রিডিং কম্পিটিশন (RRC) হল একটি মর্যাদাপূর্ণ বৈজ্ঞানিক খেলার মাঠ, (https://rrc.cvc.uab.es/) যা স্পেনের ইউনিভার্সিটি অটোনোমা ডি বার্সেলোনা (UAB) এর কম্পিউটার ভিশন সেন্টার (CVC) দ্বারা আয়োজিত, যা কম্পিউটার ভিশনের ক্ষেত্রে বিশ্বের একটি মর্যাদাপূর্ণ গবেষণা প্রতিষ্ঠান। ২০১১ সালে শুরু হওয়া, সর্বদা আন্তর্জাতিক টেক্সট বিশ্লেষণ এবং স্বীকৃতি সম্মেলন ICDAR - ডকুমেন্ট বিশ্লেষণ এবং কম্পিউটার ভিশনের উপর বিশ্বের বৃহত্তম ফোরামগুলির মধ্যে একটির সাথে, প্রতিযোগিতাটি একটি গুরুত্বপূর্ণ ইভেন্টে পরিণত হয়েছে, যা সিংহুয়া বিশ্ববিদ্যালয়, হুন্ডাই মোটর গ্রুপ এবং টেনসেন্টের মতো মর্যাদাপূর্ণ বিশ্ববিদ্যালয়, গবেষণা প্রতিষ্ঠান এবং প্রযুক্তি সংস্থাগুলির গবেষক, প্রকৌশলীদের আকর্ষণ করে... RRC-এর কাজগুলি প্রযুক্তিগত অগ্রগতি প্রচারের জন্য ডিজাইন করা হয়েছে, অনুবাদ, এন্টারপ্রাইজ ডেটা ব্যবস্থাপনা থেকে শুরু করে নগর বিশ্লেষণ এবং ঐতিহাসিক নথি প্রক্রিয়াকরণ পর্যন্ত ব্যবহারিক সমস্যার সাথে ঘনিষ্ঠভাবে জড়িত।
সিএমসি এটিআই-এর পরিচালক ডঃ ডাং মিন তুয়ান বলেন: "আরআরসির মতো একটি মর্যাদাপূর্ণ বৈশ্বিক খেলার মাঠের মাধ্যমে সিএমসি দলের গবেষণা ক্ষমতা নিশ্চিত করা হয়েছে। আমরা গর্বিত যে খুব অল্প সময়ের মধ্যেই, দলটি উন্নত দেশগুলির বড় নামগুলির সাথে কাঁধে কাঁধ মিলিয়ে উচ্চ স্থান অর্জন করতে পারে। আরও গুরুত্বপূর্ণ বিষয় হল, এটি ভিয়েতনামী এবং ভিয়েতনামের বিশেষায়িত ক্ষেত্রগুলির নির্দিষ্ট সমস্যা সমাধানের জন্য প্রযুক্তি আয়ত্ত করার ক্ষমতার একটি স্পষ্ট প্রদর্শন।"
CATI-VLM ঐতিহ্যবাহী OCR থেকে আলাদা যে এটি কেবল অক্ষরই বের করে না, বরং তথ্যের একাধিক স্তরও বোঝে: টেক্সট কন্টেন্ট, নন-টেক্সট উপাদান (টিক বক্স, চেকবক্স, চার্ট, স্বাক্ষর, সূত্র), লেআউট (পৃষ্ঠার গঠন, টেবিল, ফর্ম) এবং স্টাইল (ফন্ট, হাইলাইট ইত্যাদি)। মডেলটি ChatGPT-এর মতো ডকুমেন্ট ইমেজে উত্থাপিত ভিজ্যুয়াল প্রশ্নের উত্তর দিতে পারে, নির্দিষ্ট ফর্ম আগে থেকে না শিখেই।
নিউজ অ্যান্ড পিপল নিউজপেপারের মতে
সূত্র: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051
মন্তব্য (0)