อันดับ RRC ในหมวด DocVQA 6/2025
ในบริบทของการเปลี่ยนแปลงทางดิจิทัลและการประยุกต์ใช้ปัญญาประดิษฐ์ในเวียดนาม เทคโนโลยี OCR (Optical Character Recognition) มีบทบาทสำคัญเพิ่มมากขึ้นในการแปลงเอกสารเป็นดิจิทัล การทำให้กระบวนการทางธุรกิจเป็นระบบอัตโนมัติ การประหยัดต้นทุน และการปรับปรุงประสิทธิภาพการบริหารจัดการ อย่างไรก็ตาม ด้วยลักษณะเฉพาะของชาวเวียดนามที่มีสำเนียงและลายมือ ปัญหาการรู้จำไม่ได้หยุดอยู่แค่ "การอ่านคำ" เท่านั้น แต่ยังจำเป็นต้องอาศัยความสามารถในการเข้าใจบริบทอย่างครอบคลุม
ล่าสุด CMC Technology Application Institute ( CMC ATI) ได้ประกาศเปิดตัวโมเดล CATI-VLM (Visual Document Understanding) ที่พัฒนาโดยทีมวิจัยจากคลังข้อมูลขนาดใหญ่ 5TB แซงหน้าคู่แข่งระดับนานาชาติหลายราย ขึ้นสู่อันดับ 12 ของโลก และอันดับ 1 ของเวียดนาม ในการจัดอันดับที่เพิ่งประกาศโดย Robust Reading Competition (RRC) เมื่อเดือนมิถุนายน 2568 ในประเภท Document Visual Question Answering (DocVQA)
Robust Reading Competition (RRC) เป็นสนามเด็กเล่น ทางวิทยาศาสตร์ ที่มีชื่อเสียง (https://rrc.cvc.uab.es/) ซึ่งจัดโดยศูนย์วิชันคอมพิวเตอร์ (CVC) ของมหาวิทยาลัย Autònoma de Barcelona (UAB) ประเทศสเปน ซึ่งเป็นศูนย์วิจัยที่มีชื่อเสียงระดับโลกในสาขาวิชันคอมพิวเตอร์
การแข่งขันนี้เริ่มต้นขึ้นในปี พ.ศ. 2554 และจัดขึ้นเป็นประจำทุกปีภายใต้กรอบการประชุมนานาชาติว่าด้วยการวิเคราะห์และการรู้จำข้อความ (ICDAR) ซึ่งเป็นหนึ่งในเวทีระดับโลกด้านคอมพิวเตอร์วิทัศน์ การแข่งขันนี้ดึงดูดนักวิจัยและวิศวกรจำนวนมากจากมหาวิทยาลัย สถาบันวิจัย และบริษัทเทคโนโลยีขนาดใหญ่ เช่น มหาวิทยาลัยชิงหวา ฮุนไดมอเตอร์กรุ๊ป และเทนเซนต์... ปัญหาของ RRC ออกแบบมาเพื่อส่งเสริมความก้าวหน้าทางเทคโนโลยี ซึ่งเชื่อมโยงอย่างใกล้ชิดกับปัญหาเชิงปฏิบัติ ตั้งแต่การแปล การจัดการข้อมูลองค์กร การวิเคราะห์เมือง และการประมวลผลเอกสารทางประวัติศาสตร์
ดร. ดัง มินห์ ตวน ผู้อำนวยการ CMC ATI กล่าวว่า "เรามีความยินดีเป็นอย่างยิ่งที่ศักยภาพด้านการวิจัยของทีม CMC ได้รับการยืนยันจากสถาบันระดับโลกที่มีชื่อเสียงอย่าง RRC ในช่วงเวลาสั้นๆ ทีมวิจัยก็ได้รับการจัดอันดับสูง แสดงให้เห็นถึงความสามารถในการแข่งขันระดับนานาชาติกับสถาบันชั้นนำจากประเทศพัฒนาแล้ว ที่สำคัญยิ่งกว่านั้น นี่คือเครื่องพิสูจน์ให้เห็นอย่างชัดเจนถึงความสามารถในการเชี่ยวชาญด้านเทคโนโลยีเพื่อแก้ปัญหาเฉพาะด้านของเวียดนามและสาขาเฉพาะทางในเวียดนาม"
ดร. ดัง มินห์ ตวน ผู้อำนวยการ CMC ATI
CATI-VLM แตกต่างจาก OCR ทั่วไปตรงที่ไม่เพียงแต่สามารถแยกอักขระได้เท่านั้น แต่ยังเข้าใจข้อมูลหลายชั้น ได้แก่ เนื้อหาข้อความ องค์ประกอบที่ไม่ใช่ข้อความ (ช่องกาเครื่องหมาย ช่องกาเครื่องหมาย แผนภูมิ ลายเซ็น สูตร) เค้าโครง (โครงสร้างหน้า ตาราง แบบฟอร์ม) และสไตล์ (แบบอักษร ไฮไลต์ ฯลฯ) โมเดลนี้สามารถตอบคำถามภาพที่ปรากฏบนภาพเอกสารได้ คล้ายกับ ChatGPT โดยไม่จำเป็นต้องเรียนรู้แบบฟอร์มเฉพาะล่วงหน้า
ที่น่าสังเกตคือ ในการจัดอันดับ RRC CATI-VLM ที่มีพารามิเตอร์เพียง 3 พันล้านตัว กลับมีความแม่นยำสูงสุดในชุดข้อมูล 4/7 โดยแซงหน้าโมเดล Big Tech มากมาย เช่น Deepseek (27 พันล้านพารามิเตอร์) GPT-4 Vision Turbo + Amazon Textract OCR (34 อันดับแรก) หรือ Baidu (22 อันดับแรก)
ความสำเร็จดังกล่าวยังแสดงให้เห็นถึงแนวทางเชิงปฏิบัติ โดยเน้นที่การเชี่ยวชาญเทคโนโลยีหลัก การปรับปรุงโมเดลให้เหมาะสมกับสภาพโครงสร้างพื้นฐานของเวียดนาม แทนที่จะไล่ตามมาตราส่วนพารามิเตอร์
ตัวอย่างแบบฟอร์มการสมัครเข้าเรียนวิทยาลัย
มีการจดจำข้อความจากลายมือในรูปภาพด้านบน
คุณเหงียน จุง จิน ประธานกรรมการบริหารและประธานกรรมการบริหารของ CMC Technology Group เน้นย้ำว่า “นี่คือผลลัพธ์จากการลงทุนอย่างต่อเนื่องยาวนานกว่าทศวรรษในการวิจัยและพัฒนาเทคโนโลยี (R&D) ความสำเร็จอันโดดเด่นของ CMC ในวงการเทคโนโลยีระดับนานาชาติ ตอกย้ำกลยุทธ์การเชี่ยวชาญเทคโนโลยีของเวียดนาม ควบคู่ไปกับการมุ่งเน้นการเปลี่ยนแปลง AI และการเข้าสู่ตลาดโลก เราเชื่อมั่นว่าปัญญาประดิษฐ์ของเวียดนามมีความสามารถอย่างเต็มที่ในการยืนหยัดเคียงข้างกับบริษัทเทคโนโลยียักษ์ใหญ่ระดับโลก เพื่อสร้างตำแหน่งอันทรงเกียรติบนแผนที่เทคโนโลยีโลก”
CATI-VLM จะถูกนำไปใช้ในสายผลิตภัณฑ์ของระบบนิเวศ C.OpenAI ซึ่งรวมถึง: ผู้ช่วยเสมือน CLS สำหรับการตรวจสอบเอกสารทางกฎหมาย, CMC SmartDoc - แพลตฟอร์มการแปลงเอกสารดิจิทัล, ระบบจัดการความรู้ CMC KMS, ระบบรายงานอัตโนมัติสำหรับสำนักงานอัจฉริยะ และแอปพลิเคชัน Agentic Documents รุ่นใหม่
กวางฮุย
ที่มา: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
การแสดงความคิดเห็น (0)