Clasamentul RRC în categoria DocVQA 6/2025.
În contextul transformării digitale și al transformării aplicațiilor de inteligență artificială în Vietnam, tehnologia OCR (Recunoaștere optică a caracterelor) joacă un rol din ce în ce mai important în digitalizarea documentelor, automatizarea proceselor de afaceri, economisirea costurilor și îmbunătățirea eficienței managementului. Cu toate acestea, având în vedere caracteristicile vietnameze cu accente și scris de mână, problema recunoașterii nu se oprește la „citirea cuvintelor”, ci necesită ca modelul să aibă capacitatea de a înțelege contextul în mod cuprinzător.
Recent, Institutul de Aplicații Tehnologice CMC (CMC ATI) a anunțat modelul CATI-VLM (Visual Document Understanding - Înțelegerea Vizuală a Documentelor) - dezvoltat de echipa de cercetare dintr-un depozit de date de 5 TB, depășind mulți competitori internaționali și ajungând în top 12 în lume și top 1 în Vietnam în clasamentul anunțat recent de Robust Reading Competition (RRC) în iunie 2025, la categoria Document Visual Question Answering (DocVQA).
Competiția de Lectură Robustă (RRC) este un prestigios teren de joacă științific (https://rrc.cvc.uab.es/) organizat de Centrul de Viziune prin Calculator (CVC) al Universității Autonome din Barcelona (UAB) din Spania, o instituție de cercetare prestigioasă la nivel mondial în domeniul vederii prin calculator.
Competiția a fost inițiată în 2011 și se desfășoară anual în cadrul Conferinței Internaționale privind Analiza și Recunoașterea Textului (ICDAR) - unul dintre cele mai importante forumuri mondiale în domeniul vederii computerizate. Competiția atrage un număr mare de cercetători și ingineri de la universități, institute de cercetare și mari corporații de tehnologie, cum ar fi Universitatea Tsinghua, Hyundai Motor Group, Tencent... Problemele RRC sunt concepute pentru a promova progresul tehnologic, strâns legat de probleme practice, de la traducere, managementul datelor întreprinderilor până la analiza urbană și procesarea documentelor istorice.
Dr. Dang Minh Tuan, directorul CMC ATI, a declarat: „Suntem foarte încântați că capacitatea de cercetare a echipei CMC a fost afirmată într-un domeniu global prestigios precum RRC. Într-un timp scurt, echipa de cercetare a obținut clasamente înalte, demonstrându-și competitivitatea internațională alături de nume mari din țările dezvoltate. Mai important, aceasta este o demonstrație clară a capacității de a stăpâni tehnologia pentru a rezolva probleme specifice vietnamezilor și domenii specializate din Vietnam.”
Dr. Dang Minh Tuan, Director CMC ATI.
CATI-VLM diferă de OCR-ul tradițional prin faptul că nu numai că extrage caractere, ci înțelege și mai multe straturi de informații: conținut textual, elemente non-textuale (casete de bifat, casete de selectare, diagrame, semnături, formule), aspect (structura paginii, tabele, formulare) și stil (fonturi, evidențieri etc.). Modelul poate răspunde la întrebări vizuale puse pe imaginile documentelor, similar cu ChatGPT, fără a fi nevoie să înveți în prealabil formulare specifice.
În clasamentul RRC, CATI-VLM, cu doar 3 miliarde de parametri, a obținut cea mai mare precizie în 4/7 seturi de date, depășind multe modele Big Tech precum Deepseek (27 de miliarde de parametri), GPT-4 Vision Turbo + Amazon Textract OCR (top 34) sau Baidu (top 22).
Realizarea demonstrează, de asemenea, o abordare practică, concentrându-se pe stăpânirea tehnologiei de bază, optimizând modelul pentru a se potrivi condițiilor de infrastructură din Vietnam, în loc să urmărească scalarea parametrilor.
Formular de cerere de admitere la facultate exemplu
Textul a fost recunoscut din scrisul de mână din imaginea de mai sus.
Dl. Nguyen Trung Chinh, Președintele Consiliului de Administrație, Președinte Executiv al CMC Technology Group, a subliniat: „Acesta este rezultatul a peste un deceniu de investiții constante în cercetare și dezvoltare tehnologică (C&D). Realizările remarcabile ale CMC pe piața tehnologică internațională confirmă strategia de stăpânire a tehnologiei vietnameze, împreună cu orientarea către Transformarea Inteligenței Artificiale și intrarea pe piața globală. Credem că serviciile de informații vietnameze sunt pe deplin capabile să stea umăr la umăr cu Big Tech-urile globale, creând o poziție demnă pe harta tehnologică mondială.”
CATI-VLM va fi aplicat în lanțul de produse al ecosistemului C.OpenAI, inclusiv: asistentul virtual CLS pentru revizuirea documentelor juridice, CMC SmartDoc - platformă de conversie digitală a documentelor, sistemul de gestionare a cunoștințelor CMC KMS, sistemul de raportare automată pentru birouri inteligente și aplicațiile Agentic Documents de nouă generație.
QUANG HUY
Sursă: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
Comentariu (0)