Classement RRC dans la catégorie DocVQA 6/2025.
Dans le contexte de la transformation numérique et des applications d'intelligence artificielle au Vietnam, la technologie OCR (reconnaissance optique de caractères) joue un rôle de plus en plus important dans la numérisation des documents, l'automatisation des processus métier, la réduction des coûts et l'amélioration de l'efficacité de la gestion. Cependant, compte tenu des spécificités du vietnamien, avec ses accents et son écriture manuscrite, le problème de reconnaissance ne se limite pas à la « lecture des mots », mais exige que le modèle soit capable de comprendre le contexte de manière exhaustive.
Récemment, le CMC Technology Application Institute ( CMC ATI) a annoncé le modèle CATI-VLM (Visual Document Understanding) - développé par l'équipe de recherche à partir d'un grand entrepôt de données de 5 To, surpassant de nombreux concurrents internationaux pour atteindre le top 12 mondial et le top 1 au Vietnam dans le classement qui vient d'être annoncé par Robust Reading Competition (RRC) en juin 2025 dans la catégorie Document Visual Question Answering (DocVQA).
Robust Reading Competition (RRC) est un prestigieux terrain de jeu scientifique (https://rrc.cvc.uab.es/) organisé par le Computer Vision Center (CVC) de l'Universitat Autònoma de Barcelona (UAB) Espagne, un centre de recherche prestigieux au monde dans le domaine de la vision par ordinateur.
Le concours a été lancé en 2011 et se déroule chaque année dans le cadre de la Conférence internationale sur l'analyse et la reconnaissance de textes (ICDAR), l'un des principaux forums mondiaux dans le domaine de la vision par ordinateur. Il attire un grand nombre de chercheurs et d'ingénieurs issus d'universités, d'instituts de recherche et de grandes entreprises technologiques telles que l'Université Tsinghua, Hyundai Motor Group, Tencent… Les problèmes du RRC visent à promouvoir le progrès technologique, en étroite collaboration avec des problématiques pratiques telles que la traduction, la gestion des données d'entreprise, l'analyse urbaine et le traitement de documents historiques.
Le Dr Dang Minh Tuan, directeur du CMC ATI, a déclaré : « Nous sommes ravis que la capacité de recherche de l'équipe du CMC ait été confirmée par un prestigieux concours international comme le RRC. En peu de temps, l'équipe de recherche a atteint des classements élevés, démontrant sa compétitivité internationale face aux grands noms des pays développés. Plus important encore, il s'agit d'une démonstration claire de la capacité à maîtriser la technologie pour résoudre des problèmes spécifiques au Vietnam et dans des domaines spécialisés au Vietnam. »
Dr Dang Minh Tuan, directeur du CMC ATI.
CATI-VLM diffère de l'OCR traditionnel en ce qu'il extrait non seulement les caractères, mais comprend également plusieurs couches d'information : contenu textuel, éléments non textuels (cases à cocher, graphiques, signatures, formules), mise en page (structure de page, tableaux, formulaires) et style (polices, surlignages, etc.). Le modèle peut répondre à des questions visuelles posées sur des images de documents, à l'instar de ChatGPT, sans avoir à apprendre de formulaires spécifiques au préalable.
Notamment, dans le classement RRC, CATI-VLM avec seulement 3 milliards de paramètres a atteint la plus grande précision dans 4/7 ensembles de données, surpassant de nombreux modèles Big Tech tels que Deepseek (27 milliards de paramètres), GPT-4 Vision Turbo + Amazon Textract OCR (top 34) ou Baidu (top 22).
Cette réalisation démontre également une approche pratique, axée sur la maîtrise de la technologie de base, optimisant le modèle pour l'adapter aux conditions d'infrastructure du Vietnam au lieu de rechercher l'échelle des paramètres.
Exemple de formulaire de demande d'admission à l'université
Le texte a été reconnu à partir de l'écriture manuscrite dans l'image ci-dessus.
M. Nguyen Trung Chinh, président du conseil d'administration et président exécutif de CMC Technology Group, a souligné : « C'est le fruit de plus d'une décennie d'investissements constants dans la recherche et le développement technologiques (R&D). Les excellents résultats de CMC sur le marché technologique international confirment la stratégie de maîtrise de la technologie vietnamienne, conjuguée à l'orientation vers la transformation de l'IA et à l'entrée sur le marché mondial. Nous sommes convaincus que les services de renseignement vietnamiens sont pleinement capables de rivaliser avec les géants de la technologie mondiale et de se tailler une place de choix sur la scène technologique mondiale. »
CATI-VLM sera appliqué dans la chaîne de produits de l'écosystème C.OpenAI, notamment : l'assistant virtuel CLS pour la révision des documents juridiques, CMC SmartDoc - plate-forme de conversion de documents numériques, le système de gestion des connaissances CMC KMS, le système de reporting automatique pour les bureaux intelligents et les applications Agentic Documents de nouvelle génération.
QUANG HUY
Source : https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
Comment (0)