La transformation de l'IA au Vietnam est en pleine expansion, et la technologie OCR (reconnaissance optique de caractères) joue un rôle de plus en plus important dans la numérisation des documents. Photo : Illustration
Récemment, le CMC Technology Application Institute (CMC ATI) a annoncé le modèle CATI-VLM (Visual Document Understanding) développé par l'équipe de recherche à partir d'un grand entrepôt de données de 5 To, atteignant le Top 12 mondial et le Top 1 au Vietnam dans les classements qui viennent d'être annoncés par Robust Reading Competition (RRC) en juin 2025 dans la catégorie Document Visual Question Answering (DocVQA).
M. Dang Minh Tuan, directeur du CMC ATI, a déclaré : « Nous sommes ravis que la capacité de recherche de l'équipe du CMC ait été confirmée par un prestigieux concours international comme le RRC. Nous sommes fiers qu'en si peu de temps, l'équipe ait pu atteindre un haut niveau, aux côtés de grands noms des pays développés. Plus important encore, cela démontre clairement la capacité de l'équipe à maîtriser la technologie pour résoudre des problèmes spécifiques au Vietnam et dans des domaines spécialisés au Vietnam. »
Dans le contexte de la transformation numérique et de la transformation de l'IA au Vietnam, la technologie OCR (reconnaissance optique de caractères) joue un rôle de plus en plus important dans la numérisation des documents, l'automatisation des processus commerciaux, la réduction des coûts et l'amélioration de l'efficacité de la gestion.
Cependant, avec les caractéristiques du vietnamien avec les accents et l'écriture manuscrite, le problème de reconnaissance ne s'arrête pas à la « lecture des mots », mais nécessite que le modèle ait la capacité de comprendre le contexte de manière exhaustive.
CATI-VLM diffère de l'OCR traditionnel en ce qu'il extrait non seulement les caractères, mais comprend également plusieurs couches d'informations : contenu textuel, éléments non textuels (cases à cocher, cases à cocher, graphiques, signatures, formules), mise en page (structure de la page, tableaux, formulaires) et style (polices, surlignages…).
Le modèle peut répondre à des questions visuelles posées sur des images de documents, de manière similaire à ChatGPT, sans avoir besoin d'apprendre des formulaires spécifiques à l'avance.
Robust Reading Competition (RRC) est un prestigieux terrain de jeu scientifique , organisé par le Computer Vision Center de l'Universitat Autònoma de Barcelona (UAB) Espagne, un centre de recherche prestigieux au monde dans le domaine de la vision par ordinateur.
Initié en 2011, toujours en parallèle de la Conférence internationale sur l'analyse et la reconnaissance de textes ICDAR - l'un des plus grands forums mondiaux sur l'analyse de documents et la vision par ordinateur, le concours est devenu un événement important, attirant des chercheurs, des ingénieurs d'universités prestigieuses, d'instituts de recherche et d'entreprises technologiques telles que l'Université Tsinghua, Hyundai Motor Group et Tencent...
Les missions du RRC sont conçues pour stimuler le progrès technologique, ancré dans des problèmes pratiques allant de la traduction et de la gestion des données d'entreprise à l'analyse urbaine et au traitement des documents historiques.
Du travail à la parentalité : comment les PDG de la technologie utilisent l'IA au quotidienDe Jensen Huang à Tim Cook, les PDG de la technologie les plus puissants du monde exploitent l'IA dans leur vie quotidienne.
Source : https://vietnamnet.vn/ai-loi-make-in-vietnam-cua-cmc-duoc-xep-hang-top-12-the-gioi-2417479.html
Comment (0)