En el contexto de la transformación digital y la transformación de la inteligencia artificial (IA) en Vietnam, la tecnología OCR (reconocimiento óptico de caracteres) desempeña un papel cada vez más importante en la digitalización de documentos, la automatización de procesos empresariales, el ahorro de costes y la mejora de la eficiencia administrativa. Sin embargo, dadas las características del vietnamita, con sus acentos y su escritura a mano, el problema del reconocimiento no se limita a la lectura de palabras, sino que requiere que el modelo tenga la capacidad de comprender el contexto de forma integral.
Recientemente, el CMC Technology Application Institute (CMC ATI) anunció el modelo CATI-VLM (Visual Document Understanding) desarrollado por el equipo de investigación a partir de un gran almacén de datos de 5 TB, alcanzando el top 12 en el mundo y el top 1 en Vietnam en las clasificaciones recién anunciadas por Robust Reading Competition (RRC) en junio de 2025 en la categoría Document Visual Question Answering (DocVQA).
El Concurso de Lectura Robusta (RRC) es un prestigioso espacio científico (https://rrc.cvc.uab.es/) organizado por el Centro de Visión por Computador (CVC) de la Universitat Autònoma de Barcelona (UAB), un prestigioso centro de investigación a nivel mundial en el campo de la visión por computador. Iniciado en 2011, siempre en paralelo a la Conferencia Internacional sobre Análisis y Reconocimiento de Textos (ICDAR), uno de los foros más importantes del mundo sobre análisis de documentos y visión por computador, el concurso se ha convertido en un evento importante que atrae a investigadores, ingenieros de prestigiosas universidades, institutos de investigación y empresas tecnológicas como la Universidad de Tsinghua, Hyundai Motor Group y Tencent. Las tareas del RRC están diseñadas para promover el progreso tecnológico, estrechamente vinculado a problemas prácticos que abarcan desde la traducción y la gestión de datos empresariales hasta el análisis urbano y el procesamiento de documentos históricos.
El Dr. Dang Minh Tuan, Director de CMC ATI, comentó: «La capacidad de investigación del equipo de CMC se ve reforzada por un prestigioso centro de investigación global como RRC. Nos enorgullece que, en tan poco tiempo, el equipo haya alcanzado un alto nivel, a la par de grandes nombres de países desarrollados. Y lo que es más importante, esta es una clara demostración de la capacidad de dominar la tecnología para resolver problemas específicos de Vietnam y de las áreas especializadas en Vietnam».
CATI-VLM se diferencia del OCR tradicional en que no solo extrae caracteres, sino que también comprende múltiples capas de información: contenido textual, elementos no textuales (casillas de verificación, gráficos, firmas, fórmulas), diseño (estructura de página, tablas, formularios) y estilo (fuentes, resaltados, etc.). El modelo puede responder a preguntas visuales sobre imágenes de documentos, de forma similar a ChatGPT, sin necesidad de aprender formularios específicos de antemano.
Fuente: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051
Kommentar (0)