Im Kontext der in Vietnam stark voranschreitenden digitalen Transformation und der Transformation von Anwendungen künstlicher Intelligenz spielt die OCR-Technologie (Optical Character Recognition) eine immer wichtigere Rolle bei der Digitalisierung von Dokumenten, der Automatisierung von Geschäftsprozessen, der Kosteneinsparung und der Verbesserung der Managementeffizienz.
Angesichts der Besonderheiten des Vietnamesischen mit Akzent und Handschrift beschränkt sich das Erkennungsproblem jedoch nicht auf das „Lesen von Wörtern“, sondern erfordert, dass das Modell in der Lage ist, den Kontext umfassend zu verstehen.
Angesichts dieser Herausforderung hat das CMC Technology Application Institute (CMC ATI) das CATI-VLM-Modell entwickelt – ein System zum Verstehen von Dokumenten mithilfe von Computer Vision (Visual Document Understanding).
Dieses Modell basiert auf einem großen Data Warehouse mit bis zu 5 TB und wurde bei der internationalen Robust Reading Competition (RRC), Kategorie Document Visual Question Answering (DocVQA), die im Juni 2025 stattfand, gerade unter die Top 12 weltweit und unter die Top 1 in Vietnam gewählt./.
(Vietnam News Agency/Vietnam+)
Quelle: https://www.vietnamplus.vn/tri-tue-nhan-tao-viet-vao-top-12-the-gioi-ve-nhan-dang-van-ban-post1048696.vnp
Kommentar (0)