Στο πλαίσιο του ψηφιακού μετασχηματισμού και του μετασχηματισμού της τεχνητής νοημοσύνης (AI) στο Βιετνάμ, η τεχνολογία OCR (οπτική αναγνώριση χαρακτήρων) παίζει ολοένα και πιο σημαντικό ρόλο στην ψηφιοποίηση εγγράφων, στην αυτοματοποίηση των επιχειρηματικών διαδικασιών, στην εξοικονόμηση κόστους και στη βελτίωση της αποτελεσματικότητας της διαχείρισης. Ωστόσο, με τα χαρακτηριστικά των Βιετναμέζων με προφορές και γραφή, το πρόβλημα της αναγνώρισης δεν σταματά στην «ανάγνωση λέξεων», αλλά απαιτεί από το μοντέλο να έχει την ικανότητα να κατανοεί πλήρως το πλαίσιο.
Πρόσφατα, το Ινστιτούτο Τεχνολογικών Εφαρμογών CMC (CMC ATI) ανακοίνωσε το μοντέλο CATI-VLM (Visual Document Understanding) που ανέπτυξε η ερευνητική ομάδα από μια μεγάλη αποθήκη δεδομένων 5TB, φτάνοντας στην πρώτη 12άδα στον κόσμο και στην πρώτη θέση στο Βιετνάμ στις κατατάξεις που μόλις ανακοινώθηκαν από τον Διαγωνισμό Robust Reading (RRC) τον Ιούνιο του 2025 στην κατηγορία Απαντήσεις Οπτικών Ερωτήσεων Εγγράφων (DocVQA).
Κατάταξη RRC στην κατηγορία DocVQA 6/2025.
Ο Διαγωνισμός Ανθεκτικού Αναγνώσματος (RRC) είναι ένας επιστημονικός διαγωνισμός υψηλού κύρους (https://rrc.cvc.uab.es/) που διοργανώνεται από το Κέντρο Όρασης Υπολογιστών (CVC) του Αυτόνομου Πανεπιστημίου της Βαρκελώνης (UAB) Ισπανίας, ένα παγκοσμίως αναγνωρισμένο ερευνητικό κέντρο στον τομέα της όρασης υπολογιστών. Ξεκινώντας το 2011, συνοδεύοντας πάντα το Διεθνές Συνέδριο Ανάλυσης και Αναγνώρισης Κειμένου ICDAR - ένα από τα μεγαλύτερα φόρουμ στον κόσμο για την ανάλυση εγγράφων και την όραση υπολογιστών, ο διαγωνισμός έχει γίνει ένα σημαντικό γεγονός, προσελκύοντας ερευνητές, μηχανικούς από αναγνωρισμένα πανεπιστήμια, ερευνητικά ιδρύματα και εταιρείες τεχνολογίας όπως το Πανεπιστήμιο Tsinghua, η Hyundai Motor Group και η Tencent... Οι εργασίες του RRC έχουν σχεδιαστεί για να προωθήσουν την τεχνολογική πρόοδο, η οποία συνδέεται στενά με πρακτικά προβλήματα από τη μετάφραση, τη διαχείριση επιχειρηματικών δεδομένων έως την αστική ανάλυση και την επεξεργασία ιστορικών εγγράφων.
Ο Δρ. Dang Minh Tuan, Διευθυντής του CMC ATI, δήλωσε: «Η ερευνητική ικανότητα της ομάδας CMC επιβεβαιώνεται μέσω ενός διεθνούς κύρους, όπως το RRC. Είμαστε περήφανοι που σε σύντομο χρονικό διάστημα, η ομάδα μπορεί να επιτύχει υψηλή κατάταξη, δίπλα σε μεγάλα ονόματα από ανεπτυγμένες χώρες. Το πιο σημαντικό, αυτή είναι μια σαφής επίδειξη της ικανότητας να κατακτήσει κανείς την τεχνολογία για την επίλυση συγκεκριμένων προβλημάτων του Βιετνάμ και εξειδικευμένων τομέων στο Βιετνάμ».
Το CATI-VLM διαφέρει από την παραδοσιακή OCR στο ότι όχι μόνο εξάγει χαρακτήρες, αλλά κατανοεί και πολλαπλά επίπεδα πληροφοριών: περιεχόμενο κειμένου, μη κειμενικά στοιχεία (πλαίσια επιλογής, πλαίσια ελέγχου, γραφήματα, υπογραφές, τύποι), διάταξη (δομή σελίδας, πίνακες, φόρμες) και στυλ (γραμματοσειρές, επισημάνσεις κ.λπ.). Το μοντέλο μπορεί να απαντήσει σε οπτικά ερωτήματα που τίθενται σε εικόνες εγγράφων, παρόμοια με το ChatGPT, χωρίς να χρειάζεται να μάθει συγκεκριμένες φόρμες εκ των προτέρων.
Σύμφωνα με την εφημερίδα News and People
Πηγή: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051
Σχόλιο (0)