ベトナムではデジタルトランスフォーメーションと人工知能アプリケーションの変革が盛んに行われており、OCRテクノロジー(光学式文字認識)は、文書のデジタル化、ビジネスプロセスの自動化、コストの削減、管理効率の向上においてますます重要な役割を果たしています。
しかし、アクセントや手書き文字のあるベトナム語の特性を考えると、認識の問題は「単語の読み取り」に留まらず、モデルが文脈を総合的に理解する能力を持つことが求められます。
この課題に直面して、 CMCテクノロジー アプリケーション インスティテュート (CMC ATI) は、コンピューター ビジョン (Visual Document Understanding) を使用してドキュメントを理解するシステムである CATI-VLM モデルを開発しました。
最大 5TB の大規模データ ウェアハウスをベースにしたこのモデルは、2025 年 6 月に開催された国際 Robust Reading Competition (RRC) の Document Visual Question Answering (DocVQA) 部門で、世界トップ 12 位、ベトナムトップ 1 位にランクされました。
(ベトナム通信社/ベトナム+)
出典: https://www.vietnamplus.vn/tri-tue-nhan-tao-viet-vao-top-12-the-gioi-ve-nhan-dang-van-ban-post1048696.vnp
コメント (0)