ベトナムにおけるデジタルトランスフォーメーションと人工知能(AI)トランスフォーメーションの文脈において、OCR(光学文字認識)技術は、文書のデジタル化、業務プロセスの自動化、コスト削減、経営効率の向上においてますます重要な役割を果たしています。しかし、ベトナム語にはアクセントや手書き文字といった特徴があるため、認識の問題は「単語の読み取り」に留まらず、モデルが文脈を包括的に理解する能力を必要とします。
最近、 CMCテクノロジー応用研究所(CMC ATI)は、研究チームが5TBの大規模データウェアハウスから開発したCATI-VLM(ビジュアルドキュメント理解)モデルが、2025年6月にRobust Reading Competition(RRC)が発表したばかりのランキングで、ドキュメントビジュアル質問回答(DocVQA)部門で世界トップ12位、ベトナムトップ1位にランクインしたことを発表しました。
Robust Reading Competition (RRC) は、コンピュータ ビジョンの分野で世界的に有名な研究機関であるスペインのバルセロナ自治大学 (UAB) のコンピュータ ビジョン センター (CVC) が主催する、権威ある科学の遊び場です (https://rrc.cvc.uab.es/)。2011 年に開始され、常に文書分析とコンピュータ ビジョンに関する世界最大級のフォーラムの 1 つである国際テキスト分析および認識会議 (ICDAR) に付随するこのコンペティションは、清華大学、現代自動車グループ、テンセントなどの名門大学、研究機関、テクノロジー企業の研究者やエンジニアを魅了する重要なイベントになりました。RRC のタスクは、翻訳、エンタープライズ データ管理から都市分析、歴史的文書処理に至るまでの実際的な問題に密接に関連した技術進歩を促進するように設計されています。
CMC ATI所長のダン・ミン・トゥアン博士は次のように述べています。「CMCチームの研究能力は、RRCのような権威ある世界的拠点を通して実証されています。チームが短期間で高い評価を獲得し、先進国の著名人と肩を並べることができたことを誇りに思います。さらに重要なのは、これはベトナム特有の問題やベトナムの専門分野を解決するための技術を習得する能力を明確に示すものであるということです。」
CATI-VLMは、文字抽出だけでなく、テキストコンテンツ、非テキスト要素(チェックボックス、グラフ、署名、数式)、レイアウト(ページ構造、表、フォーム)、スタイル(フォント、ハイライトなど)といった多層的な情報を理解するという点で、従来のOCRとは異なります。このモデルは、ChatGPTと同様に、特定のフォームを事前に学習することなく、文書画像上で提示される視覚的な質問に答えることができます。
出典: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051
コメント (0)