ベトナムではAI化が急速に進んでおり、OCR(光学文字認識)技術は文書のデジタル化においてますます重要な役割を果たしている。写真:イラスト
最近、 CMCテクノロジー応用研究所(CMC ATI)は、研究チームが5TBの大規模データウェアハウスから開発したCATI-VLM(ビジュアルドキュメント理解)モデルが、2025年6月にRobust Reading Competition(RRC)が発表したばかりのランキングで、ドキュメントビジュアル質問回答(DocVQA)部門で世界トップ12位、ベトナムトップ1位にランクインしたことを発表しました。
CMC ATI所長のダン・ミン・トゥアン氏は次のように述べています。「CMCチームの研究能力が、RRCのような権威ある世界的舞台で認められたことを大変嬉しく思います。チームが短期間で高い評価を獲得し、先進国の著名人と肩を並べることができたことを誇りに思います。さらに重要なのは、これはベトナム特有の問題やベトナムの専門分野を解決するための技術を習得する能力を明確に示すものであるということです。」
ベトナムではデジタルトランスフォーメーションとAIトランスフォーメーションが盛んに進められており、OCR(光学式文字認識)テクノロジーは、文書のデジタル化、ビジネスプロセスの自動化、コストの削減、管理効率の向上においてますます重要な役割を果たしています。
しかし、アクセントや手書き文字のあるベトナム語の特性を考えると、認識の問題は「単語の読み取り」に留まらず、モデルが文脈を総合的に理解する能力を持つことが求められます。
CATI-VLM は、文字を抽出するだけでなく、テキスト コンテンツ、非テキスト要素 (チェック ボックス、チェックボックス、グラフ、署名、数式)、レイアウト (ページ構造、表、フォーム)、スタイル (フォント、ハイライトなど) といった複数のレイヤーの情報を理解する点で、従来の OCR とは異なります。
このモデルは、ChatGPT と同様に、事前に特定のフォームを学習する必要なく、ドキュメント画像上で提示された視覚的な質問に答えることができます。
Robust Reading Competition (RRC) は、コンピューター ビジョンの分野で世界的に権威のある研究機関であるスペインのバルセロナ自治大学 (UAB) のコンピューター ビジョン センターが主催する、権威ある科学コンテストです。
2011年に開始され、常に文書分析とコンピュータービジョンに関する世界最大のフォーラムの1つである国際テキスト分析および認識会議(ICDAR)に付随するこのコンテストは、清華大学、現代自動車グループ、テンセントなどの名門大学、研究機関、テクノロジー企業の研究者やエンジニアを惹きつける重要なイベントになりました...
RRC の使命は、翻訳や企業データ管理から都市分析や歴史的文書の処理に至るまでの実際的な問題に根ざした技術の進歩を推進することを目指しています。
仕事から子育てまで: テクノロジー企業の CEO が日々 AI を活用する方法ジェンセン フアンからティム クックまで、世界で最も影響力のあるテクノロジー企業の CEO たちは日々の生活の中で AI を活用しています。
出典: https://vietnamnet.vn/ai-loi-make-in-vietnam-cua-cmc-duoc-xep-hang-top-12-the-gioi-2417479.html
コメント (0)