Vietnam.vn - Nền tảng quảng bá Việt Nam

CMC、テキスト認識で世界トップ12にランクイン

CMC Technology Application Institute (CMC ATI) が開発した CATI-VLM (Visual Document Understanding) モデルは、2025 年 6 月に Robust Reading Competition (RRC) が最近発表した Document Visual Question Answering (DocVQA) 部門のランキングで、多くの国際競争相手を上回り、世界トップ 12 位、ベトナムトップ 1 位を獲得しました。

Báo Nhân dânBáo Nhân dân02/07/2025

DocVQA カテゴリ 6/2025 の RRC ランキング。

DocVQA カテゴリ 6/2025 の RRC ランキング。

ベトナムにおけるデジタルトランスフォーメーションと人工知能(AI)アプリケーションの変革という文脈において、OCR(光学式文字認識)技術は、文書のデジタル化、業務プロセスの自動化、コスト削減、そして経営効率の向上においてますます重要な役割を果たしています。しかし、ベトナム語にはアクセントや手書き文字といった特徴があるため、認識の問題は「単語の読み取り」に留まらず、モデルが文脈を包括的に理解する能力を必要とします。

最近、 CMCテクノロジー応用研究所( CMC ATI)は、研究チームが5TBの大規模データウェアハウスから開発したCATI-VLM(Visual Document Understanding)モデルを発表しました。このモデルは、2025年6月にRobust Reading Competition(RRC)が発表したばかりのランキングで、Document Visual Question Answering(DocVQA)部門において、多くの国際競争相手を上回り、世界トップ12、ベトナムトップ1にランクインしました。

Robust Reading Competition (RRC) は、コンピューター ビジョンの分野で世界的に権威のある研究機関であるスペインのバルセロナ自治大学 (UAB) のコンピューター ビジョン センター (CVC) が主催する、権威ある科学コンテストです (https://rrc.cvc.uab.es/)。

このコンテストは2011年に開始され、コンピュータビジョン分野における世界有数のフォーラムの一つである国際テキスト分析認識会議(ICDAR)の枠組みの中で毎年開催されています。このコンテストには、清華大学、現代自動車グループ、テンセントといった大学、研究機関、大手テクノロジー企業から多くの研究者やエンジニアが参加しています。RRCの課題は、翻訳、企業データ管理、都市分析、歴史文書処理といった実用的な問題と密接に関連し、技術の進歩を促進することを目的として設計されています。

CMC ATI所長のダン・ミン・トゥアン博士は次のように述べています。「CMCチームの研究能力が、RRCのような権威ある国際舞台で認められたことを大変嬉しく思います。研究チームは短期間で高い評価を獲得し、先進国の著名人にも引けを取らない国際競争力を示しました。さらに重要なのは、これはベトナム特有の問題やベトナムの専門分野を解決するための技術を習得する能力を明確に示したものであるということです。」

z6764757325423-eeef2a0ed90465644555dcab3096c25c.jpg

CMC ATIディレクター、ダン・ミン・トゥアン博士。

CATI-VLMは、文字抽出だけでなく、テキストコンテンツ、非テキスト要素(チェックボックス、グラフ、署名、数式)、レイアウト(ページ構造、表、フォーム)、スタイル(フォント、ハイライトなど)といった多層的な情報を理解するという点で、従来のOCRとは異なります。このモデルは、ChatGPTと同様に、特定のフォームを事前に学習することなく、文書画像上で提示される視覚的な質問に答えることができます。

特に、RRCランキングでは、わずか30億のパラメータを持つCATI-VLMが4/7のデータセットで最高の精度を達成し、Deepseek(270億のパラメータ)、GPT-4 Vision Turbo + Amazon Textract OCR(トップ34)、Baidu(トップ22)などの多くの大手テックモデルを上回りました。

この成果は、パラメータスケールを追い求めるのではなく、コア技術の習得とベトナムのインフラ条件に適合するモデルの最適化に重点を置いた実践的なアプローチを示しています。

画像2.jpg

大学入学願書サンプル

画像3.jpg

上の画像では手書きのテキストが認識されています。

CMCテクノロジーグループの取締役会長兼執行会長であるグエン・チュン・チン氏は、「これは10年以上にわたる技術研究開発(R&D)への継続的な投資の成果です。国際的なテクノロジーの舞台におけるCMCの高い成果は、ベトナムの技術を習得し、AI変革を志向し、世界市場への参入を目指すという戦略を裏付けています。ベトナムのインテリジェンスは、世界の大手テクノロジー企業と肩を並べ、世界のテクノロジー地図において確固たる地位を築く能力を十分に備えていると確信しています」と強調しました。

CATI-VLM は、C.OpenAI エコシステムの製品チェーンに適用されます。これには、法的文書を確認するための CLS 仮想アシスタント、デジタル文書変換プラットフォームの CMC SmartDoc、CMC KMS ナレッジ管理システム、スマート オフィスの自動レポート システム、新世代の Agentic Documents アプリケーションが含まれます。

クアン・フイ

出典: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html


コメント (0)

No data
No data
5機のSU-30MK2戦闘機の強力な編隊がA80式典の準備を整える
S-300PMU1ミサイルがハノイの空を守るために実戦投入される
蓮の開花シーズンは、ニンビンの雄大な山々と川に観光客を惹きつけます
クー・ラオ・マイ・ニャ:荒々しさ、荘厳さ、そして静寂が溶け合う場所
嵐「ウィファ」上陸前のハノイは異様だ
ニンビンの鳥類園で野生の世界に迷い込む
湧水期のプルオンの棚田は息を呑むほど美しい
ジャライ省を通る南北高速道路にアスファルトカーペットが「疾走」
色彩のかけら - 色彩のかけら
フートにある「逆さの茶碗」の茶畑の幻想的な風景

遺産

仕事

No videos available

ニュース

政治体制

地方

製品