Vietnam.vn - Nền tảng quảng bá Việt Nam

CMC, 텍스트 인식 부문 세계 12위 진입

CMC Technology Application Institute(CMC ATI)가 개발한 CATI-VLM(Visual Document Understanding) 모델은 많은 국제 경쟁자들을 제치고 2025년 6월 Robust Reading Competition(RRC)이 발표한 문서 시각적 질의응답(DocVQA) 부문 순위에서 세계 12위, 베트남 1위를 차지했습니다.

Báo Nhân dânBáo Nhân dân02/07/2025

DocVQA 카테고리에서 RRC 순위 6/2025.

DocVQA 카테고리에서 RRC 순위 6/2025.

베트남의 디지털 혁신과 인공지능 애플리케이션 혁신이라는 맥락에서, OCR(광학 문자 인식) 기술은 문서 디지털화, 비즈니스 프로세스 자동화, 비용 절감 및 관리 효율성 향상에 점점 더 중요한 역할을 하고 있습니다. 그러나 베트남어의 악센트와 필체 특성을 고려할 때, 인식 문제는 단순히 '단어 읽기'에 그치지 않고 맥락을 포괄적으로 이해하는 능력을 요구합니다.

최근 CMC Technology Application Institute( CMC ATI)는 연구팀이 5TB 대용량 데이터웨어하우스에서 개발한 CATI-VLM(Visual Document Understanding) 모델을 발표했는데, 이 모델은 많은 국제 경쟁자들을 제치고 2025년 6월 Robust Reading Competition(RRC)에서 발표한 문서 시각적 질의응답(DocVQA) 부문 순위에서 세계 12위, 베트남 1위를 차지했습니다.

로버스트 리딩 경연대회(RRC)는 컴퓨터 비전 분야에서 세계적으로 유명한 연구 기관인 스페인 바르셀로나 자치대학교(UAB)의 컴퓨터 비전 센터(CVC)가 주최하는 권위 있는 과학 경연 대회입니다.(https://rrc.cvc.uab.es/)

이 대회는 2011년에 시작되어 컴퓨터 비전 분야 세계 최고 포럼 중 하나인 국제 텍스트 분석 및 인식 컨퍼런스(ICDAR)의 틀 안에서 매년 개최됩니다. 칭화대학교, 현대자동차그룹, 텐센트 등 대학, 연구소, 그리고 대형 기술 기업의 연구원과 엔지니어들이 이 대회에 참여합니다. RRC의 문제들은 번역, 기업 데이터 관리, 도시 분석, 역사 문서 처리 등 실질적인 문제들과 긴밀히 연계되어 기술 발전을 촉진하도록 설계되었습니다.

CMC ATI 소장인 당 민 투안 박사는 "CMC 팀의 연구 역량이 RRC와 같은 명망 있는 글로벌 플랫폼을 통해 인정받게 되어 매우 기쁩니다. 짧은 기간 안에 CMC 팀은 높은 순위를 달성하며 선진국의 유명 연구자들과 어깨를 나란히 하는 국제적인 경쟁력을 입증했습니다. 더 중요한 것은, 이는 베트남의 특정 문제 및 베트남의 전문 분야를 해결할 수 있는 기술을 완벽하게 숙달한 역량을 분명히 보여준 것입니다."라고 말했습니다.

z6764757325423-eeef2a0ed90465644555dcab3096c25c.jpg

CMC ATI 이사 Dang Minh Tuan 박사.

CATI-VLM은 문자 추출뿐만 아니라 텍스트 콘텐츠, 비텍스트 요소(체크박스, 체크박스, 차트, 서명, 수식), 레이아웃(페이지 구조, 표, 양식), 스타일(글꼴, 강조 표시 등) 등 다양한 정보를 이해한다는 점에서 기존 OCR과 다릅니다. 이 모델은 ChatGPT와 유사하게 특정 양식을 미리 학습하지 않고도 문서 이미지에 제시된 시각적 질문에 답변할 수 있습니다.

특히 RRC 순위에서 매개변수가 30억 개에 불과한 CATI-VLM이 4/7 데이터 세트에서 가장 높은 정확도를 달성하여 Deepseek(매개변수 270억 개), GPT-4 Vision Turbo + Amazon Textract OCR(상위 34위), Baidu(상위 22위) 등 많은 빅테크 모델을 앞지르며 가장 높은 성과를 보였습니다.

이 성과는 매개변수 규모를 쫓는 대신 핵심 기술을 습득하고 베트남의 인프라 조건에 맞게 모델을 최적화하는 데 중점을 두는 실용적인 접근 방식을 보여줍니다.

이미지-2.jpg

대학 입학 지원서 샘플

이미지-3.jpg

위 이미지에서는 손으로 쓴 글씨가 텍스트로 인식되었습니다.

CMC 테크놀로지 그룹 이사회 의장 겸 회장인 응우옌 쭝 친(Nguyen Trung Chinh) 씨는 다음과 같이 강조했습니다. "이는 10년 이상 기술 연구 개발(R&D)에 꾸준히 투자해 온 결과입니다. CMC가 국제 기술 시장에서 이룬 높은 성과는 베트남 기술을 완벽하게 숙달하고 AI 혁신을 지향하며 글로벌 시장에 진출하려는 CMC의 전략을 뒷받침합니다. 베트남 정보기술이 세계적인 빅테크 기업들과 어깨를 나란히 하며 세계 기술 시장에서 가치 있는 입지를 구축할 수 있다고 확신합니다."

CATI-VLM은 법률 문서 검토를 위한 CLS 가상 비서, 디지털 문서 변환 플랫폼인 CMC SmartDoc, 스마트 오피스를 위한 자동 보고 시스템, 차세대 Agentic Documents 애플리케이션을 포함한 C.OpenAI 생태계의 제품 체인에 적용될 예정입니다.

광휘

출처: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html


댓글 (0)

No data
No data
뜨거운 태양 아래 훈련장에서 행진하는 군인들
9월 2일 국경일을 대비해 하노이 상공에서 헬리콥터가 리허설하는 모습을 지켜보세요.
U23 베트남, 동남아시아 U23 챔피언십 우승 트로피 화려하게 가져가
북부 섬은 '원석 같은 보석'과 같습니다. 저렴한 해산물, 본토에서 배로 10분 거리
SU-30MK2 전투기 5대로 구성된 강력한 편대가 A80 행사를 준비하고 있습니다.
하노이의 하늘을 지키기 위해 전투 임무에 투입된 S-300PMU1 미사일
연꽃이 피는 계절에는 닌빈의 웅장한 산과 강으로 관광객을 끌어들입니다.
Cu Lao Mai Nha: 야생, 위엄, 평화가 어우러진 곳
폭풍 위파가 상륙하기 전 하노이는 이상하다
닌빈의 새 정원에서 야생 세계에 빠져보세요

유산

수치

사업

No videos available

소식

정치 체제

현지의

제품