베트남에서 AI 혁신이 활발하게 진행되고 있으며, OCR(광학 문자 인식) 기술이 문서 디지털화에서 점점 더 중요한 역할을 하고 있습니다. 사진: 일러스트레이션
최근CMC Technology Application Institute(CMC ATI)는 연구팀이 5TB 대용량 데이터웨어하우스에서 개발한 CATI-VLM(Visual Document Understanding) 모델을 발표했는데, 이 모델이 2025년 6월 Robust Reading Competition(RRC)에서 발표한 문서 시각적 질의응답(DocVQA) 부문 순위에서 전 세계 12위, 베트남 1위를 차지했습니다.
CMC ATI의 당 민 투안(Dang Minh Tuan) 이사는 "CMC 팀의 연구 역량이 RRC와 같은 명망 있는 글로벌 플랫폼을 통해 인정받게 되어 매우 기쁩니다. 짧은 시간 안에 선진국의 유명 인사들과 어깨를 나란히 할 만큼 높은 순위에 오른 것이 자랑스럽습니다. 더 중요한 것은, 이는 베트남의 특정 문제 및 베트남의 전문 분야를 해결할 수 있는 기술을 완벽하게 숙달한 역량을 분명히 보여주는 사례입니다."라고 말했습니다.
베트남에서 디지털 혁신과 AI 혁신이 활발하게 진행됨에 따라, OCR(광학 문자 인식) 기술은 문서 디지털화, 비즈니스 프로세스 자동화, 비용 절감 및 관리 효율성 향상에 있어 점점 더 중요한 역할을 하고 있습니다.
하지만 악센트와 필기체가 있는 베트남어의 특성을 고려할 때, 인식 문제는 '단어 읽기'에 그치지 않고 모델이 맥락을 종합적으로 이해할 수 있는 능력을 요구합니다.
CATI-VLM은 문자를 추출하는 데 그치지 않고 텍스트 콘텐츠, 비텍스트 요소(체크박스, 체크박스, 차트, 서명, 수식), 레이아웃(페이지 구조, 표, 양식) 및 스타일(글꼴, 강조 표시 등) 등 여러 계층의 정보를 이해한다는 점에서 기존 OCR과 다릅니다.
이 모델은 ChatGPT와 비슷하게 문서 이미지에 제시된 시각적 질문에 답할 수 있으며, 사전에 특정 형식을 학습할 필요가 없습니다.
로버스트 리딩 경연대회(RRC)는 컴퓨터 비전 분야에서 세계적으로 유명한 연구 기관인 스페인 바르셀로나 자치대학교(UAB)의 컴퓨터 비전 센터가 주최하는 권위 있는 과학 경연 대회입니다.
2011년에 시작된 이 대회는 문서 분석 및 컴퓨터 비전 분야에서 세계 최대 규모의 포럼 중 하나인 국제 텍스트 분석 및 인식 컨퍼런스(ICDAR)와 함께 개최되며, 청화대학교, 현대자동차그룹, 텐센트 등 명문 대학, 연구소, 기술 기업의 연구자, 엔지니어가 참여하는 중요한 행사로 자리 잡았습니다.
RRC의 사명은 번역, 기업 데이터 관리부터 도시 분석, 역사 문서 처리까지 다양한 실질적인 문제에 뿌리를 두고 기술 발전을 촉진하도록 설계되었습니다.
일에서 육아까지: 기술 CEO들이 매일 AI를 활용하는 방법 젠슨 황부터 팀 쿡까지, 세계에서 가장 영향력 있는 기술 CEO들이 일상 생활에 AI를 활용하고 있습니다.
출처: https://vietnamnet.vn/ai-loi-make-in-vietnam-cua-cmc-duoc-xep-hang-top-12-the-gioi-2417479.html
댓글 (0)