В контексте цифровой трансформации и трансформации искусственного интеллекта (ИИ) во Вьетнаме технология OCR (оптическое распознавание символов) играет все более важную роль в оцифровке документов, автоматизации бизнес-процессов, экономии затрат и повышении эффективности управления. Однако, учитывая особенности вьетнамского языка с акцентами и почерком, проблема распознавания не ограничивается «чтением слов», а требует, чтобы модель обладала способностью всесторонне понимать контекст.
Недавно Институт применения технологий CMC (CMC ATI) объявил о том, что модель CATI-VLM (визуальное понимание документов), разработанная исследовательской группой на основе хранилища данных объемом 5 ТБ, вошла в топ-12 в мире и топ-1 во Вьетнаме в рейтинге, недавно объявленном Robust Reading Competition (RRC) в июне 2025 года в категории «Визуальные ответы на вопросы по документам» (DocVQA).
Robust Reading Competition (RRC) — престижная научная площадка (https://rrc.cvc.uab.es/), организованная Центром компьютерного зрения (CVC) Автономного университета Барселоны (UAB) (Испания), престижным исследовательским учреждением в мире в области компьютерного зрения. Инициированный в 2011 году, всегда сопровождающий Международную конференцию по анализу и распознаванию текста ICDAR — один из крупнейших в мире форумов по анализу документов и компьютерному зрению, конкурс стал важным событием, привлекающим исследователей, инженеров из престижных университетов, научно-исследовательских институтов и технологических компаний, таких как Университет Цинхуа, Hyundai Motor Group и Tencent... Задачи RRC направлены на содействие технологическому прогрессу, тесно связанному с практическими проблемами от перевода, управления корпоративными данными до городского анализа и обработки исторических документов.
Доктор Данг Минь Туан, директор CMC ATI, поделился: «Исследовательский потенциал команды CMC подтверждается престижной мировой площадкой, такой как RRC. Мы гордимся тем, что за короткое время команда смогла достичь высокого рейтинга, встав плечом к плечу с известными именами из развитых стран. Что еще важнее, это наглядная демонстрация способности осваивать технологии для решения конкретных проблем вьетнамских и специализированных областей во Вьетнаме».
CATI-VLM отличается от традиционного OCR тем, что он не только извлекает символы, но и понимает несколько слоев информации: текстовое содержимое, нетекстовые элементы (флажки, чекбоксы, диаграммы, подписи, формулы), макет (структура страницы, таблицы, формы) и стиль (шрифты, выделения и т. д.). Модель может отвечать на визуальные вопросы, заданные на изображениях документов, подобно ChatGPT, без необходимости заранее изучать конкретные формы.
Источник: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051
Комментарий (0)