Рейтинг RRC в категории DocVQA 6/2025.
В контексте цифровой трансформации и трансформации применения искусственного интеллекта во Вьетнаме технология OCR (оптического распознавания символов) играет всё более важную роль в оцифровке документов, автоматизации бизнес-процессов, экономии средств и повышении эффективности управления. Однако, учитывая особенности вьетнамского языка, включая акцент и почерк, проблема распознавания не ограничивается «чтением слов», а требует от модели способности всесторонне понимать контекст.
Недавно Институт применения технологий CMC ( CMC ATI) анонсировал модель CATI-VLM (визуальное понимание документов), разработанную исследовательской группой на основе хранилища данных объемом 5 ТБ. Модель превзошла многих международных конкурентов, вошла в 12 лучших в мире и заняла 1-е место во Вьетнаме в рейтинге, недавно объявленном Конкурсом по чтению Robust Reading Competition (RRC) в июне 2025 года в категории «Визуальные ответы на вопросы по документам» (DocVQA).
Конкурс Robust Reading Competition (RRC) — это престижная научная площадка (https://rrc.cvc.uab.es/), организованная Центром компьютерного зрения (CVC) Автономного университета Барселоны (UAB) в Испании, авторитетным исследовательским центром в мире в области компьютерного зрения.
Конкурс был учрежден в 2011 году и проводится ежегодно в рамках Международной конференции по анализу и распознаванию текста (ICDAR) – одного из ведущих мировых форумов в области компьютерного зрения. Конкурс привлекает большое количество исследователей и инженеров из университетов, научно-исследовательских институтов и крупных технологических корпораций, таких как Университет Цинхуа, Hyundai Motor Group, Tencent... Задачи RRC направлены на содействие технологическому прогрессу и тесно связаны с практическими задачами – от перевода и управления корпоративными данными до анализа городской среды и обработки исторических документов.
Доктор Данг Минь Туан, директор CMC ATI, отметил: «Мы очень рады, что исследовательский потенциал команды CMC был подтверждён на такой престижной международной площадке, как RRC. За короткое время исследовательская группа достигла высоких рейтингов, продемонстрировав свою международную конкурентоспособность на фоне крупных компаний из развитых стран. Что ещё важнее, это наглядно демонстрирует способность осваивать технологии для решения специфических проблем вьетнамской науки и специализированных областей во Вьетнаме».
Доктор Данг Минь Туан, директор CMC ATI.
CATI-VLM отличается от традиционного OCR тем, что не только извлекает символы, но и распознаёт несколько слоёв информации: текстовое содержимое, нетекстовые элементы (флажки, чекбоксы, диаграммы, подписи, формулы), макет (структуру страницы, таблицы, формы) и стиль (шрифты, выделение и т. д.). Модель может отвечать на визуальные вопросы, заданные на изображениях документов, подобно ChatGPT, без необходимости предварительного изучения конкретных форм.
Примечательно, что в рейтинге RRC CATI-VLM с всего лишь 3 миллиардами параметров достигла наивысшей точности в 4/7 наборах данных, превзойдя многие технологические модели, такие как Deepseek (27 миллиардов параметров), GPT-4 Vision Turbo + Amazon Textract OCR (топ-34) или Baidu (топ-22).
Достижение также демонстрирует практический подход, сосредоточенный на освоении базовой технологии и оптимизации модели с учетом условий инфраструктуры Вьетнама, а не погоню за масштабом параметров.
Образец заявления о приеме в колледж
На изображении выше текст был распознан по рукописному тексту.
Г-н Нгуен Чунг Чинь, председатель совета директоров и исполнительный председатель CMC Technology Group, подчеркнул: «Это результат более чем десятилетних постоянных инвестиций в технологические исследования и разработки (НИОКР). Высокие достижения CMC на международной технологической площадке подтверждают стратегию освоения вьетнамских технологий, а также ориентацию на трансформацию в сфере искусственного интеллекта и выход на мировой рынок. Мы убеждены, что вьетнамская разведка вполне способна встать плечом к плечу с мировыми гигантами, заняв достойное место на мировой технологической карте».
CATI-VLM будет применяться в цепочке продуктов экосистемы C.OpenAI, включая: виртуального помощника CLS для просмотра юридических документов, CMC SmartDoc - платформу преобразования цифровых документов, систему управления знаниями CMC KMS, автоматическую систему отчетности для умных офисов и новое поколение приложений Agentic Documents.
КУАНГ ХУЙ
Источник: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
Комментарий (0)