Продукт быстро вызвал ажиотаж во вьетнамском научно- техническом сообществе.

Выберите трудный путь решения вьетнамских проблем

В конце 2022 года ChatGPT создал «большой взрыв», открыв гонку за завоевание искусственного ИИ среди стран и гигантов в области технологий. В то время вьетнамское технологическое сообщество также стремилось разрабатывать вьетнамские продукты, чтобы быть самодостаточными в технологиях, снижая зависимость от международных продуктов. Однако не каждое подразделение обладает способностью и решимостью реализовать это желание, как VinBigdata.

«Генеративный ИИ — сложная проблема. Крупным компаниям, таким как OpenAI или Google, также приходится тратить много ресурсов и времени на исследования, чтобы иметь возможность создавать продукты, подобные тем, что мы видим. Эти продукты очень хороши, но на самом деле ученые до сих пор не до конца понимают механизм их работы. Когда в нем возникают ошибки и какими они будут, мало кто может предсказать. Разработать продукт, аналогичный ChatGPT для вьетнамцев, за короткий срок, менее года, — это сложная задача. Но мы решили «рискнуть», потому что если вьетнамская версия ChatGPT не будет создана вьетнамцами, то кто ее сделает?» — поделился профессор Ву Ха Ван, директор по науке VinBigdata.

На самом деле, очень немногие компании решают создавать собственные Большие Языковые Модели с нуля. Например, GPT 3 от OpenAI имеет 175 миллиардов параметров и был обучен на 45 терабайтном наборе данных и стоил 4,6 миллиона долларов. Согласно расчетам, стоимость разработки GPT 4 может составить даже до 100 миллионов долларов. «С такими огромными цифрами очень сложно найти компанию, которая может позволить себе инвестировать в эту технологию», — сказал д-р Нгуен Ким Ань, директор по продуктам VinBigdata.

картинка 1.jpg

Чтобы вьетнамские предприятия получили доступ к технологии искусственного интеллекта нового поколения с оптимальными затратами и инфраструктурой, VinBigdata выбрала совершенно иное направление, а именно создание языковой модели всего с 1,6 миллиардами параметров, но с возможностями, эквивалентными большим языковым моделям с миллиардами параметров. «Результаты показывают, что с архитектурой, разработанной самой VinBigdata, вполне возможно оптимизировать и ускорить процесс обучения языковой модели, сократить затраты на инфраструктуру (включая затраты на обучение и использование), но при этом обеспечить качество модели», — добавил д-р Нгуен Ким Ань.

Решив проблему большого размера языковой модели, в процессе «замысла» ViGPT, после изучения иностранных моделей, команда VinBigdata также осознала еще одну проблему: «иллюзию», исходящую из внутренней природы статистических вероятностных моделей.

Соответственно, крупнейшие в мире языковые модели часто обучаются на английских источниках данных. Поэтому эта модель на самом деле не понимает и не реагирует правильно на контекст и культуру вьетнамцев. Это приводит к галлюцинации, которая заставляет крупную языковую модель «фабриковать» неправильные ответы.

картинка 3.jpg

Чтобы найти оптимальное решение в кратчайшие сроки, команда VinBigdata по обработке естественного языка (NLP) разделилась на небольшие группы, которые анализировали и обсуждали различные идеи, чтобы найти наиболее подходящее окончательное направление.

«В конце концов, мы решили разработать архитектуру, отличную от большинства современных крупных языковых моделей, и провести обучение на 600 ГБ точно настроенного набора вьетнамских данных, чтобы создать «интеллектуального виртуального помощника», способного понимать и давать ответы в соответствии с контекстом вьетнамского народа», — добавил доктор Нгуен Ким Ань.

Стремление к вьетнамской технологической экосистеме

Согласно результатам оценки по стандартам оценки уровня владения вьетнамским языком (VMLU), ViGPT набрал средний балл 42,24%, уступая только ChatGPT (48,54%). Этот результат позволяет ViGPT быстро искать информацию и отвечать на вопросы по конкретным и специфическим темам Вьетнама.

В дополнение к возможностям виртуального помощника, команда разработчиков хочет интегрировать ViGPT в знакомые, повседневные продукты, чтобы внести изменения в жизнь вьетнамцев. Это движущая сила, которая мотивирует команду VinBigdata на создание экосистемы языковых и голосовых продуктов, которые применяют ViGPT - экосистема "Vi" включает: ViChat, ViVoice, ViVi Virtual Assistant. Эти продукты могут использоваться во многих отраслях, от автомобильной промышленности, банковского дела - финансов, страхования до транспорта и многих других областей.

«Работая с технологиями, особенно с ИИ, мы не просто хотим покорять интересные, сложные системы, которые трудно увидеть. Мы хотим создавать осязаемые, высокоприменимые продукты, где ИИ является непосредственным агентом, который вносит изменения в жизнь», — утверждает директор по продуктам VinBigdata.

изображение 4.jpg

Таким образом, успешная разработка ViGPT — это всего лишь первый шаг на пути к тому, чтобы принести «чисто вьетнамские» технологии и данные на службу жизни миллионов вьетнамцев. Представитель VinBigdata сказал, что это подразделение нацелено на интеграцию ViGPT в платформу искусственного интеллекта VinBase 2.0 с мультикогнитивным подходом, чтобы предоставить превосходные решения для организаций и предприятий различных размеров и отраслей.

До ViGPT команда экспертов и инженеров в области технологий обработки языка и речи VinBigdata отличилась запуском ViVi — первого всеобъемлющего вьетнамского виртуального помощника (применяется и развертывается на электромобилях VinFast , приложениях Vinhomes Resident и платформе электронной коммерции Vinhomes Online), при этом полностью освоив самые передовые технологии в мире, такие как голосовая биометрия или клонирование голоса.

Все эти технологии разработаны на основе базы данных объемом 3500 терабайт, с упором на вьетнамские данные, собранные, проанализированные и уточненные VinBigdata. Конечная цель — привнести мировые технологии во вьетнамскую жизнь, используя вьетнамские системы данных и знаний.

ViGPT — это первая «вьетнамская версия ChatGPT» для конечных пользователей, созданная на основе вьетнамской большой языковой модели (LLM), разработанной VinBigdata. ViGPT обладает выдающимися функциями и разработан для наилучшего удовлетворения потребностей вьетнамцев, таких как создание контента, поиск информации и ответы на распространенные вопросы, типичные для Вьетнама. Зарегистрируйтесь и испытайте ViGPT на сайте: vigpt.vinbigdata.com

Тхань Ха