El producto generó rápidamente revuelo en la comunidad científica y tecnológica vietnamita.

Elija el camino difícil para resolver los problemas vietnamitas

A finales de 2022, ChatGPT generó un gran impacto, iniciando una carrera por la conquista de la IA entre países y gigantes tecnológicos. En aquel entonces, la comunidad tecnológica vietnamita también estaba ansiosa por desarrollar productos vietnamitas para ser autosuficientes tecnológicamente, reduciendo así la dependencia de productos internacionales. Sin embargo, no todas las unidades tienen la capacidad y la determinación de materializar ese deseo como VinBigdata.

La IA generativa es un problema complejo. Grandes empresas como OpenAI o Google también tienen que invertir muchos recursos y tiempo en investigación para crear productos como los que vemos. Estos productos son muy buenos, pero los científicos aún no comprenden completamente su funcionamiento. Pocos pueden predecir cuándo presenta errores y cuáles serán. Desarrollar un producto similar a ChatGPT para los vietnamitas en menos de un año presenta muchos desafíos. Pero decidimos arriesgarnos porque, si no se crea una versión vietnamita de ChatGPT por vietnamitas, ¿quién la creará? —compartió el profesor Vu Ha Van, director científico de VinBigdata.

De hecho, muy pocas empresas optan por construir sus propios Modelos de Lenguaje de Gran Tamaño desde cero. Por ejemplo, el GPT 3 de OpenAI cuenta con 175 mil millones de parámetros, se entrenó con un conjunto de datos de 45 terabytes y tuvo un coste de 4,6 millones de dólares. Según cálculos, el coste de desarrollo del GPT 4 podría incluso ascender a 100 millones de dólares. «Con cifras tan elevadas, es muy difícil encontrar una empresa que pueda permitirse invertir en esta tecnología», declaró el Dr. Nguyen Kim Anh, director de producto de VinBigdata.

imagen 1.jpg

Para que las empresas vietnamitas accedan a la tecnología de IA de nueva generación, con costos e infraestructura óptimos, VinBigdata optó por una estrategia completamente diferente: crear un modelo de lenguaje con tan solo 1.600 millones de parámetros, pero con capacidades equivalentes a las de grandes modelos de lenguaje con miles de millones de parámetros. «Los resultados demuestran que, con la arquitectura desarrollada por VinBigdata, es totalmente posible optimizar y acelerar el proceso de entrenamiento del modelo de lenguaje, reducir los costos de infraestructura (incluidos los de entrenamiento y uso), y al mismo tiempo garantizar la calidad del modelo», añadió el Dr. Nguyen Kim Anh.

Después de resolver el problema del gran tamaño del modelo de lenguaje, durante el proceso de "concepción" de ViGPT, después de estudiar modelos extranjeros, el equipo de VinBigdata también se dio cuenta de otro desafío: la "ilusión", proveniente de la naturaleza inherente de los modelos de probabilidad estadística.

En consecuencia, los modelos lingüísticos más grandes del mundo suelen entrenarse con fuentes de datos en inglés. Por lo tanto, este modelo no comprende ni responde correctamente al contexto y la cultura de los vietnamitas. Esto genera una alucinación que hace que el modelo lingüístico genere respuestas incorrectas.

imagen 3.jpg

Para encontrar la solución óptima en el menor tiempo posible, el equipo de Procesamiento del Lenguaje Natural (PLN) de VinBigdata se dividió en pequeños grupos, analizando y discutiendo diferentes ideas para encontrar la dirección final más adecuada.

“Finalmente, decidimos desarrollar una arquitectura diferente a la mayoría de los modelos lingüísticos grandes actuales y realizar un entrenamiento en un conjunto de datos vietnamitas optimizado de 600 GB, para crear un “asistente virtual inteligente” capaz de comprender y dar respuestas según el contexto del pueblo vietnamita”, añadió el Dr. Nguyen Kim Anh.

Aspiración a un ecosistema tecnológico vietnamita

Según los resultados de la evaluación de los Estándares de Evaluación del Dominio del Idioma Vietnamita (VMLU), ViGPT obtuvo una puntuación promedio del 42,24 %, superada solo por ChatGPT (48,54 %). Este resultado permite a ViGPT buscar información rápidamente y responder preguntas sobre temas específicos de Vietnam.

Además de las capacidades del asistente virtual, el equipo de desarrollo busca integrar ViGPT en productos cotidianos para generar cambios en la vida de los vietnamitas. Esta es la motivación que impulsa al equipo de VinBigdata a construir un ecosistema de productos de lenguaje y voz que apliquen ViGPT. El ecosistema "Vi" incluye: ViChat, ViVoice y ViVi Virtual Assistant. Estos productos se pueden utilizar en diversos sectores, desde la automoción, la banca y las finanzas, los seguros hasta el transporte y muchos otros.

“Al trabajar con tecnología, especialmente con IA, no solo buscamos dominar sistemas interesantes y complejos que son difíciles de ver. Queremos crear productos tangibles y altamente aplicables, donde la IA sea el agente directo que genere cambios en la vida”, afirmó el Director de Producto de VinBigdata.

imagen 4.jpg

Por lo tanto, el exitoso desarrollo de ViGPT es solo el primer paso en el camino para que la tecnología y los datos puramente vietnamitas estén al servicio de la vida de millones de vietnamitas. Un representante de VinBigdata afirmó que esta unidad busca integrar ViGPT en la plataforma de inteligencia artificial multicognitiva VinBase 2.0 para brindar soluciones superiores a organizaciones y empresas de diversos tamaños e industrias.

Antes de ViGPT, el equipo de expertos e ingenieros en el campo de la tecnología de procesamiento del lenguaje y el habla VinBigdata dejó su huella con el lanzamiento de ViVi, el primer asistente virtual vietnamita integral (aplicado e implementado en los autos eléctricos VinFast , las aplicaciones Vinhomes Resident y la plataforma de comercio electrónico Vinhomes Online), al mismo tiempo, dominando por completo las tecnologías más avanzadas del mundo, como la biometría de voz o la clonación de voz.

Todas estas tecnologías se desarrollan a partir de una base de datos de 3500 terabytes, centrada principalmente en datos específicos de Vietnam, recopilados, analizados y refinados por VinBigdata. El objetivo final es acercar la tecnología mundial a la vida vietnamita, utilizando datos y sistemas de conocimiento vietnamitas.

ViGPT es la primera versión vietnamita de ChatGPT para usuarios finales, basada en el modelo de lenguaje extenso vietnamita (LLM) desarrollado por VinBigdata. ViGPT cuenta con características excepcionales y está diseñado para satisfacer las necesidades de los vietnamitas, como la creación de contenido, la búsqueda de información y la respuesta a preguntas comunes típicas de Vietnam. Regístrese y pruebe ViGPT en: vigpt.vinbigdata.com

Thanh Ha