Dr. Dao Duc Minh: «Dominar los datos vietnamitas es el primer paso para desarrollar y dominar la tecnología vietnamita»
Báo Thanh niên•27/05/2024
Tras trabajar para una importante organización de inteligencia artificial en EE. UU., ¿por qué decidió regresar a Vietnam para unirse a VinBigdata? Mientras trabajaba en EE. UU., aunque participé en numerosos proyectos gubernamentales de gran envergadura, los resultados que obtenía a menudo eran solo unos pocos pasos en un gran proceso de procesamiento. Muchas veces, debido a los estrictos procedimientos de confidencialidad de los proyectos, ni siquiera sabía cómo se utilizaban las soluciones que había desarrollado. En 2017, regresé a Vietnam cuando este se encontraba en plena fase de desarrollo y existían numerosos problemas relacionados con el big data y la inteligencia artificial que debían resolverse. Acepté la invitación del profesor Vu Ha Van para, juntos, alcanzar el objetivo de desarrollar soluciones tecnológicas vietnamitas que sirvieran a la vida de los vietnamitas. Considero que mi regreso a Vietnam es mucho más significativo porque podré trabajar en problemas de mayor impacto.
El Dr. Dao Duc Minh en un taller
Centro Nacional de Convenciones
En la estrategia de desarrollo de la inteligencia artificial, ¿cuál es el papel y la influencia del big data, señor? Los datos desempeñan un papel fundamental en el entrenamiento de la inteligencia artificial. Para entrenar un modelo de inteligencia artificial de alta calidad, solemos empezar por entrenar una gran base de datos. Por lo tanto, para lograr una inteligencia artificial de calidad, primero necesitamos datos de calidad. Estos datos deben cumplir con los estándares de cantidad, escala, calidad, diversidad y universalidad. El proceso de recopilar y procesar miles de horas de datos, desde la fase de limpieza de datos brutos hasta la creación de datos de la más alta calidad para alimentar el modelo de inteligencia artificial, es muy costoso y complejo. Por el contrario, para analizar el big data, necesitamos utilizar la inteligencia artificial para garantizar la capacidad de procesar datos con precisión a gran escala, generando así resultados más decisivos o predictivos. Por ejemplo, durante el desarrollo de un asistente virtual para vietnamitas (ViVi), tuvimos que recopilar y procesar decenas de miles de horas de datos de audio de alta calidad, provenientes de cientos de miles de voces de diferentes regiones, edades y géneros, con contenido que abarca cientos de campos... O, más recientemente, el lanzamiento de ViGPT: «La primera versión vietnamita de ChatGPT para usuarios finales», desarrollada a partir de un modelo de lenguaje Big Language, propiedad exclusiva de VinBigdata. Este modelo se entrenó con 600 GB de datos vietnamitas refinados de diversos campos. Gracias a nuestro conocimiento de los datos y el idioma vietnamitas, encontramos un nuevo enfoque para acortar el tiempo de lanzamiento de ViGPT a tan solo 9 meses tras el lanzamiento de ChatGPT. Esta es la resonancia entre el big data y la inteligencia artificial.
¿Cuál es su opinión sobre vincular la investigación con el valor práctico para servir a la comunidad? Creo que la investigación tecnológica solo es verdaderamente exitosa cuando realmente se integra en la vida, resuelve problemas sociales y mejora la vida de las personas. Para crear productos comerciales prácticos y resolver problemas empresariales y sociales, debemos prestar atención constante y preguntarnos: ¿qué valor aportarán los datos a la vida? Hasta ahora, hemos investigado diversos productos y soluciones en diversas industrias y campos, como ViGPT, VinDr (que ofrece soluciones de IA para el diagnóstico por imágenes médicas ), VinBase (una plataforma para inteligencia artificial) o Vizone (un conjunto de soluciones inteligentes de análisis de imágenes).
Con personal clave de VinBigdata en un evento de Vingroup Corporation
Centro Nacional de Convenciones
La cuarta revolución industrial se está desarrollando con fuerza a escala global. ¿Qué ventajas cree que tiene Vietnam? En comparación con revoluciones anteriores, creo que Vietnam actualmente cuenta con muchas ventajas para destacar en esta revolución industrial 4.0, lo que contribuirá a mejorar su posición en el panorama mundial . Las dos claves para lograr este objetivo son los datos y las personas. Vietnam tiene actualmente cerca de 100 millones de habitantes, de los cuales una gran proporción son jóvenes que utilizan teléfonos y ordenadores personales. Además, contamos con prestigiosos expertos en inteligencia artificial y personal joven y altamente cualificado en tecnologías de la información, además de una sólida base en matemáticas. ¿Y cuáles son las limitaciones? La primera que se observa es que, a pesar de tener una gran población, aún tenemos dificultades para gestionar los datos, en concreto, para estandarizarlos y sincronizarlos en instalaciones, unidades de negocio y administraciones. Además, también nos enfrentamos a otras limitaciones, como la limitación de los recursos de inversión, especialmente en infraestructura informática de alto rendimiento.
En su opinión, ¿qué importancia tiene dominar los datos vietnamitas en la creación y el dominio de la tecnología para mejorar la vida de los vietnamitas? Actualmente, existen numerosos productos líderes de inteligencia artificial a nivel mundial, generalmente aplicaciones de IA basadas en grandes modelos lingüísticos, como ChatGPT de OpenAI o Bard de Google. Sin embargo, el vietnamita no es el idioma principal para el desarrollo de estos productos. Por lo tanto, la calidad del contenido específico en vietnamita que se devuelve a los usuarios se ve afectada en mayor o menor medida y presenta una alta probabilidad de errores, y aún más peligrosos, errores en los conocimientos básicos. Como vietnamitas, tenemos la ventaja de acceder a nuestras propias fuentes de datos. Solo nosotros tenemos la capacidad de comprender las características de los datos vietnamitas, así como las necesidades y características de los vietnamitas. Por lo tanto, dominar los datos vietnamitas es fundamental para dominar las tecnologías clave, que también son las tecnologías que beneficiarán a los vietnamitas.
Capacitación interna para miembros de VinBigdata
Centro Nacional de Convenciones
¿Cómo acceder a fuentes de datos específicas, especialmente cuando la mayoría de los vietnamitas utilizan redes sociales desde el extranjero? De hecho, la mayor fuente de datos humanos hoy en día (no solo de vietnamitas) se encuentra en internet y las redes sociales. Sin embargo, aún podemos acceder y recopilar datos de diferentes fuentes, basándonos en la comprensión de las características de los datos vietnamitas, según las características definidas por cada proyecto. Por ejemplo, los modelos GPT de OpenAI tienen cientos, incluso billones de parámetros, se entrenan con enormes cantidades de datos y cuestan miles de millones de dólares. En comparación con ellos, hemos optado por una dirección completamente diferente, basándonos en nuestra investigación, capacidades y recursos: es decir, crear un modelo de idioma vietnamita con una arquitectura de tan solo unos pocos miles de millones de parámetros, entrenado con un conjunto de 600 GB de datos vietnamitas que recopilamos y refinamos nosotros mismos, pero con la misma capacidad de procesamiento del idioma vietnamita. Los resultados muestran que nuestra arquitectura de desarrollo propio puede autooptimizarse, acortar el tiempo de entrenamiento del modelo lingüístico, reducir los costos y, al mismo tiempo, garantizar la calidad del modelo. ¿Cuáles son los desafíos que usted y su equipo han encontrado en el proceso de investigación y desarrollo de productos de inteligencia artificial? El primer desafío es, sin duda, el tiempo. La ola de tecnología de inteligencia artificial avanza rápidamente y se encuentra en pleno auge. A nivel mundial, las empresas tecnológicas líderes han lanzado rápidamente productos altamente completos que se actualizan y mejoran constantemente. Si actuamos con lentitud y no lanzamos productos a tiempo, sin duda nos quedaremos atrás. Por otro lado, si queremos crear productos que puedan aplicarse y resolver problemas sociales prácticos, también debemos considerar la búsqueda y el desarrollo de sus características únicas, especiales y sobresalientes.
Presentación en el Día de la Inteligencia Artificial de Vietnam (AI4VN 2023)
Centro Nacional de Convenciones
De hecho, muchas personas y organizaciones en Vietnam y en todo el mundo han sufrido grandes pérdidas por filtraciones de datos. ¿Cómo ve el problema de la seguridad de los datos? Se puede decir que cualquier aplicación actual proviene de los datos. Al trabajar con datos, por un lado, debemos asegurar el objetivo de aplicarlos para crear la mejor tecnología para la vida, y por otro, debemos garantizar la seguridad de los datos para las personas y las organizaciones. El factor humano es un eslabón fundamental en el proceso de garantizar la seguridad de los datos. Esto incluye a desarrolladores, usuarios de productos y usuarios finales. Para los desarrolladores, la concienciación sobre la seguridad de los datos debe estar presente desde el inicio de la recopilación y el procesamiento de datos. A menudo, cuando no ocurre ningún problema, desconocemos la importancia de la seguridad de los datos. Pero si ocurre una filtración de datos, el daño puede ser enorme. Las filtraciones de datos pueden ocurrir debido a problemas técnicos o ataques intencionales de robo de datos. Cuando se filtran datos, las personas u organizaciones pueden ver su información utilizada con fines ilegales por delincuentes, mientras que las empresas pueden sufrir pérdidas financieras para solucionar los problemas relacionados, e incluso dañar su marca.
El Dr. Dao Duc Minh y el equipo de VinBigdata en un evento
Centro Nacional de Convenciones
Tras aspirar a dominar la tecnología para servir a los vietnamitas, ¿hay pasos para expandirse al mundo? Cualquier organización o empresa que desee llevar sus productos al mercado internacional debe cumplir con los estándares internacionales. VinBigdata cuenta con fortalezas en soluciones y tecnología, por lo que establecer una visión para conquistar el mundo es natural. Por supuesto, para implementar diversos productos y aplicaciones, es necesario contar con la colaboración de unidades internacionales con años de experiencia y conocimiento de usuarios de todo el mundo. ¡Gracias!
Kommentar (0)