Pho GPT signifie Pho - Generative Pre-trained Transformer, c'est un grand projet de modèle de langage dédié au vietnamien, mis en œuvre par l'équipe d'ingénierie VinAI - membre de Vingroup Corporation.
« Rattraper » la technologie mondiale
Pho GPT utilise du code open source plutôt que des logiciels propriétaires comme ChatGPT d'OpenAI. Cela signifie que le code source de Pho GPT est public et disponible, et que les utilisateurs peuvent contribuer à son développement via des applications personnalisées.
Selon VinAI, Pho GPT compte 7,5 milliards de paramètres, construits sur la plateforme de décodage Transformer. Ce modèle est entraîné de A à Z, grâce aux techniques les plus avancées, telles que le mécanisme Flash Attention et l'extrapolation de la longueur du contexte AliBi.
Ces techniques permettent non seulement à Pho GPT de mieux comprendre le contexte, mais aussi d'améliorer la capacité de l'application à dialoguer et à interagir naturellement pendant son utilisation. Cela fait du modèle un outil polyvalent et multitâche, capable de répondre aux divers besoins linguistiques des utilisateurs.
M. Bui Hai Hung, directeur général de VinAI. |
Expliquant l'importance de la création de Pho GPT, M. Bui Hai Hung, directeur général de VinAI, a déclaré que l'objectif du projet était de développer des modèles similaires à ChatGPT pour la langue et la culture vietnamiennes. Pho GPT est capable de comprendre et d'écrire le style vietnamien d'une manière supérieure aux technologies linguistiques des générations précédentes. Le modèle est également entraîné à partir de zéro avec un ensemble de données vietnamiennes, sans dépendre d'autres modèles internationaux, garantissant ainsi la maîtrise d'une technologie de base avancée pour le Vietnam.
Il convient de noter que, alors que le monde entier s'intéressait à la naissance de Chat GPT, un an plus tard, Pho GPT faisait son apparition au Vietnam. Selon M. Bui Hai Hung, VinAI est le pionnier en Asie du Sud-Est du lancement d'un modèle linguistique à grande échelle en code source ouvert. Quelques semaines plus tard, un produit similaire était lancé à Singapour.
Améliorer l'IA vietnamienne
Les résultats de comparaison de la version Pho GPT-7B5-Instruct avec ChatGPT à source fermée (GPT-3.5-turbo) et d'autres modèles open source montrent que Pho GPT se classe deuxième, seulement après ChatGPT dans la plupart des catégories d'évaluation.
Pho GPT présente de nombreuses différences par rapport aux autres modèles linguistiques, notamment ChatGPT. Il est conçu pour comprendre et écrire naturellement le vietnamien, en reflétant le contexte, la grammaire, le vocabulaire et les expressions des Vietnamiens. Il permet d'interagir avec les utilisateurs sur des sujets liés à la culture, l'histoire, la géographie, la société, le divertissement, le sport , etc.
De plus, Pho GPT est open source et flexible. Les utilisateurs peuvent développer des applications personnalisées et uniques, notamment celles exigeant une sécurité élevée, sans dépendre de logiciels propriétaires.
Parallèlement, Pho GPT privilégie les performances élevées et la réduction des coûts grâce à une formation utilisant les dernières techniques d'optimisation, contribuant ainsi à réduire la taille et à accélérer l'application. Pho GPT peut également fonctionner sur une plateforme informatique plus compacte, ce qui contribue à réduire les coûts et à économiser les ressources.
Formé avec un entrepôt de données vietnamien allant jusqu'à 41 Go, dont 1 Go de texte Wikipédia et une variante de 40 Go qui a supprimé les doublons de l'ensemble de données d'actualités, formé à l'aide de la bibliothèque llm-foundry de Mosaicml llm, Pho GPT peut générer des fragments de texte selon les demandes des utilisateurs, tels que des articles, des poèmes, des chansons, des essais, des discours, des introductions... Pho GPT peut également créer du contenu créatif et humoristique, comme des nouvelles, des commentaires, des proverbes, des messages, des tweets, des mèmes... En même temps, il dialogue également avec les utilisateurs sur différents sujets tels que l'actualité, l'éducation, la santé, les voyages, la cuisine, le sport, le divertissement... De plus, Pho GPT peut également répondre aux questions des utilisateurs, fournir des informations, des conseils, du soutien, répondre aux questions...
De plus, Pho GPT peut traduire des textes ou types de textes de nature différente tels que des documents officiels, commerciaux, académiques, littéraires... du vietnamien vers d'autres langues et vice versa.
Une autre caractéristique remarquable est que Pho GPT analyse et traite des passages de texte, tels que le résumé, la classification, l'étiquetage, l'extraction d'informations, la détection des émotions, la détection des erreurs, l'amélioration du style d'écriture, etc.
À l'avenir, l'équipe de développement de Pho GPT a déclaré qu'elle continuerait à améliorer le modèle et à étendre le projet à d'autres langues, en particulier dans la région de l'Asie du Sud-Est.
« La naissance de Pho GPT marque la première opportunité pour le Vietnam de rattraper son retard mondial dans ce domaine technologique de pointe et de disposer d'un vaste modèle linguistique, avec un code open source spécialement conçu pour les Vietnamiens, optimisé pour la langue vietnamienne et indépendant du reste du monde. C'est la fierté de Vin AI en particulier et des Vietnamiens en général », a ajouté un représentant de VinAI.
Commentant le potentiel et les opportunités de développement de Pho GPT dans les années à venir, M. Tran Duy Dong, vice-ministre de la Planification et de l'Investissement, a souligné : « L'IA est l'un des domaines dans lesquels le Vietnam a le plus grand potentiel de développement et de rattrapage rapide au niveau mondial. Le ministère soutiendra et accompagnera toujours la communauté de l'IA en particulier, et la communauté scientifique et technologique en général, afin de développer un écosystème d'innovation complet et dynamique, contribuant ainsi au développement global du pays. »
Source
Comment (0)