Deux étudiants publient des recherches lors de la plus importante conférence mondiale sur l'IA

En utilisant des méthodes de formation contradictoires pour permettre à l'IA de générer de nouvelles données, les recherches de deux étudiants de l'Université de technologie de Ho Chi Minh-Ville ont été publiées à l'AAAI - la principale conférence mondiale sur l'IA.

Les recherches sur les modèles multilingues pour entraîner l'IA à créer des synonymes par Pham Khanh Trinh et Le Minh Khoi, 23 ans, ont été publiées dans les documents de la Conférence AAAI-24 sur l'intelligence artificielle, qui s'est tenue fin février à Vancouver, au Canada.

Le professeur associé Dr Quan Thanh Tho, vice-doyen de la Faculté d'informatique et d'ingénierie de l'Université de technologie de Hô-Chi-Minh-Ville, a qualifié ce résultat de louable. M. Tho a déclaré que l'AAAI est considérée par les chercheurs et les experts comme une organisation de premier ordre dans les conférences scientifiques en informatique et en intelligence artificielle, avec un taux d'acceptation des articles très faible, cette année à 23,75 %.

Minh Khoi et Khanh Trinh (au milieu) lors de leur soutenance de thèse de fin d'études, 2023. Photo : fournie par le personnage — Minh Khoi et Khanh Trinh (au milieu) lors de leur soutenance de thèse de fin d'études, 2023. Photo : *fournie par le personnage*

Passionnés par l'apprentissage profond et le traitement automatique du langage naturel, Trinh et Khoi ont choisi de se consacrer à la recherche sur les grands modèles linguistiques (MLL). Tous deux souhaitaient en comprendre les limites et les améliorer.

Khanh Trinh a expliqué que les GPT et les LLM de Chat doivent être entraînés sur une grande quantité de données textuelles pour générer des réponses précises et diversifiées pour les utilisateurs. Les deux garçons ont constaté qu'avec des langues moins populaires comme l'hindi, le kazakh ou l'indonésien, les GPT et les LLM de Chat donnent souvent des résultats inattendus, car ils n'ont pas beaucoup étudié ces langues ou ne disposent pas de suffisamment de données pour les apprendre.

« Pourquoi ne pas créer davantage de données textuelles à partir des « faibles ressources » de ces langues pour perfectionner l'IA ? », ont demandé les deux étudiants. De là est né le modèle LAMPAT (Low-rank Adaptation for Multilingual Paraphrasing using Adversarial Training), une interprétation multilingue utilisant la méthode d'apprentissage contradictoire étudiée par Trinh et Khoi.

LAMPAT est capable de générer un synonyme à partir d'une phrase d'entrée donnée, afin de générer davantage de données textuelles. L'explicateur « d'entraînement contradictoire » est une méthode relativement nouvelle pour l'entraînement de grands modèles linguistiques. Avec les méthodes d'entraînement traditionnelles, l'application génère une phrase de sortie à partir d'une phrase d'entrée. Mais avec l'entraînement contradictoire, l'application peut commenter et modifier la phrase de sortie, « adversarial », pour générer davantage de phrases.

La nature multilingue de LAMPAT réside dans le fait que ce modèle intègre 60 langues simultanément. À partir des données collectées, l'équipe continue d'entraîner LAMPAT à générer des synonymes. La quantité de données textuelles générées par LAMPAT continuera d'être utilisée pour entraîner les LLM afin que ces modèles puissent apprendre différentes manières d'exprimer l'information pour un même contenu, fournissant ainsi des réponses variées avec une probabilité plus élevée d'être correctes. Grâce à cette fonctionnalité, l'équipe estime que LAMPAT pourrait être intégré à des applications telles que ChatGPT afin de perfectionner encore ce modèle.

De plus, le manque de données pour les GPT ou les LLM oblige certaines entreprises à rechercher de nombreuses sources externes, telles que des livres, des journaux, des blogs, etc., sans se soucier des questions de droits d'auteur. Selon Khanh Trinh, la création de synonymes est également un moyen de limiter le plagiat et la violation des droits d'auteur.

Nam Sinh a donné un exemple d'applications comme Chat GPT, lorsqu'un utilisateur demande un résumé d'un texte existant A, l'application générera un texte de résumé B. Si la méthode de recherche du groupe est intégrée, lors de la réception du texte A, l'application générera plusieurs textes avec le même contenu A1, A2, A3 en fonction du mécanisme de génération de synonymes, à partir desquels elle résumera le texte et produira de nombreux résultats parmi lesquels l'utilisateur pourra choisir.

Au début de la recherche, l'équipe a rencontré des difficultés pour préparer des données d'évaluation pour 60 langues. Faute d'accès à un volume de données suffisant, elle a compilé un ensemble de données complet et diversifié de 13 langues afin d'évaluer objectivement le modèle, notamment : vietnamien, anglais, français, allemand, russe, japonais, chinois, espagnol, hongrois, portugais, suédois, finnois et tchèque. Cet ensemble de données est également fiable pour l'étape finale d'évaluation humaine.

Minh Khoi (à gauche) et Khanh Trinh (à droite) ont pris une photo commémorative avec le professeur Quan Thanh Tho le jour de la remise des diplômes, en novembre 2023. Photo : fournie par le personnage — Minh Khoi (à gauche) et Khanh Trinh (à droite) ont pris une photo commémorative avec le professeur Quan Thanh Tho le jour de la remise des diplômes, en novembre 2023. Photo : *fournie par le personnage*

Pour l'anglais, le vietnamien, l'allemand, le français et le japonais, l'équipe a extrait aléatoirement 200 paires de phrases (une paire comprenant la phrase de sortie et l'étiquette correcte) à des fins d'évaluation. Pour chacune de ces langues, l'équipe a demandé à cinq experts linguistiques de les noter indépendamment, selon trois critères : la préservation sémantique ; le choix des mots et leur similarité lexicale ; et la fluidité et la cohérence de la phrase de sortie. L'échelle a été calculée de 1 à 5. Par conséquent, la note moyenne d'évaluation des experts linguistiques pour ces cinq langues variait de 4,2 à 4,6/5 points.

L'exemple donne une paire de phrases vietnamiennes notées 4,4/5, dans lesquelles la phrase d'entrée est : « Il a expliqué le problème en détail », et la phrase de sortie est : « Il a expliqué le problème en détail ».

Mais il existe aussi des paires de phrases de mauvaise qualité et comportant des erreurs sémantiques, comme la paire de phrases « Nous mangeons pendant que la soupe est chaude - Nous mangeons la soupe pendant que nous sommes chauds », qui ne marque que 2/5 points.

Khanh Trinh a déclaré avoir consacré huit mois à la recherche et à la réalisation de ce projet. C'est également le sujet de leur mémoire de fin d'études. Ce mémoire a été classé premier au Computer Science Council 2 avec une note de 9,72/10.

Selon M. Quan Thanh Tho, bien que LAMPAT ait démontré sa capacité à générer des phrases synonymes de type humain dans plusieurs langues, il doit encore être amélioré pour gérer les idiomes, les chansons folkloriques et les proverbes dans différentes langues.

De plus, l'ensemble de données d'évaluation de l'équipe ne comprend que 13 langues, ce qui laisse de côté de nombreuses langues, notamment les langues minoritaires. L'équipe doit donc mener des recherches pour améliorer et étendre les capacités des modèles d'interprétation multilingues actuels. Ainsi, nous pourrons supprimer la barrière linguistique entre les pays et les ethnies.

Fin 2023, Trinh et Khoi ont obtenu leur diplôme en informatique avec mention et distinction, avec une moyenne générale de 3,7 et 3,9/4 respectivement. Tous deux prévoient d'étudier à l'étranger pour un master et de poursuivre des recherches en intelligence artificielle et en apprentissage automatique.

« Nous continuons à rechercher ce sujet dans le but d'appliquer davantage LAMPAT aux projets scientifiques à venir, en créant un produit multilingue fiable pour les utilisateurs », a partagé Trinh.

Le Nguyen

Lien source