Le concours de traitement de la parole et de la langue vietnamienne (VLSP) s'inscrit dans le cadre de la Conférence internationale annuelle sur le traitement de la parole et de la langue vietnamienne, organisée par le Club VLSP, une branche de l'Association vietnamienne des technologies de l'information. VLSP 2023 organise dix concours sur le traitement de la parole et du texte, réunissant des chercheurs, des experts et des unités de développement technologique de premier plan.
Bien que ce soit la quatrième fois que Viettel AI participait au concours et qu'il ait déjà gagné trois fois auparavant, les ingénieurs de Viettel ont encore rencontré de nombreuses difficultés en raison des changements dans la structure des catégories du concours.
Plus précisément, par rapport à l'année dernière, les catégories Reconnaissance vocale et Reconnaissance des émotions ont été fusionnées cette année. Les équipes doivent résoudre deux problèmes simultanément pour garantir la reconnaissance du texte et de l'émotion de la phrase ; la charge de travail et la difficulté ont doublé.
Exploitez toutes les données, qu'elles soient de faible ou de haute qualité
Outre la modification de la structure des catégories, l'examen de cette année se concentre également sur la création de modèles ex nihilo avec des conditions de données limitées, notamment des données brutes, non étiquetées et de faible qualité. L'examen propose quatre groupes de données de qualité et de forme différentes : des données audio non étiquetées uniquement, des données audio et texte uniquement, des données émotionnelles et audio de haute qualité avec des étiquettes standard, et un ensemble de données émotionnelles et audio de faible qualité. Chaque ensemble de données est clairement défini pour répondre à chaque objectif et catégorie d'examen, avec un total de plus de 300 heures consacrées à l'ensemble des ensembles de données. C'est un nombre relativement modeste comparé aux ensembles de données standard pour l'entraînement à la reconnaissance vocale, qui nécessitent généralement entre 1 000 et 2 000 heures, voire plus.
Chaque équipe avait moins de 2 mois pour travailler et soumettre son travail, mais en réalité, le temps réellement consacré à la recherche de solutions était bien moindre en raison du manque de ressources.
« Cette année, Viettel AI a consacré beaucoup de ressources d'infrastructure informatique à la recherche de nouvelles technologies ainsi qu'au développement de produits, tandis que la reconnaissance vocale est une technologie qui nécessite beaucoup de ressources matérielles », a déclaré M. Dang Dinh Son - Ingénieur en intelligence artificielle, Plateforme d'assistant virtuel, Viettel AI.
Face à la faiblesse du volume et de la qualité des données, l'équipe de recherche a immédiatement adopté la position selon laquelle « toutes les données, quelle que soit leur qualité, doivent être exploitées ». Pour ce faire, il est nécessaire de mettre en place un cycle d'apprentissage permettant de traiter toutes les données et d'utiliser un seul modèle pour résoudre de nombreux problèmes différents.
Les résultats d'une maîtrise technologique pionnière
Dans un contexte de manque de données et de manque de ressources, l’équipe de recherche a décidé de construire un processus de traitement simple, pas massif, mais surtout raffiné jusqu’au moindre détail.
Les ingénieurs de Viettel AI ont soigneusement étudié les dernières recherches issues de conférences et de revues internationales de premier plan afin de trouver une approche. En combinant des méthodes de traitement de données éprouvées pour entraîner le modèle, l'équipe de recherche a élaboré un cycle d'apprentissage permettant de traiter toutes les données disponibles. Ce cycle comprend trois étapes : la construction d'un modèle pré-entraîné pour décrire les caractéristiques vocales sans étiquettes, l'affinement du modèle pré-entraîné pour deux problèmes : la reconnaissance vocale et la reconnaissance des émotions, et l'inférence.
« L'expérience acquise lors de la résolution de problèmes liés au manque de données lors du développement et du déploiement de produits précédents a également largement contribué à aider l'équipe à trouver une méthode de prise de décision. Au contraire, les connaissances et les résultats obtenus lors du test sont immédiatement applicables aux produits Viettel AI. Le processus de travail pendant le test s'est donc déroulé sans problème », a déclaré M. Bui Tien Dat, ingénieur plateforme assistant virtuel chez Viettel AI.
En conséquence, Viettel AI a non seulement remporté le premier prix dans les catégories Reconnaissance vocale et Reconnaissance des émotions vocales, mais a également obtenu un score impressionnant de 89,18 % (les équipes suivantes étaient respectivement de 83,40 % et 78,45 %).
M. Son a déclaré que le facteur clé réside dans le modèle de traitement de la parole spécifiquement pour le vietnamien que Viettel AI a développé depuis longtemps.
« Au lieu d'utiliser des modèles et des instructions issus des résultats de recherche disponibles, Viettel AI a choisi de construire et de développer son propre modèle de traitement de la parole en vietnamien. Ce modèle est constamment mis à jour, optimisé et gagne en efficacité », a déclaré M. Son.
Cette solution d'IA de Viettel ne se contente pas de concurrencer la concurrence : elle permettra d'améliorer les solutions de standard virtuel et l'assistant virtuel de Viettel, en permettant d'identifier plus précisément les émotions des clients lors des conversations, de leur fournir un feedback ou de choisir les nuances de mots appropriées. Ainsi, les conversations entre humains et IA deviendront plus naturelles, améliorant ainsi l'expérience utilisateur. De nombreuses nouvelles applications pour le service client sont également envisageables, comme la création d'un système permettant d'identifier automatiquement les réclamations des clients et celles adressées au standard pour un traitement rapide ou l'exploitation des informations.
Le représentant de l'unité a déclaré que Viettel AI continuera à développer la technologie, à mettre constamment à niveau les produits pour augmenter la précision, à améliorer l'expérience utilisateur et l'efficacité des produits.
Quoc Tuan
Source
Comment (0)