Viettel AI gewinnt Doppelpreis bei Wettbewerb zur Sprach- und Sprachverarbeitung

[Anzeige_1]

Der Wettbewerb für vietnamesische Sprach- und Sprachverarbeitung (VLSP) ist Teil der jährlichen internationalen Konferenz zur vietnamesischen Sprach- und Sprachverarbeitung, die vom VLSP Club, einem Zweig der Vietnam Association for Information Technology, organisiert wird. VLSP 2023 organisiert zehn Wettbewerbe zur Sprach- und Textverarbeitung und bringt führende Forscher, Experten und Technologieentwicklungseinheiten zusammen.

Obwohl Viettel AI bereits zum vierten Mal an dem Wettbewerb teilnahm und bereits dreimal gewonnen hatte, stießen die Viettel-Ingenieure aufgrund von Änderungen in der Struktur der Wettbewerbskategorien immer noch auf viele Schwierigkeiten.

Konkret wurden die Kategorien Spracherkennung und Emotionserkennung im Vergleich zum Vorjahr zu einer Kategorie zusammengefasst. Die Teams müssen zwei Aufgaben gleichzeitig lösen, um sicherzustellen, dass sowohl der Text als auch die Emotion des Satzes erkannt werden. Arbeitsaufwand und Schwierigkeitsgrad haben sich also verdoppelt.

Nutzen Sie alle Daten, egal ob niedrige oder hohe Qualität

Die diesjährige Prüfung verändert nicht nur die Struktur der Kategorien, sondern konzentriert sich auch auf die Erstellung von Modellen von Grund auf mit eingeschränkten Datenbedingungen, darunter Rohdaten, unbeschriftete Daten und Daten geringer Qualität. Die Prüfung bietet vier Datengruppen mit unterschiedlicher Qualität und Form. Es gibt Daten, die nur unbeschriftetes Audio enthalten, Daten, die nur Audio und Text enthalten, Daten, die Emotionen und Audio enthalten, hohe Qualität, Standardbeschriftungen und einen Datensatz, der Emotionen und Audio enthält, geringe Qualität. Jeder Datensatz ist klar definiert, um dem jeweiligen Zweck und der Prüfungskategorie zu dienen, und für alle Datensätze werden insgesamt mehr als 300 Stunden benötigt. Dies ist eine recht bescheidene Zahl im Vergleich zu Standarddatensätzen für das Training der Spracherkennung, für die normalerweise 1.000–2.000 Stunden oder mehr benötigt werden.

Jedes Team hatte weniger als zwei Monate Zeit, um an seiner Arbeit zu arbeiten und sie einzureichen. Tatsächlich wurde jedoch aufgrund fehlender Ressourcen viel weniger Zeit für die Suche nach Lösungen aufgewendet.

„Viettel AI hat in diesem Jahr viele Ressourcen seiner Computerinfrastruktur für die Erforschung neuer Technologien und die Produktentwicklung bereitgestellt, obwohl Spracherkennung eine Technologie ist, die viele Hardwareressourcen erfordert“, sagte Herr Dang Dinh Son – Ingenieur für künstliche Intelligenz, Virtual Assistant Platform, Viettel AI.

Bild 1.jpg — Artificial Intelligence Engineering Group, Virtual Assistant Platform Block, vertritt Viettel AI und nimmt an der Kategorie Spracherkennung und Sprachemotionserkennung teil – VLSP 2023

Angesichts der geringen Datenmenge und -qualität gelangte das Forschungsteam sofort zu dem Schluss, dass alle Daten unabhängig von ihrer Qualität genutzt werden müssen. Dazu ist es notwendig, einen Trainingszyklus für die Verarbeitung aller Daten zu erstellen und ein einziges Modell anstelle mehrerer Modelle zur Lösung vieler verschiedener Probleme zu verwenden.

Die Ergebnisse bahnbrechender Technologiebeherrschung

Angesichts des Mangels an Daten und Ressourcen beschloss das Forschungsteam, einen einfachen, nicht massiven, aber – was wichtig ist – bis ins kleinste Detail verfeinerten Verarbeitungsprozess zu entwickeln.

Die Ingenieure von Viettel AI haben die neuesten Forschungsergebnisse führender Konferenzen und Fachzeitschriften weltweit sorgfältig analysiert, um einen Lösungsansatz zu finden. In Kombination mit bewährten Datenverarbeitungsmethoden zum Trainieren des Modells entwickelte das Forschungsteam einen Trainingszyklus zur Verarbeitung aller verfügbaren Daten. Dieser umfasst drei Schritte: den Aufbau eines vortrainierten Modells zur Beschreibung von Sprachmerkmalen ohne Labels, die Feinabstimmung des vortrainierten Modells für zwei Probleme: Sprach- und Emotionserkennung sowie Inferenz.

„Erfahrungen aus der Lösung von Problemen mit Datenmangel während der Entwicklung und Bereitstellung früherer Produkte trugen maßgeblich dazu bei, dass das Team eine Entscheidungsmethode fand. Die Erkenntnisse und Ergebnisse aus dem Test können zudem direkt auf Viettel AI-Produkte angewendet werden, sodass die Arbeit während des Tests reibungslos verlief“, sagte Bui Tien Dat, Virtual Assistant Platform Engineer bei Viettel AI.

Infolgedessen gewann Viettel AI nicht nur den ersten Preis in den Kategorien Spracherkennung und Sprachemotionserkennung, sondern erreichte auch eine beeindruckende Punktzahl von 89,18 % (die nächsten Teams erreichten 83,40 % bzw. 78,45 %).

Herr Son sagte, der Schlüsselfaktor liege im Sprachverarbeitungsmodell speziell für Vietnamesisch, das Viettel AI seit langem entwickelt.

„Anstatt Modelle und Anweisungen aus verfügbaren Forschungsergebnissen zu verwenden, hat sich Viettel AI dafür entschieden, ein eigenes Modell für die vietnamesische Sprachverarbeitung zu entwickeln. Dieses Modell wird ständig aktualisiert, optimiert und wird immer effektiver“, sagte Herr Son.

Diese Lösung von Viettel AI macht nicht nur der Konkurrenz den Garaus, sondern bildet auch die Grundlage für die Weiterentwicklung virtueller Telefonzentralen, des virtuellen Assistenten von Viettel. Dieser hilft dabei, die Emotionen von Kunden in Gesprächen präziser zu erkennen und so Feedback zu geben oder passende Wortnuancen zu wählen. Dadurch werden Gespräche zwischen Mensch und KI natürlicher und das Benutzererlebnis verbessert. Darüber hinaus eröffnen sich viele neue Anwendungsmöglichkeiten im Kundenservice, beispielsweise die Entwicklung eines Systems zur automatischen Erkennung von Kundenbeschwerden und Beschwerden an die Telefonzentrale, um diese zeitnah bearbeiten oder Informationen nutzen zu können.

Bild 2.jpg — Herr Bui Tien Dat – Virtual Assistant Platform Engineer, Viettel AI – vertrat das Team, um die Forschungsergebnisse auf der Konferenz vorzustellen.

Der Vertreter der Einheit sagte, dass Viettel AI weiterhin Technologien entwickeln und Produkte ständig verbessern werde, um die Genauigkeit zu erhöhen und das Benutzererlebnis sowie die Produkteffizienz zu verbessern.

Quoc Tuan

[Anzeige_2]
Quelle