Das Forschungsprojekt zur Steigerung der Genauigkeit von Echtzeit-Spracherkennungsmodellen (Streaming Automatic Speech Recognition) von Le Duy Khanh – „GenZ“-Ingenieur von Zalo AI – wird erstmals auf der International Scientific Conference vorgestellt, die im September 2024 in Griechenland stattfindet.
Mit dem Thema „ Improving Streaming Speech Recognition With Time-Shifted Contextual Attention And Dynamic Right Context Masking “ erreichte das Forschungspapier des im Jahr 2000 geborenen Zalo-KI - Ingenieurs eine nahezu perfekte Punktzahl von 11/12 Punkten und bestand damit die strenge Begutachtungsrunde mit mehr als 2.000 teilnehmenden Arbeiten, um sie auf der Interspeech- Konferenz in Form einer mündlichen Sitzung vorzustellen.
„ Ich bin sehr stolz, dass mein erster wissenschaftlicher Artikel auf einer renommierten wissenschaftlichen Konferenz Anerkennung fand und ich die Gelegenheit habe, den großen Technologieunternehmen, Experten und der internationalen Gemeinschaft die Forschungserfolge Vietnams vorzustellen “, teilte Le Duy Khanh mit.
Unter der Leitung von Dr. Chau Thanh Duc – Leiter der Forschungs- und Entwicklungsabteilung bei Zalo AI und Dozent an der University of Science (Ho Chi Minh City National University) – soll dieses Forschungsprojekt einen wichtigen Beitrag zur Verbesserung von Spracherkennungsmodellen leisten und die Genauigkeit von Sprachdiktaten und Spracherkennung in der Zalo-Anwendung verbessern.
„ Die Synthese der praxisorientierten Forschung von Zalo AI in wissenschaftlichen Arbeiten und deren Präsentation auf renommierten internationalen Konferenzen ist von großer Bedeutung. Sie zeigt nicht nur die Kompetenz vietnamesischer Ingenieure, sondern auch den Wunsch, Erfahrungen auszutauschen und zur Entwicklung der globalen KI-Community beizutragen“, sagte Dr. Chau Thanh Duc.
Zalo hat diese Forschungsergebnisse bereits Ende 2023 in seine Messaging-App integriert und dadurch die Genauigkeit der Funktion „Sprachnachrichten verfassen“ deutlich verbessert. Diese Funktion ermöglicht es Nutzern, Nachrichten per Sprache zu verfassen, anstatt sie einzutippen. Das spart Zeit und ist in vielen Anwendungssituationen komfortabler. Gleichzeitig liegt die Genauigkeit dieser Funktion in der Praxis bei 95 %; der Anteil der notwendigen Textbearbeitungen nach dem Verfassen per Sprache sank von 6,4 % auf nur noch 4,8 %.
Laut Zalo-Statistiken hat die Funktion, obwohl sie sich noch in der Testphase befindet, bereits fast 4,5 Millionen Nachrichten pro Tag generiert und etwa 3,2 Millionen monatliche Nutzer angezogen (Daten aktualisiert auf Juni 2024).
Seit Beginn seiner Pionierarbeit in der KI-Forschung im Jahr 2017 setzt Zalo konsequent auf die Stärkung der jüngeren Generation. Aktuell gehören bis zu 31 % der Zalo-Mitarbeiter der Generation Z an. 2021 wurden auf der Asia- Pacific International Conference on Artificial Intelligence (PRICAI 2021) zwei weitere Forschungsthemen des Zalo-KI-Engineering-Teams im Bereich Sprachverarbeitungstechnologie ausgezeichnet. Bemerkenswert ist, dass die Autoren dieser beiden Themen allesamt junge Forscher unter 30 Jahren sind.
Interspeech ist eine langjährige, umfassende und renommierte internationale Konferenz zur Sprachverarbeitung, die von der International Speech Communication Association organisiert wird. Dieses Jahr findet die Konferenz mit dem Thema „Speech and beyond “ vom 1. bis 5. September 2024 auf der griechischen Insel Kos statt.
Kommentar (0)