Viettel AI získává dvojité ocenění v soutěži ve zpracování řeči a jazyka

Soutěž ve vietnamském jazyce a zpracování řeči (VLSP) je součástí každoroční Mezinárodní konference o vietnamském jazyce a zpracování řeči, kterou pořádá klub VLSP, pobočka Vietnamské asociace pro informační technologie. VLSP 2023 pořádá 10 soutěží ve zpracování řeči a textu, které sdružují přední výzkumníky, odborníky a jednotky technologického vývoje.

Přestože se společnost Viettel AI soutěže zúčastnila již počtvrté a předtím třikrát vyhrála, inženýři společnosti Viettel se stále potýkali s mnoha obtížemi kvůli změnám ve struktuře soutěžních kategorií.

Konkrétně se letos oproti loňskému roku kategorie Rozpoznávání řeči a Rozpoznávání emocí sloučily do jedné kategorie. Týmy musí řešit dva problémy současně, aby zajistily rozpoznání textu i emocí věty, pracovní zátěž i obtížnost se zdvojnásobily.

Využijte všechna data, ať už nízké nebo vysoké kvality

Letošní zkouška se nejen mění ve struktuře kategorií, ale zaměřuje se také na vytváření modelů od nuly s omezenými datovými podmínkami, včetně nezpracovaných, neoznačených a nekvalitních dat. Zkouška nabízí 4 skupiny dat s různou kvalitou a formou. Existují data, která zahrnují pouze neoznačený zvuk, data, která zahrnují pouze zvuk a text, data, která zahrnují emoce a zvuk, ve vysoké kvalitě, se standardními popisky, a datová sada, která zahrnuje emoce a zvuk, v nízké kvalitě. Každá datová sada je jasně definována tak, aby sloužila každému účelu a kategorii zkoušky, s celkovým počtem více než 300 hodin na všechny datové sady. To je poměrně skromné číslo ve srovnání se standardními datovými sadami pro trénování rozpoznávání řeči, které obvykle vyžadují až 1 000–2 000 hodin nebo více.

Každý tým měl na práci a odevzdání své práce méně než 2 měsíce, ale ve skutečnosti byl skutečný čas strávený hledáním řešení mnohem kratší kvůli nedostatku zdrojů.

„Společnost Viettel AI letos věnovala spoustu zdrojů výpočetní infrastruktury výzkumu nových technologií a také vývoji produktů, zatímco rozpoznávání řeči je technologie, která vyžaduje mnoho hardwarových prostředků,“ řekl pan Dang Dinh Son – inženýr umělé inteligence, platforma virtuálních asistentů ve společnosti Viettel AI.

obrázek 1.jpg — Skupina pro inženýrství umělé inteligence, blok platformy virtuálních asistentů, zastupující společnost Viettel AI v kategorii rozpoznávání řeči a rozpoznávání řečových emocí - VLSP 2023

Vzhledem k nízkému objemu a kvalitě dat si výzkumný tým okamžitě stanovil hledisko „nutnost využít všechna data bez ohledu na jejich nízkou či vysokou kvalitu“. K tomu je nutné vytvořit trénovací cyklus pro zpracování všech dat a zároveň použít pouze jeden model pro řešení mnoha různých problémů namísto mnoha modelů.

Výsledky průkopnického technologického mistrovství

Vzhledem k nedostatku dat i zdrojů se výzkumný tým rozhodl vytvořit jednoduchý, ne rozsáhlý, ale co je důležité, propracovaný proces zpracování až do nejmenších detailů.

Inženýři společnosti Viettel, kteří se zabývají umělou inteligencí, pečlivě prostudovali nejnovější výzkum z předních konferencí a časopisů po celém světě , aby našli vhodné řešení. V kombinaci s metodami zpracování dat pro trénování modelu, které se osvědčily, výzkumný tým vytvořil trénovací cyklus pro zpracování všech dostupných dat. Cyklus zahrnuje 3 kroky: vytvoření předtrénovaného modelu pro popis hlasových charakteristik bez popisků, jemné doladění předtrénovaného modelu pro dva problémy: rozpoznávání řeči a rozpoznávání emocí a inferenci.

„Zkušenosti s řešením problémů s nedostatkem dat během vývoje a nasazení předchozích produktů také významně přispěly k nalezení metody rozhodování týmu. Naopak, znalosti a výsledky získané z testu mají potenciál být okamžitě aplikovány i na produkty Viettel AI, takže proces práce během testu proběhl poměrně hladce,“ řekl pan Bui Tien Dat - inženýr platformy virtuálních asistentů ve společnosti Viettel AI.

Díky tomu Viettel AI nejenže získala první cenu v kategoriích Rozpoznávání řeči a Rozpoznávání řečových emocí, ale také dosáhla působivého skóre 89,18 % (další týmy měly 83,40 % a 78,45 %).

Pan Son uvedl, že klíčovým faktorem je model zpracování řeči, který společnost Viettel AI dlouhodobě vyvíjí speciálně pro vietnamštinu.

„Místo použití modelů a instrukcí z dostupných výsledků výzkumu se společnost Viettel AI rozhodla vytvořit a vyvinout vlastní model pro zpracování vietnamské řeči. Tento model je neustále aktualizován, optimalizován a stává se stále efektivnějším,“ řekl pan Son.

Toto řešení od Viettel AI se nezastaví jen u konkurence, ale bude také základem pro modernizaci produktů virtuálních ústředen, virtuálních asistentů Viettel, kteří pomohou přesněji identifikovat emoce zákazníků v konverzacích, a tím poskytovat zpětnou vazbu nebo volit vhodné nuance slov. Konverzace mezi lidmi a AI se tak stanou přirozenějšími, což zlepší uživatelský zážitek. Otevírá se také mnoho nových aplikací v oblasti péče o zákazníky, jako je budování systému pro automatickou identifikaci stížností zákazníků a stížností na ústřednu pro včasné vyřízení nebo využití informací.

obrázek 2.jpg — Tým, který na konferenci prezentoval výsledky výzkumu, zastupoval pan Bui Tien Dat - inženýr platformy virtuálního asistenta ze společnosti Viettel AI.

Zástupce jednotky uvedl, že Viettel AI bude i nadále vyvíjet technologie, neustále vylepšovat produkty s cílem zvýšit přesnost, zlepšit uživatelskou zkušenost a efektivitu produktů.

Quoc Tuan

Zdroj