Viettel AI выигрывает двойную награду на конкурсе по обработке речи и языка

Конкурс по вьетнамскому языку и обработке речи (VLSP) является частью ежегодной Международной конференции по вьетнамскому языку и обработке речи, организованной клубом VLSP, отделением Вьетнамской ассоциации информационных технологий. VLSP 2023 организует 10 конкурсов по обработке речи и текста, объединяющих ведущих исследователей, экспертов и подразделения по разработке технологий.

Несмотря на то, что компания Viettel AI участвовала в конкурсе уже в четвертый раз и до этого побеждала трижды, инженеры Viettel все равно столкнулись со многими трудностями из-за изменений в структуре категорий конкурса.

В частности, по сравнению с прошлым годом категории «Распознавание речи» и «Распознавание эмоций» в этом году были объединены в одну категорию. Команды должны решить две задачи одновременно, чтобы гарантировать, что и текст, и эмоция предложения распознаны, рабочая нагрузка и сложность удвоились.

Используйте все данные, независимо от их качества.

Не только изменение структуры категорий, экзамен этого года также фокусируется на построении моделей с нуля с ограниченными условиями данных, включая необработанные, немаркированные и низкокачественные данные. Экзамен предоставляет 4 группы данных с различным качеством и формой. Есть данные, которые включают только немаркированный звук, данные, которые включают только звук и текст, данные, которые включают эмоции и звук, высокое качество, стандартные метки, и набор данных, который включает эмоции и звук, низкое качество. Каждый набор данных четко определен для обслуживания каждой цели и категории экзамена, с общим количеством часов более 300 на все наборы данных. Это довольно скромное число по сравнению со стандартными наборами данных для обучения распознаванию речи, которые обычно требуют до 1000-2000 часов или более.

У каждой команды было менее 2 месяцев на работу и отправку своей работы, но в реальности фактическое время, потраченное на исследование решений, было гораздо меньше из-за нехватки ресурсов.

«В этом году Viettel AI выделила много ресурсов вычислительной инфраструктуры на исследование новых технологий, а также на разработку продуктов, в то время как распознавание речи — это технология, требующая больших аппаратных ресурсов», — сказал г-н Данг Динь Сон, инженер по искусственному интеллекту, платформа виртуального помощника Viettel AI.

картинка 1.jpg — Группа по разработке искусственного интеллекта, блок платформы виртуального помощника, представляющая Viettel AI, участвующая в категории «Распознавание речи и распознавание эмоций речи» - VLSP 2023

Столкнувшись с условием низкого объема и качества данных, исследовательская группа сразу определила точку зрения «необходимости использовать все данные независимо от их качества». Для этого необходимо построить цикл обучения для обработки всех данных, а также только одну модель для решения множества различных задач вместо множества моделей.

Результаты освоения передовых технологий

В условиях нехватки данных и нехватки ресурсов исследовательская группа решила разработать простой, не слишком масштабный, но, что важно, отточенный до мельчайших деталей процесс обработки.

Инженеры Viettel AI тщательно изучили последние исследования ведущих конференций и журналов по всему миру, чтобы найти подход. В сочетании с методами обработки данных для обучения модели, которые оказались эффективными, исследовательская группа построила цикл обучения для обработки всех доступных данных. Цикл включает 3 этапа: построение предварительно обученной модели для описания особенностей голоса без меток, тонкая настройка предварительно обученной модели для двух задач: распознавание речи и распознавание эмоций, а также вывод.

«Опыт решения проблем с нехваткой данных во время разработки и развертывания предыдущих продуктов также внес значительный вклад в помощь команде в поиске метода принятия решений. Напротив, знания и результаты, полученные в ходе теста, также имеют потенциал для немедленного применения к продуктам Viettel AI, поэтому процесс работы во время прохождения теста прошел довольно гладко», — сказал г-н Буй Тиен Дат — инженер платформы виртуального помощника Viettel AI.

В результате Viettel AI не только занял первое место в категориях «Распознавание речи» и «Распознавание эмоций речи», но и показал впечатляющий результат 89,18% (следующие команды показали результаты 83,40% и 78,45% соответственно).

Г-н Сон сказал, что ключевым фактором является модель обработки речи специально для вьетнамского языка, которую Viettel AI разрабатывает уже давно.

«Вместо того, чтобы использовать модели и инструкции из доступных результатов исследований, Viettel AI решила построить и разработать собственную модель обработки вьетнамской речи. Эта модель постоянно обновляется, оптимизируется и становится все более эффективной», — сказал г-н Сон.

Не только останавливаясь на конкурентах, это решение Viettel AI станет предпосылкой для модернизации продуктов виртуальной коммутаторной станции, виртуального помощника Viettel, помогающего точнее определять эмоции клиентов в разговорах, тем самым давая обратную связь или выбирая соответствующие нюансы слов. Таким образом, разговоры между людьми и ИИ станут более естественными, улучшая пользовательский опыт. Также открыто множество новых приложений в обслуживании клиентов, таких как создание системы для автоматического определения жалоб клиентов и жалоб на коммутатор для своевременной обработки или использования информации.

картинка 2.jpg — Г-н Буй Тиен Дат — инженер платформы виртуального помощника Viettel AI представлял команду, представившую результаты исследований на конференции.

Представитель подразделения сообщил, что Viettel AI продолжит развивать технологии, постоянно модернизировать продукты для повышения точности, улучшения пользовательского опыта и эффективности продукции.

Куок Туан

Источник