Конкурс по вьетнамскому языку и обработке речи (VLSP) является частью ежегодной Международной конференции по вьетнамскому языку и обработке речи, организованной клубом VLSP, отделением Вьетнамской ассоциации информационных технологий. VLSP 2023 организует 10 конкурсов по обработке речи и текста, объединяющих ведущих исследователей, экспертов и подразделения по разработке технологий.
Несмотря на то, что компания Viettel AI участвовала в конкурсе уже в четвертый раз и до этого побеждала трижды, инженеры Viettel все равно столкнулись со многими трудностями из-за изменений в структуре категорий конкурса.
В частности, по сравнению с прошлым годом категории «Распознавание речи» и «Распознавание эмоций» в этом году были объединены в одну категорию. Команды должны решить две задачи одновременно, чтобы гарантировать, что и текст, и эмоция предложения распознаны, рабочая нагрузка и сложность удвоились.
Используйте все данные, независимо от их качества.
Не только изменение структуры категорий, экзамен этого года также фокусируется на построении моделей с нуля с ограниченными условиями данных, включая необработанные, немаркированные и низкокачественные данные. Экзамен предоставляет 4 группы данных с различным качеством и формой. Есть данные, которые включают только немаркированный звук, данные, которые включают только звук и текст, данные, которые включают эмоции и звук, высокое качество, стандартные метки, и набор данных, который включает эмоции и звук, низкое качество. Каждый набор данных четко определен для обслуживания каждой цели и категории экзамена, с общим количеством часов более 300 на все наборы данных. Это довольно скромное число по сравнению со стандартными наборами данных для обучения распознаванию речи, которые обычно требуют до 1000-2000 часов или более.
У каждой команды было менее 2 месяцев на работу и отправку своей работы, но в реальности фактическое время, потраченное на исследование решений, было гораздо меньше из-за нехватки ресурсов.
«В этом году Viettel AI выделила много ресурсов вычислительной инфраструктуры на исследование новых технологий, а также на разработку продуктов, в то время как распознавание речи — это технология, требующая больших аппаратных ресурсов», — сказал г-н Данг Динь Сон, инженер по искусственному интеллекту, платформа виртуального помощника Viettel AI.
Столкнувшись с условием низкого объема и качества данных, исследовательская группа сразу определила точку зрения «необходимости использовать все данные независимо от их качества». Для этого необходимо построить цикл обучения для обработки всех данных, а также только одну модель для решения множества различных задач вместо множества моделей.
Результаты освоения передовых технологий
В условиях нехватки данных и нехватки ресурсов исследовательская группа решила разработать простой, не слишком масштабный, но, что важно, отточенный до мельчайших деталей процесс обработки.
Инженеры Viettel AI тщательно изучили последние исследования ведущих конференций и журналов по всему миру, чтобы найти подход. В сочетании с методами обработки данных для обучения модели, которые оказались эффективными, исследовательская группа построила цикл обучения для обработки всех доступных данных. Цикл включает 3 этапа: построение предварительно обученной модели для описания особенностей голоса без меток, тонкая настройка предварительно обученной модели для двух задач: распознавание речи и распознавание эмоций, а также вывод.
«Опыт решения проблем с нехваткой данных во время разработки и развертывания предыдущих продуктов также внес значительный вклад в помощь команде в поиске метода принятия решений. Напротив, знания и результаты, полученные в ходе теста, также имеют потенциал для немедленного применения к продуктам Viettel AI, поэтому процесс работы во время прохождения теста прошел довольно гладко», — сказал г-н Буй Тиен Дат — инженер платформы виртуального помощника Viettel AI.
В результате Viettel AI не только занял первое место в категориях «Распознавание речи» и «Распознавание эмоций речи», но и показал впечатляющий результат 89,18% (следующие команды показали результаты 83,40% и 78,45% соответственно).
Г-н Сон сказал, что ключевым фактором является модель обработки речи специально для вьетнамского языка, которую Viettel AI разрабатывает уже давно.
«Вместо того, чтобы использовать модели и инструкции из доступных результатов исследований, Viettel AI решила построить и разработать собственную модель обработки вьетнамской речи. Эта модель постоянно обновляется, оптимизируется и становится все более эффективной», — сказал г-н Сон.
Не только останавливаясь на конкурентах, это решение Viettel AI станет предпосылкой для модернизации продуктов виртуальной коммутаторной станции, виртуального помощника Viettel, помогающего точнее определять эмоции клиентов в разговорах, тем самым давая обратную связь или выбирая соответствующие нюансы слов. Таким образом, разговоры между людьми и ИИ станут более естественными, улучшая пользовательский опыт. Также открыто множество новых приложений в обслуживании клиентов, таких как создание системы для автоматического определения жалоб клиентов и жалоб на коммутатор для своевременной обработки или использования информации.
Представитель подразделения сообщил, что Viettel AI продолжит развивать технологии, постоянно модернизировать продукты для повышения точности, улучшения пользовательского опыта и эффективности продукции.
Куок Туан
Источник
Комментарий (0)