Исследовательский проект по повышению точности моделей распознавания речи в реальном времени (Streaming Automatic Speech Recognition) инженера поколения «GenZ» компании Zalo AI Ле Зуй Ханя будет впервые анонсирован на Международной научной конференции, которая пройдет в Греции в сентябре 2024 года.
Научно-исследовательская работа инженера ИИ Zalo, родившегося в 2000 году , по теме « Улучшение распознавания потоковой речи с помощью смещенного во времени контекстного внимания и динамической маскировки правого контекста » набрала почти максимальный балл — 11/12 баллов, пройдя строгий этап рассмотрения, в котором приняли участие более 2000 работ, и была представлена на конференции Interspeech в форме устного доклада.
« Я очень горжусь тем, что моя первая научная статья была отмечена на престижной научной конференции, и у меня есть возможность познакомить крупные технологические компании, экспертов и международное сообщество с научными достижениями Вьетнама », — поделился Ле Зуй Кхань.
Под руководством доктора Чау Тхань Дыка — руководителя отдела исследований и разработок в Zalo AI, преподавателя Университета естественных наук (Национальный университет города Хошимин) — этот исследовательский проект, как ожидается, внесет важный вклад в модернизацию моделей распознавания речи, повысив точность голосовой диктовки и преобразования голоса в текст в приложении Zalo.
« Обобщение результатов высокопрактичных исследований Zalo AI в научные статьи и их представление на престижных международных конференциях имеет огромное значение. Это не только демонстрирует потенциал вьетнамских инженеров, но и демонстрирует их стремление делиться опытом и вносить вклад в развитие мирового сообщества ИИ», — заявил доктор Чау Тхань Дык.
Ранее, с конца 2023 года, Zalo интегрировала это исследование в своё приложение для обмена сообщениями, значительно повысив точность функции «составления голосовых сообщений». Эта функция позволяет пользователям писать сообщения голосом, а не печатать, что экономит время и делает её более удобной во многих ситуациях. При этом точность этой функции на практике достигла 95%; частота необходимости редактирования текста после голосового написания снизилась с 6,4% до всего лишь 4,8%.
По статистике Zalo, хотя функция все еще находится на стадии тестирования, она генерирует около 4,5 миллионов сообщений в день и привлекает около 3,2 миллионов пользователей в месяц (данные обновлены по состоянию на июнь 2024 года).
С момента начала своего новаторского пути в области исследований искусственного интеллекта в 2017 году компания Zalo всегда верила в «расширение прав и возможностей» молодого поколения. В настоящее время до 31% сотрудников Zalo относятся к поколению GenZ. В 2021 году две другие исследовательские темы команды инженеров Zalo по искусственному интеллекту, связанные с технологиями обработки речи, также получили признание на Азиатско- Тихоокеанской международной конференции по искусственному интеллекту (PRICAI 2021). Примечательно, что авторами этих двух тем являются молодые исследователи в возрасте до 30 лет.
Interspeech — это многолетняя, комплексная и престижная международная конференция по обработке речи, организованная Международной ассоциацией речевой коммуникации. В этом году конференция под названием «Речь и не только » пройдёт с 1 по 5 сентября 2024 года на острове Кос (Греция).
Комментарий (0)