出張から戻った人々の喧騒があふれる空港ロビーに入ると、ホー・ミン・ドゥック氏は、システムアナウンスを読み上げる聞き慣れた優しい女性の声が聞こえ、数秒間立ち止まった。
Vbeeのスタッフがハノイの本社で働いている - 写真:NVCC
彼はまるで親戚に会ったかのように、安堵と幸福感に満たされ、微笑んだ。その「親戚」とは、DucとVbeeチームが何日も何ヶ月も「共に寝食を共にした」20人のAI音声のうちの1人だった。彼らは一つ一つの音声ラインに心を込めて、声のあらゆるニュアンスにまで気を配り、より自然で人間らしい音声に仕上げようと尽力したのだ。
困難なスタート
Vbee Data Solutions and Services Joint Stock Company の 2 人の創立者、CEO の Ho Minh Duc 氏と CTO の Nguyen Thi Thu Trang 氏が、このような喜びと誇りを何度味わったか分かりません。
彼らは、学校の拡声器から聞こえる明瞭な声、建物内の温かい声、多くの企業の自動交換機から聞こえるプロフェッショナルな声など、さまざまな状況で「特別な知人」に出会った。
Vbee の発明品はもはや単なるアルゴリズムやコードの結果ではなく、実際に生活の中に入り込み、多くの分野に静かに、しかし強力な貢献をしています。
本の紹介、映画の吹き替えからコールセンターの自動アナウンスまで、Vbee は音声テクノロジーに新たな命を吹き込みます。
コア TTS テクノロジーの「母」として、Nguyen Thi Thu Trang 博士は、パリ第 11 大学での博士論文以来、多大な努力を注いできたベトナムの音声合成テクノロジーから生まれた製品を実際のユーザーに提供することを常に目指しています。
Vbeeの創業当初は困難を極めました。最初の2年間は無料で提供されていたにもかかわらず、音声合成(TTS)ツールの利用者はごくわずかでした。しかし、COVID-19が予期せぬ転機となりました。
ソーシャルディスタンスに関する厳しい規制に直面し、FE Credit、Momo、Viet Credit、 Sacombankといった企業は、何千人もの顧客にリーチする方法を模索していました。まさにその時、Vbeeにチャンスが訪れました。債務リマインダーから自動応答まで、Vbeeの製品は瞬く間に最適なソリューションとなりました。当時、バーチャルアシスタントとバーチャルコールセンターはVbeeの収益の最大80%を占めていました。
パンデミックが終息し、世界経済が低迷すると、Vbeeは新たな課題に直面しました。生成AI(GenAI)の波とデジタルコンテンツのトレンドが、音声合成ツールを復活させました。今日、TikTokからYouTube、Facebookまで、VbeeのAI音声はあらゆる場所で利用されています。
「現在、多くのTTSコンテンツを提供しています」とホー・ミン・ドゥック氏は誇らしげに語った。現在、Vbeeの実ユーザー数は200万人を超えており、その数は毎月20%ずつ着実に増加している。
Vbee は 20 を超える高品質な企業の音声をトレーニングしており、カスタム音声を含めると 200 を超えるさまざまな AI 音声を作成しています。
最近研究されテストされた新しい音声文字変換テクノロジーにより、新しい音声のトレーニングには、2年前のように4時間から数十時間の録音ではなく、3分間の録音データのみが必要になりました。
CEOのホー・ミン・ドゥック氏と最高技術責任者のグエン・ティ・トゥ・トラン氏 - Vbee Data Solutions and Services Joint Stock Companyの2人の創設者 - 写真:NVCC
「私たちはベトナム語をよりよく理解しています」
音声合成技術をめぐる競争において、CEO の Ho Minh Duc 氏は、技術革新の取り組みが徐々に限界に達する時期が来ると見ています。
同氏によれば、Vbeeはベトナム語の音声を処理するための中核技術を開発しているだけでなく、真のベトナム人だけが完全に理解できる微妙なニュアンス、語調、独特の文化など、ベトナム語を深く理解できる技術システムも構築しているという。
ベトナムのTTS市場のリーディングカンパニーであるVbeeの両リーダーは、自社のツールがベトナム語AI音声読み上げの標準になったと確信しています。ユーザーは、Vbeeの精度の高さだけでなく、それぞれの音声に込められた「感情」を感じ取っています。
たとえばベトナム語では、「路地」という単語だけでも、地域によって「hèm」「kiệt」「xếc」などさまざまな名前があり、単語ごとにニュアンスが異なり、AI が理解する必要があります。
これを実現するために、Vbee はサンプル データ セットの収集と AI トレーニング用の強力なサーバー システムへの投資に多大な投資を行ってきました。
「AIが各地域のニュアンスを正しく理解して処理できるようにするには、数え切れないほどのサンプルセットを構築する必要があり、処理サーバーのコストも非常に高かった」とCEOのホー・ミン・ドゥック氏は語った。
グエン・ティ・トゥ・トラン博士は、ベトナム語独特の音調と文法を解読するため、VbeeのコアTTS技術を15年以上研究してきました。彼女にとって、母語は表現のニュアンスに富んだ繊細な世界です。
「私のベトナム語はとても複雑で興味深いです。音調は最も難しく、世界の他の多くの一般的な言語とは異なります。言語を理解すればするほど、私のモデルはより正確になります」と彼女は説明した。
Vbee は、テクノロジー時代においてベトナム語処理ソフトウェアを統合したツールやデバイスに欠かせないものになると徐々に主張しています。
Vbee チームは、あらゆる言葉、あらゆる声において、テクノロジーを研究開発するだけでなく、AI 音声で真の「ベトナムの感情」を作り出すよう努めています。
Vbeeという名前は、「Vietnamese BE your Eyes(ベトナム人があなたの目になる)」というフレーズの略称で、視覚障がい者の「目」となるツールを作りたいという私の最初の思いから生まれました。しかし、多くの人が「見る」よりも「聞く」ことを好む現在の開発動向において、Vbeeもまた、皆様の「目」となると信じています。
グエン・ティ・トゥ・トラン博士(ハノイ工科大学情報技術学部講師、Vbee社創設者兼技術ディレクター)
オーディオブック愛好家の集まり
Vbeeは、グエン・ティ・トゥ・トラン博士と視覚障害者コミュニティとのつながりから生まれました。彼女は学生時代から、視覚障害者を支援するためのオーディオブックの録音やベトナム語の読み上げソフトの開発に携わってきました。
これらの経験が、Vbeeの前身となるベトナム語読み上げソフトウェアの開発へと彼女を導きました。2018年、彼女はハノイ工科大学の同級生で、Socbay.comプロジェクトとオーディオブックのデジタル化の経験を持つホー・ミン・ドゥック氏と共に、ベトナムにおけるテキスト読み上げ変換分野のパイオニアであるVbeeを設立しました。
Vbeeの優れた業績
- クアルコム ベトナム イノベーション チャレンジ 2024 最優秀賞
- 2023年 トイ・チェ・スタートアップ・アワード 特別賞
- Grab Venture Ignite 2020 アクセラレーター プログラムで優勝したスタートアップ
- ベトナムタレント2018第1位、ベトナムタレント2020第2位
- 情報通信省の国家デジタル変革プログラム2025-2030におけるベトナムコアテクノロジー証明書
- 2018年ベトナムデジタルメディア賞および2019年Vingroup Fund受賞プロジェクト。
地域ビジョン
Vbeeはベトナム市場での地位を固めた後、2026年までにラオス、タイ、カンボジア、フィリピンなどの国々にTTS技術を提供する計画で東南アジアへの進出を目指している。
Nguyen Thi Thu Trang 博士によると、多言語モデルの出現による今日の技術の急速な進歩により、他の言語用の TTS ツールの開発が容易になります。
現在、彼女はタイ語、中国語、英語の音声技術を研究しており、国際市場でのVbeeの新たな一歩を踏み出しています。
[広告2]
出典: https://tuoitre.vn/vbee-va-no-luc-chap-canh-cho-tieng-viet-20250217102146767.htm
コメント (0)