AI統合キーボードv7のインターフェース。写真: NVCC 。 |
2003年生まれのTri Duc氏は、 ZnewsのTri Thuc氏とのインタビューで、人工知能(AI)を活用してベトナム語の入力方法を変えるというアイデアについて語りました。彼の学生プロジェクトであるv7入力ツールは、現在、研究論文へと発展し、AIに関する権威ある会議であるIJCAI 2025に採択されています。
テレックスやVNI入力は数十年にわたり人気を博してきましたが、ユーザーエクスペリエンスには依然として多くの制限があります。そこで、AIの統合によりベトナム語入力時間を短縮する軽量予測ツールとしてv7が誕生しました。
言語とテクノロジーへの情熱
言語とテクノロジーに対する彼の愛情により、彼はホーチミン市工科大学で応用人工知能を専攻しました。
在学中、彼はベトナム語の大規模言語モデル(LLM)、少数民族言語翻訳ソフトウェア、入学支援チャットボットといったプロジェクトに取り組みました。「これらの経験を通して、確固たる知識の基盤を築き、AIを応用してコミュニティに役立つ製品を作りたいという情熱と願望を育むことができました」と彼は語りました。
Tri Ducは、AIを生活に応用することで価値を生み出したいと考えています。写真:NVCC。 |
さらに、中国語と広東語の知識を持つドゥックは、ピンインとベトナム語の綴りの関連性に気づきました。これにより、象形文字の複雑さとは対照的に、中国語のピンイン入力システムでは「yn」と入力するだけで国名(漢字)が読み上げられることがわかります。一方、テレックスやVNIでは「ベトナム」という単語を入力するのに10個のキーが必要です。
ドゥック氏は観察を通して、ユーザーが素早くコミュニケーションをとる際に、例えば「student(学生)」を「hs」のように最初の子音を残して省略することが多いことに気づきました。「人間がこの書き方を簡単に理解できるのであれば、適切なデータで訓練すればAIも完全に理解できるはずです」と、このアイデアが生まれた背景について語りました。
TelexやVNIといった補完的なメカニズムを採用する従来の入力ツールでは、文字全体を入力した後にアクセント記号を付ける必要がありましたが、v7ではAIが入力したい単語を提案します。この技術により、最小限のキー入力で単語全体を正確に予測できます。
ベトナム語の綴り構造では、単語は語頭の子音、韻、そして声調で構成されます。例えば、「Nguyen」という単語は、「ng」、「uyen」、そして下降声調で構成されています。この原理に基づき、v7タイピングエンジンは語頭の子音と声調のみで単語全体を予測するように構築されており、精度を維持しながらキー入力回数を大幅に削減します。
AIにベトナム語を教える課題
ドゥック氏によると、最大の課題は、このタイピングツールを提供するためにAIにベトナム語を「理解」させることだった。彼は多くのモデルを試した結果、優れた文脈理解と正確な単語予測を実現するTransformersアーキテクチャを備えたGPT-2を基盤モデルとして選択した。
基盤となるアーキテクチャを選択した後、DucはTokenizer(語彙エンコーダ)を、自ら構築したベトナム語語彙に完全に置き換えました。エンジニアは、有効なスペルのベトナム語単語をすべてフィルタリングし、包括的な処理を実現することで、ユーザーが入力したい単語を予測できるようにしました。
もう一つの課題は、予測性能と応答速度のバランスを取ることです。モデルがパソコンとスマートフォンの両方でリアルタイムに動作しつつ、最善の予測を行えるだけの強力な性能を備えていることが必要です。2ヶ月間の継続的なテストを経て、現在のバージョンでは、ユーザーが入力した単語の約70%を正確にトップに表示し、遅延はわずか0.03秒です。
キーボードの入力方法について、Duc氏が言語学者Cao Xuan Hao氏やHenri Maspero氏らから得た多くの研究によると、ベトナム語には6つの声調だけでなく8つの声調があることが明らかになっています。この特徴を活かすため、v7では通常の6つの声調(平声と5つのアクセント:鋭声、平声、疑問声、下降声、重声)ではなく、8つの声調体系を採用しています。このキーボードでは、「v7」と入力すると、「Viet」という単語が提案されます。これは製品名の由来にもなっています。
ドゥック氏は、ソーシャルネットワークでv7をシェアした後、このモデルに注目が集まり、支持を得て、体験したいという要望が寄せられたことに、とても嬉しく、驚いたと語った。「この経験から、よりスマートで高速なベトナム語入力ツールの必要性を改めて実感しました」と彼は語った。
科学研究論文の著者グループ。左から:ナット・カン氏、ヒエウ・ギア氏、トリ・ドゥック氏。写真:NVCC。 |
現在、このキーボードはまだプロトタイプ段階にあり、GitHubでオープンソースコードが公開されており、プログラマーやテクノロジーユーザーがテストや貢献を行うことができます。また、一般ユーザーが簡単にインストールして使用できるよう、WindowsとmacOS向けの完全なアプリケーションバージョンも開発中です。
今後、v7の最優先事項はiPhoneキーボード版の実装です。これにより、スマートフォンでのベトナム語入力方法が改善されます。さらに、日常会話データによる学習をさらに進めることでモデルの精度が向上し、AIが一般的な文脈をより深く理解できるようになります。
ドゥック氏の歩みは、AIインフラへの巨額投資というベトナムの潮流の中で、テクノロジーのトレンドに追いつくことで、創造性の息吹を吹き込むことに貢献してきました。彼が特に誇りに思うのは、v7が初めて完全な文章を生成した時です。「当時は、おそらく現在のChatGPTの1万分の1ほどの大きさしかない小さなモデルが、人間のように考えることができていたのです」とドゥック氏は語ります。
出典: https://znews.vn/ky-su-tre-dung-ai-thay-doi-cach-go-tieng-viet-post1552246.html
コメント (0)