「ベトナムのデータを習得することは、ベトナムの技術を開発し習得するための第一歩です」

[広告_1]

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 1.

米国の大規模な人工知能組織で働いた後、なぜ母国に戻って VinBigdata に入社することにしたのですか?

アメリカで働いていた頃、多くの大規模な政府プロジェクトに携わっていましたが、私が生み出した成果は、大規模なプロセスの中のほんの数ステップに過ぎないことが多々ありました。プロジェクトの厳格な機密性のため、私が開発したソリューションがどのように活用されているかさえ、私自身が知る由もありませんでした。

2017年、ベトナムが発展途上にあり、ビッグデータや人工知能に関する解決すべき課題が数多く残っていた時期に、私は再びベトナムに戻りました。そこで、Vu Ha Van教授の招きを受け、ベトナムの人々の生活に役立つベトナムの技術ソリューションを開発するという目標を共同で実現しました。より大きな影響力を持つ問題に取り組むことができるため、ベトナムへの帰国はより意義深いものとなりました。

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 2. — ワークショップに参加したダオ・ドゥック・ミン博士

人工知能開発戦略において、ビッグデータはどのような役割と影響力を発揮するのでしょうか？

データは人工知能の学習において非常に重要な役割を果たします。高品質な人工知能モデルの学習は、多くの場合、大規模なデータベースの学習から始まります。したがって、高品質な人工知能を実現するには、まず良質なデータが必要です。

良質なデータには、量と規模、質、多様性、そして普遍性が求められます。生データのクレンジング段階から数千時間にも及ぶデータを収集・処理し、人工知能モデルに入力する最高品質のデータを作成するプロセスは、非常にコストがかかり、複雑です。一方、ビッグデータを分析するには、人工知能を活用して大規模かつ正確にデータ処理を行い、より優れた決定的または予測的な結果を生み出す必要があります。

例えば、ベトナム人向けのバーチャルアシスタント製品（ViVi）を開発する過程では、さまざまな地域、年齢、性別、数百分野にわたる内容の数十万の音声から、数万時間分の高品質オーディオデータを収集し、処理する必要がありました...

最近では、ViGPTのリリースがありました。これは、VinBigdataが100%所有する大規模言語モデルから開発された「エンドユーザー向けChatGPT初のベトナム語版」です。このモデルは、様々な分野から集められた600GBのベトナム語データに基づいて学習されています。ベトナム語のデータと言語に関する当社の知識を活かし、ChatGPT誕生からわずか9ヶ月でViGPTのリリース期間を短縮する新たなアプローチを発見しました。

これがビッグデータと人工知能の共鳴です。

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 3.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 4.

研究と実用的価値を結び付けてコミュニティに貢献することについて、どのような見解をお持ちですか?

- 技術研究は、実際に生活の中に取り入れられ、社会問題を解決し、人々の生活を向上させたときにのみ、真に成功すると私は信じています。

ビジネスや社会の問題を解決する実用的な商用製品を作成するには、常に注意を払い、「データはどのような価値をもたらすのか」という質問をする必要があります。

当社はこれまで、ViGPT、医療画像診断におけるAIソリューションを提供するVinDr、バイオ人工知能プラットフォームのVinBase、スマート画像分析ソリューションセットのVizoneなど、さまざまな業界や分野向けにさまざまな製品とソリューションを研究開発してきました。

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 5. — Vingroup CorporationのイベントでVinBigdataの主要メンバーと

第四次産業革命が世界規模で急速に進んでいます。ベトナムにはどのような強みがあるとお考えですか？

過去の革命と比較して、ベトナムは現在、第4次産業革命において突破口を開く多くの優位性を有しており、世界地図におけるベトナムの地位向上に貢献できると考えています。この目標を達成するための2つの鍵は、データと人材です。

ベトナムの人口は現在約1億人で、そのうち多くの若者が携帯電話やパソコンを利用しています。さらに、人工知能（AI）の著名な専門家や、情報技術分野の優秀な若手人材を擁し、数学の基礎も非常に優れています。

それで、制限は何でしょうか?

最初の明らかな制約は、人口が多いにもかかわらず、データの習得、具体的には施設、事業部門、管理部門でのデータの標準化と同期化が依然として困難であることです。

さらに、投資リソース、特に高性能コンピューティングインフラストラクチャへの投資が限られているなどの制約にも直面しています。

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 6.

あなたの意見では、ベトナム人の生活に役立つテクノロジーを創造し習得する過程において、ベトナムのデータ習得の役割はどれほど重要ですか?

現在、世界には多くの先進的な人工知能製品が存在し、OpenAIのChatGPTやGoogleのBardといった大規模言語モデルに基づく生成型AIアプリケーション製品が代表的です。しかし、これらの製品の開発においてベトナム語が主要な言語グループとなっているわけではありません。

そのため、ユーザーに返されるベトナム語特有のコンテンツの品質は多かれ少なかれ影響を受け、エラーが発生する可能性が高く、さらに危険なのは、基本的な知識に関するエラーが発生することです。

ベトナム人として、私たちは自国独自のデータソースにアクセスできるという利点があります。ベトナムのデータの特性、ベトナム人のニーズや特性を理解できるのは、私たちだけです。したがって、ベトナムのデータに精通することは、ベトナム人に役立つコアテクノロジー、つまりテクノロジーを習得するための鍵となるのです。

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 7. — VinBigdataメンバー向けの社内研修

特に、現在ベトナム人のほとんどが海外からソーシャルネットワーキングサイトを使用している場合、特定のデータソースにアクセスするにはどうすればよいでしょうか。

現実には、今日（ベトナム人に限らず）の人的データの最大の情報源はインターネットとソーシャルネットワークです。しかし、ベトナム人データの特性を理解し、各プロジェクトで設定された特性に応じて、さまざまな情報源からデータにアクセスし、収集することは可能です。

例えば、OpenAIのGPTモデルは数百、数兆ものパラメータを持ち、膨大なデータで学習され、数十億ドルものコストがかかります。これに対し、私たちは研究、能力、そしてリソースに基づいて全く異なる道を選びました。それは、わずか数十億のパラメータからなるアーキテクチャを持つベトナム語モデルを作成し、独自に収集・改良した600GBのベトナム語データセットで学習させることで、ベトナム語処理能力は同等にするというものです。その結果、独自開発のアーキテクチャは自己最適化が可能で、言語モデルの学習時間を短縮し、コストを削減しながらも、モデルの品質を保証できることが示されました。

人工知能製品の研究開発の過程で、あなたとあなたのチームが直面した課題は何ですか?

最初の課題は間違いなく時間です。人工知能技術の波は非常に急速に到来し、爆発的な発展期にあります。世界では、先進的なテクノロジー企業が次々と完成度の高い製品を投入し、絶えずアップデートと改良を重ねています。もし私たちが遅れを取り、タイムリーに製品を投入できなければ、確実に後れを取ってしまうでしょう。

一方、実際に応用でき、社会課題を解決できる製品を作りたいのであれば、製品の優れた、特別な、ユニークな特徴を見つけて開発することも考慮しなければなりません。

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 8. — ベトナム人工知能デー（AI4VN 2023）でのプレゼンテーション

実際、ベトナム国内だけでなく世界中で多くの個人や組織がデータ漏洩によって甚大な被害を受けています。データセキュリティの問題について、どのようにお考えですか？

今日のあらゆるアプリケーションはデータから生まれていると言えます。データを扱う際には、一方ではデータを活用して生活に最適なテクノロジーを生み出すという目標をしっかりと達成する必要があり、他方では個人と組織のデータセキュリティを確保する必要があります。

データセキュリティ保証プロセスにおいて、人的要因は非常に重要な要素です。これには、開発者、製品ユーザー、そしてユーザーが含まれます。開発者は、データの収集と処理の最初からデータセキュリティへの意識を高く保たなければなりません。

多くの場合、問題がない時はデータセキュリティの重要性が認識されていません。しかし、データ漏洩が発生すると、甚大な被害が発生する可能性があります。データ漏洩は、技術的な問題や意図的なデータ窃取を目的とした攻撃によって発生する可能性があります。個人や組織の情報が悪意のある人物に不正に利用される可能性があり、企業は関連する問題の解決に経済的損失を被り、ブランドイメージにダメージを与える可能性もあります。