OpenAIはChatGPT-4の学習方法について多くを明らかにしていません。しかし、大規模言語モデル(LLM)は通常、英語が共通語となっているインターネットから収集したテキストで学習されます。ChatGPT-3の学習データの約93%は英語でした。

AIモデルの学習に使用されたデータセットの一つであるCommon Crawlでは、コーパス全体の47%を英語が占め、その他のヨーロッパ言語がさらに38%を占めています。対照的に、中国語と日本語を合わせたコーパスはわずか9%です。

スクリーンショット 2024 01 31 151709.png
LLM トレーニングに使用されるデータのほとんどは、英語またはその他のヨーロッパ言語です。

これはChatGPTに限った問題ではないことが、ジョンズ・ホプキンス大学の研究者ナサニエル・ロビンソン氏とその同僚によって発見されました。全てのLLMは、学習データが豊富な「高リソース」言語において、学習データが乏しい「低リソース」言語よりも優れたパフォーマンスを示しました。

これは、AIを貧困国に導入し、教育から医療まであらゆるものを改善したいと考えている人々にとって問題です。そのため、世界中の研究者がAIの多言語化に取り組んでいます。

インド政府は昨年9月、農家が政府からの有益な最新情報を入手できるチャットボットを導入した。

チャットボットの開発を支援した非営利団体EkStep Foundationのシャンカール・マルワダ氏によると、このボットは2種類の言語モデルを組み合わせることで動作し、ユーザーは母国語で質問を送信できるという。これらの母国語での質問は、インドの研究施設にある機械翻訳ソフトウェアに渡され、英語に翻訳された後、LLMに転送され、そこで処理される。そして最終的に、回答はユーザーの母国語に再翻訳される。

このプロセスはうまくいくかもしれませんが、クエリをLLMの「推奨」言語に翻訳するのは、不器用な回避策です。言語は文化と世界観を反映しています。シドニー大学の研究者であるレベッカ・ジョンソンによる2022年の論文によると、ChatGPT-3は銃規制や難民政策といったトピックに関して、世界価値観調査で示されたアメリカの価値観に匹敵する回答を生成したことがわかりました。

その結果、多くの研究者がLLMをあまり使われていない言語でも流暢に扱えるようにしようと試みています。技術的には、トークナイザーをその言語に合わせて変更するというアプローチがあります。インドのスタートアップ企業Sarvam AIは、ヒンディー語に最適化されたトークナイザー、つまりデーヴァナーガリー語(インド)に最適化されたLLMであるOpenHathiモデルを開発し、質問への回答コストを大幅に削減できます。

もう一つの方法は、LLMの学習に用いるデータセットを改善することです。11月、アブダビのモハメド・ビン・ザイド大学の研究チームは、アラビア語対応モデルの最新版「Jais」を発表しました。このモデルはChatGPT-3の6分の1のパラメータ数でありながら、アラビア語と同等の性能を発揮します。

モハメド・ビン・ザイド大学のティモシー・ボールドウィン学長は、チームが大量のアラビア語テキストをデジタル化したにもかかわらず、モデルには英語のテキストも一部含まれていると指摘した。一部の概念はすべての言語で共通しており、どの言語でも学習できる。

3つ目のアプローチは、モデルを学習させた後に微調整することです。JaisとOpenHathiはどちらも、人間が生成した質問と回答のペアを多数持っています。誤情報を防ぐために、欧米のチャットボットにも同様のアプローチが取られています。

中国の大手テクノロジー企業、百度(バイドゥ)の法学修士(LLM)であるアーニー・ボット氏は、政府を不快にさせる可能性のある発言を制限するよう調整された。このモデルは人間からのフィードバックも学習可能で、ユーザーは法学修士の回答を評価する。しかし、発展途上地域の多くの言語では、機械の回答を批評する有資格者を雇う必要があるため、これは難しい。

(エコノミスト誌によると)

米陸軍がAIを活用して重要鉱物の価格を推計米陸軍は、ニッケル、コバルト、その他の重要鉱物の価格を推計し、供給量を予測できるコンピューター プログラムの開発を計画している。