GPTと強力なAIモデルは、このテストの前にまだ「諦める」必要がある

[広告_1]

したがって、彼らがテストした中で最もパフォーマンスが高かった人工知能モデル構成である OpenAI の GPT-4-Turbo でも、プロファイル全体を読み込んだにもかかわらず、正答率は 79% にとどまり、非現実的な数字や出来事の「幻覚」を頻繁に経験しました。

「このようなパフォーマンス率は全く受け入れられません」と、パトロナスAIの共同創業者であるアナンド・カンナパン氏は述べた。「自動化して実用化するには、正解率をもっと高くする必要があります。」

この調査結果は、特に金融などの規制の厳しい業界の大企業が顧客サービスや研究など、業務に高度なテクノロジーを取り入れようとしている中で、AI モデルが直面しているいくつかの課題を浮き彫りにしています。

財務データの「幻想」

ChatGPT が昨年末にリリースされて以来、主要な数字を素早く抽出し、財務諸表分析を実行する機能は、チャットボットの最も有望なアプリケーションの 1 つと見なされてきました。

SEC 提出書類には重要なデータが含まれており、ボットがその内容を正確に要約したり、内容に関する質問に迅速に回答したりすることができれば、競争の激しい金融業界でユーザーに優位性を与えることができる可能性があります。

llm 画像 100941414 大きい.jpg — AIは、データ集約の段階、つまり人間を最も助けると期待される作業で苦戦しています。

過去1年間、ブルームバーグLPは金融データ用の独自のAIモデルを開発しており、ビジネススクールの教授たちはChatGPTが金融ニュースの見出しを分析できるかどうかを研究してきた。

一方、JPモルガンもAIを活用した自動投資ツールを開発しています。マッキンゼーの最近の予測によると、生成型AIは銀行業界に年間数兆ドルの収益をもたらす可能性があるとのことです。

しかし、まだ道のりは長い。マイクロソフトがOpenAIのGPTと連携したBing Chatを初めてリリースした際、このチャットボットは決算発表の速報に利用された。しかし、AIが吐き出す数字が歪曲されていたり、捏造されていたりすることが、観測者たちの間ですぐに指摘された。

同じデータ、異なる答え

LLMを現実世界の製品に組み込む際の課題の一つは、アルゴリズムが決定論的ではないことです。つまり、同じ入力を与えても必ずしも同じ結果が出るとは限りません。つまり、企業はAIが正しく動作し、話題から逸れず、信頼できる結果を出すことを確認するために、より厳格なテストを実施する必要があります。

Patronus AIは、大手上場企業のSEC提出書類から抽出した1万件以上の質問と回答からなるデータセット「FinanceBench」を構築しました。このデータセットには、正解と、ファイル内で正解を見つけるための正確な場所が含まれています。

すべての回答をテキストから直接引用できるわけではなく、一部の質問では計算や簡単な推論が必要になります。

150 問のサブセットテストには、OpenAI の GPT-4 と GPT-4-Turbo、Anthropic の Claude 2、Meta の Llama 2 の 4 つの LLM モデルが使用されました。

その結果、GPT-4-Turbo は、SEC の基礎となる提出書類へのアクセスを許可されたとき、人間がマウスで正確なテキストを指し示して AI が答えを見つけられるようにしたにもかかわらず、85% の精度しか達成できませんでした (データにアクセスできなかったときは 88%)。

Metaが開発したオープンソースのAIモデルであるLlama 2は、「幻覚」の数が最も多く、基礎文書の一部にアクセスしたときに回答の70％を間違え、わずか19％しか正解しなかった。

AnthropicのClaude 2は、「長いコンテキスト」、つまりSEC提出書類のほぼ全文が質問と共に含まれた状態で与えられた場合、優れたパフォーマンスを発揮しました。提示された質問の75%に回答し、21%に誤回答、3%に回答を拒否しました。GPT-4-Turboも長いコンテキストで優れたパフォーマンスを発揮し、質問の79%に正答し、17%に誤回答しました。

（CNBCによると）