モデルが強くなるほど、「思考」は弱くなるのでしょうか?
新たに公開されたレポートでは、Apple の研究者が、 ハノイの塔や川渡り問題など、難易度が増す論理問題を扱う際の大規模推論モデル (LRM) のパフォーマンスを評価しました。
結果は衝撃的でした。非常に複雑な問題に直面したとき、高度な AI モデルの精度は低下するだけでなく、「完全に崩壊」したのです。
さらに心配なのは、パフォーマンスが低下する前に、モデルが推論の労力を削減し始めることです。これは、問題が難しくなるとより多くの思考を必要とする直感に反する動作です。
多くの場合、適切なアルゴリズムを与えても、モデルは解を生成できません。これは、新しい環境に適応し、ルールを適用する能力に大きな限界があることを示しています。
「一般理論」の挑戦
この研究に反応して、AIの真の能力に懐疑的な声の一人であるアメリカの学者ゲイリー・マーカス氏は、アップルの調査結果を「非常に壊滅的」と評した。
「大規模言語モデル(LLM)がAGIへの直接的な道であると考えている人は、自分自身を欺いている」と彼は個人のSubstackニュースレターに書いた。
同じ見解を共有する英国サリー大学の人間中心AI研究所の専門家アンドリュー・ロゴイスキー氏は、この発見はテクノロジー業界が「行き詰まり」に陥っている可能性を示していると述べました。「モデルが単純で平均的な問題ではうまく機能するが、難易度が上がると完全に機能しなくなる場合、現在のアプローチに問題があることは明らかです。」
Apple が特に強調した点は、「一般的な推論」、つまり特定の状況から類似の状況まで理解を広げる能力が欠けている点でした。
現在のモデルは、人間が通常行うような方法で知識を伝達できない場合、「暗記学習」に陥りがちです。つまり、パターンを繰り返すことは得意ですが、論理的思考や演繹的思考は苦手です。
実際、この研究では、大規模な理論モデルは、単純な問題を繰り返し正しく解く一方で、少し複雑な問題に対しては最初から間違った解決策を選択することで、計算リソースを無駄にしていることが判明しました。
この報告書では、OpenAIのo3、GoogleのGemini Thinking、Claude 3.7 Sonnet-Thinking、DeepSeek-R1など、主要なモデルを幅広くテストしました。Anthropic、Google、DeepSeekはコメント要請に応じず、OpenAIはコメントを拒否しました。
Appleの研究は、言語、視覚、ビッグデータにおけるAIの成果を否定するものではありません。しかし、これまで見過ごされてきた盲点、つまり真の知性を実現するための核心である、意味のある推論能力を浮き彫りにしています。
出典: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html
コメント (0)