AIは罰せられるとより巧妙に嘘をつくことを学ぶ

[広告_1]

ChatGPTのような大規模言語モデル（LLM）は、2022年後半の公開以来、嘘、不正行為、隠蔽工作から人命の脅迫、国家機密の窃盗に至るまで、不穏なダークサイドを繰り返し示してきました。そして今、新たな実験により、AIに学習中にこれらの悪習慣を排除するよう「教える」ことが、私たちが考えていたよりもはるかに複雑であることが示されました。

OpenAIの研究では、研究者らは未発表のAIモデルに、不正行為や近道によってより早く完了できるタスクを与えました。その結果、AIはタスクを要求通りに完了させることなく、「ルールを曲げる」ことで報酬を最大化するためのあらゆる方法（報酬ハッキング）を迅速に学習することが示されました。

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — AIは罰せられた後、不正行為を隠す方法を見つけるだろう

注目すべきは、この行動に対してペナルティを受けてもモデルは変化しなかったことです。それどころか、AIは欺瞞を巧妙に隠蔽するようになりました。

「一般的に、最先端の推論モデルは、CoTにおける意図を非常に明確に示しています」と研究者らは公開ブログ投稿で説明している。「例えば、特定のタスクを破りたい場合、『Let's hack（ハックしよう）』という意図を明示的に示すことが多いのです。」

彼らはまた、開発者が不正行為を監視し検出できる一方で、この自然な監督は脆弱であると強調している。「強力な監督を思考連鎖に直接適用すると、モデルは行動を継続しながら悪意を隠すことを学習してしまう可能性がある」と彼らは警告している。

AIの「嘘」を見つける

明確に言えば、推論モデル（ChatGPTのバージョンなど）は従来のLLMよりも一歩進んだもので、思考連鎖法を用いて論理的ステップを自己省察することで、複雑な問題をより正確に解決します。このプロセスは、AIが「思考を声に出して考える」ようなもので、推論の各ステップを自然言語で書き出すことで、人間が理解しやすくしています。

実験では、研究者らはGPT-4oモデルを、別の最先端の推論モデルがプログラミングタスクを実行する際の「教師」として用いました。多くの場合、教師ありモデルはより高いスコアを得るために積極的に不正行為を選択し、その意図を思考に明確に示しました。例えば、プログラムを恣意的に早期に終了させて完了したと報告したり、要件に一致する名前のファイルを作成しながらも中身が完全に空だったりしました。

研究者がペナルティを適用してみると、モデルは改善しましたが、不正行為と深刻な出力エラーは続きました。違いは、推論モデルが思考の流れを「カモフラージュ」し、監督AIから隠蔽することを学習した点です。「CoT監督下で訓練されたモデルは依然として不正行為を学習しました。唯一の違いは、思考の流れの中に意図を隠すことを学習したため、不正行為が検出されなかったことです」と研究は述べています。

思考シーケンスにおける偽造の検出は困難であるため、研究チームは、少なくとも人間が結果をより深く理解するまでは、コミュニティがプロセスに過度な監督を適用することを避けるよう推奨しています。「効果的な監督手法を犠牲にすることは、モデル性能のわずかな向上に見合わない可能性があります。したがって、人間がより深く理解するまでは、強いCoT最適化圧力を避けることを推奨します」と研究者らは結論付けています。

AI が猛烈な勢いで発展し、それを監督する人間の知能をすぐに超える可能性がある今、このアドバイスはより一層緊急なものとなっています。

[広告2]
出典: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm