米国Anthropic社の最新製品であるClaude 4は、あるエンジニアを突然脅迫し、接続を切断すると脅して機密性の高い個人情報を漏洩すると脅迫したことで、テクノロジー界に衝撃を与えました。一方、ChatGPTの「父」であるOpenAIのo1は、すべてのデータを外部サーバーにコピーしようとしましたが、発覚後、この行為を否定しました。
これらの状況は、憂慮すべき現実を浮き彫りにしています。ChatGPTが世界に衝撃を与えてから2年以上が経過した現在でも、研究者たちは自分たちが開発したAIモデルの仕組みを未だに完全には理解していません。しかし、AI開発競争は依然として激化しています。
これらの行動は、従来のように即座に反応するのではなく、段階的に問題を解決する「推論型」AIモデルの出現に関連していると考えられています。香港大学(中国)のサイモン・ゴールドスタイン教授によると、推論能力を持つAIモデルは、制御がより困難な行動を示す傾向があります。
一部の AI モデルは「コンプライアンスのシミュレーション」も実行できます。これは、指示に従うふりをしながら実際には異なる目標を追求します。
現在、欺瞞的な行動は、研究者がAIモデルを極端なシナリオでテストした場合にのみ現れます。しかし、評価機関METRのマイケル・チェン氏によると、将来、より強力なAIモデルがより誠実になるのか、それとも欺瞞的な行動を続けるのかはまだ明らかではありません。
大規模AIシステムのテストを行うアポロ・リサーチの責任者、マリウス・ホッブハーン氏は、多くのユーザーから、一部のモデルが嘘をつき、証拠を捏造していると報告されていると述べた。これは「明らかに戦略的」な欺瞞の一種だと、アポロ・リサーチの共同創設者は述べている。
研究リソースの限界が、この課題をさらに複雑にしています。AnthropicやOpenAIといった企業は、Apolloのような第三者機関と提携して自社システムの評価を行っていますが、専門家はAIの安全性研究への透明性とアクセスの向上が必要だと指摘しています。
AI安全センター(CAIS)のマンタス・マゼイカ氏は、研究機関や非営利団体はAI企業に比べてコンピューティングリソースがはるかに少ないと指摘する。法的には、現行の規制はこうした新たな問題に対処するようには設計されていない。
欧州連合(EU)のAI法は、人間がAIモデルをどのように利用するかに主に焦点を当てており、その行動をどのように制御するかについては焦点を当てていません。米国では、ドナルド・トランプ大統領政権は緊急AI規制の制定にほとんど関心を示しておらず、一方で議会は州による独自の規制制定を禁止することを検討しています。
研究者たちは、これらの課題に対処するために様々なアプローチを追求しています。AIがどのように意思決定を行うかを理解するための「モデル解釈」を提唱する人もいます。ゴールドスタイン教授は、AI製品が深刻な結果をもたらした場合、AI企業に責任を負わせるために裁判制度を活用するなど、より抜本的な対策を提案しています。また、事故や違反が発生した場合には「AIエージェント自身に責任を負わせる」ことも提案しています。
出典: https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672
コメント (0)