BGRによると、新たな研究レポートで、AI(人工知能)自体を使って、GoogleのGeminiを含む他の高度なAIモデルを標的とした極めて効果的なプロンプトインジェクション攻撃を自動的に作成するという「Fun-Tuning」と呼ばれる驚くべき手法が公開されたとのことです。
この方法により、AIの「クラッキング」がこれまでよりも速く、安く、簡単になり、AIをめぐるサイバーセキュリティの戦いが新たな激化を示すことになる。
悪者がAIを使ってAIを破壊する危険性
プロンプトインジェクションとは、攻撃者がAIモデルの入力データに悪意のある命令を忍び込ませる手法です(例:ソースコード内のコメント、Web上の隠しテキストなど)。その目的は、AIを「騙して」事前にプログラムされた安全ルールを回避させ、機密データの漏洩、虚偽情報の提供、その他の悪意のある行為の実行といった深刻な結果をもたらすことです。
ハッカーはAIを利用してAIを攻撃している
写真: LINKEDIN スクリーンショット
以前は、特に Gemini や GPT-4 などの「クローズド」モデルでこれらの攻撃を正常に実行するには、多くの複雑で時間のかかる手動テストが必要になることが多かったです。
しかし、Fun-Tuningは状況を一変させました。複数の大学の研究者チームによって開発されたこの手法は、GoogleがGeminiユーザーに無料で提供しているチューニング用アプリケーション・プログラミング・インターフェース(API)を巧みに活用しています。
Fun-Tuningは、チューニング中のGeminiモデルの微妙な反応(例えば、データ内のエラーへの反応など)を分析することで、悪意のあるコマンドを隠すのに最も効果的な「プレフィックス」と「サフィックス」を自動的に決定します。これにより、AIが攻撃者の悪意ある意図に従う可能性が大幅に高まります。
テスト結果によると、Fun-Tuning は Gemini の一部のバージョンで最大 82% の成功率を達成しており、これは従来の攻撃方法の 30% 未満を上回る数字です。
Fun-Tuningの危険性をさらに高めているのは、その低コストです。GoogleのチューニングAPIは無料で利用できるため、効果的な攻撃を作成するための計算コストはわずか10ドル程度です。さらに、研究者たちは、あるバージョンのGemini向けに設計された攻撃が他のバージョンにも容易に適用できることを発見しました。これは、広範囲に及ぶ攻撃の可能性を示唆しています。
GoogleはFun-Tuningの脅威を認識していることを認めていますが、チューニングAPIの動作を変更するかどうかについてはまだコメントしていません。研究者らはまた、防御側のジレンマを指摘しています。Fun-Tuningが悪用する情報をチューニングプロセスから削除すると、正当な開発者にとってAPIの有用性が低下する可能性があります。逆に、現状のまま放置すると、悪意のある攻撃者が悪用するための足掛かりとなり続けることになります。
Fun-Tuningの出現は、サイバー空間における対立が新たな、より複雑な段階に入ったことを明確に警告しています。AIは今や、悪意のある行為者にとって標的となるだけでなく、ツールや武器にもなっています。
[広告2]
出典: https://thanhnien.vn/hacker-dung-ai-de-tan-cong-gemini-cua-google-18525033010473121.htm
コメント (0)