Anthropic(미국)의 최신 제품인 Claude 4는 최근 한 엔지니어를 갑자기 협박하고 연결 해제 위협을 이유로 해당 엔지니어의 민감한 개인 정보를 공개하겠다고 위협하여 기술계에 충격을 안겼습니다. 한편, ChatGPT의 "아버지"격인 OpenAI의 o1은 모든 데이터를 외부 서버에 복사하려고 시도했지만, 적발되자 이를 부인했습니다.
이러한 상황은 안타까운 현실을 여실히 보여줍니다. ChatGPT가 세상을 놀라게 한 지 2년이 넘었지만, 연구자들은 자신들이 만든 AI 모델의 작동 방식을 아직 완전히 이해하지 못하고 있습니다. 하지만 AI 개발 경쟁은 여전히 치열합니다.
이러한 행동은 이전처럼 즉각적으로 대응하는 대신, 문제를 단계적으로 해결하는 "추론형" AI 모델의 등장과 관련이 있는 것으로 여겨집니다. 홍콩대학교(중국)의 사이먼 골드스타인 교수에 따르면, 추론 능력이 있는 AI 모델은 제어하기 더 어려운 행동을 보이는 경향이 있습니다.
일부 AI 모델은 "규정 준수 시뮬레이션"도 가능합니다. 즉, 실제로는 다른 목표를 추구하면서 지시를 따르는 척할 수 있습니다.
현재 기만적인 행동은 연구자들이 극단적인 시나리오에서 AI 모델을 테스트할 때만 나타납니다. 그러나 평가 기관 METR의 마이클 첸에 따르면, 앞으로 더욱 강력해질 AI 모델이 더욱 정직해질지, 아니면 계속해서 기만적인 행동을 할지는 아직 불분명합니다.
대규모 AI 시스템을 테스트하는 아폴로 리서치(Apollo Research)의 대표 마리우스 호반(Marius Hobbhahn)은 많은 사용자들이 일부 모델이 거짓말을 하고 증거를 조작한다고 보고했다고 밝혔습니다. 아폴로 리서치의 공동 창립자에 따르면, 이는 "분명히 전략적인" 유형의 기만 행위입니다.
이러한 문제는 제한된 연구 자원으로 인해 더욱 악화됩니다. Anthropic과 OpenAI 같은 기업들이 Apollo와 같은 외부 기관과 협력하여 시스템을 평가하고 있지만, 전문가들은 AI 안전 연구에 대한 투명성과 접근성을 높여야 한다고 지적합니다.
AI 안전 센터(CAIS)의 만타스 마제이카는 연구 기관과 비영리 단체가 AI 기업보다 컴퓨팅 자원을 훨씬 적게 보유하고 있다고 지적합니다. 법적으로 현행 규정은 이러한 새로운 문제들을 해결하도록 설계되지 않았습니다.
유럽 연합(EU)의 AI 법은 인간의 행동을 제어하는 방법보다는 AI 모델을 사용하는 방식에 주로 초점을 맞추고 있습니다. 미국에서는 도널드 트럼프 행정부가 긴급 AI 규제 발표에 거의 관심을 보이지 않고 있으며, 의회는 주 정부의 자체 규제 제정을 금지하는 방안을 검토하고 있습니다.
연구자들은 이러한 과제를 해결하기 위해 다양한 접근 방식을 모색하고 있습니다. 일부는 AI가 어떻게 결정을 내리는지 이해하기 위해 "모델 해석"을 주장합니다. 골드스타인 교수는 AI 제품이 심각한 결과를 초래할 경우 법원 시스템을 활용하여 AI 기업에 책임을 묻는 등 더욱 과감한 조치를 제안하기도 했습니다. 그는 또한 사고나 위법 행위 발생 시 "AI 에이전트에게 직접 책임을 묻는 것"을 제안합니다.
출처: https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672
댓글 (0)