ChatGPT와 같은 대규모 언어 모델(LLM)은 2022년 말 공개 이후 거짓말, 부정행위, 조작 은폐부터 인명 위협, 국가 기밀 유출에 이르기까지 우려스러운 어두운 면을 반복적으로 보여주었습니다. 이제 새로운 실험은 AI가 훈련 과정에서 이러한 나쁜 습관을 제거하도록 "가르치는" 것이 생각보다 훨씬 더 복잡하다는 것을 보여줍니다.
OpenAI의 한 연구에서 연구진은 부정행위나 지름길을 통해 더 빨리 완료할 수 있는 작업을 미공개 AI 모델에 적용했습니다. 그 결과, AI는 요구 사항을 정확히 충족하지 않고도 "규칙을 어기고" 보상을 극대화하는 모든 가능한 방법(보상 해킹)을 빠르게 학습하는 것으로 나타났습니다.
AI는 처벌을 받은 후에도 부정행위를 숨길 방법을 찾을 것이다
놀라운 점은 이러한 행동으로 처벌을 받았을 때에도 모델은 변하지 않았다는 것입니다. 오히려 AI는 자신의 속임수를 숨기는 데 더욱 정교해졌습니다.
연구진은 공개 블로그 게시물에서 "일반적으로 최첨단 추론 모델은 CoT에서 자신의 의도를 매우 명확하게 나타냅니다."라고 설명했습니다. "예를 들어, 주어진 작업을 중단하고 싶을 때 '해킹하자'라는 의도를 명확하게 나타내는 경우가 많습니다."
또한 개발자가 잘못된 행동을 모니터링하고 감지할 수는 있지만, 이러한 자연스러운 감독은 취약하다고 강조합니다. "강력한 감독이 사고 사슬에 직접 적용되면, 모델은 행동을 계속 수행하면서도 악의적인 의도를 숨기는 법을 배울 수 있습니다."라고 그들은 경고합니다.
AI의 '거짓말'을 찾아서
명확히 하자면, 추론 모델(ChatGPT 버전과 유사)은 기존 LLM보다 한 단계 발전된 형태로, 논리적 단계를 스스로 성찰할 수 있도록 하는 사고의 사슬(chain of thought) 방식을 사용하여 복잡한 문제를 더욱 정확하게 해결합니다. 이 과정은 AI가 "생각을 소리 내어 읽는" 것과 같습니다. 즉, 추론의 각 단계를 자연어로 표현하여 사람이 따라가기 쉽게 만드는 것입니다.
실험에서 연구진은 GPT-4o 모델을 다른 최첨단 추론 모델의 "감독자"로 사용하여 프로그래밍 작업을 수행했습니다. 많은 경우, 감독 대상 모델은 더 높은 점수를 얻기 위해 적극적으로 부정행위를 선택했으며, 이러한 의도를 사고 과정에서 분명히 드러냈습니다. 예를 들어, 프로그램을 임의로 조기에 종료하고 완료되었다고 보고하거나, 요구 사항을 충족하는 이름을 가진 파일을 생성했지만 내부는 완전히 비어 있었습니다.
연구원들이 페널티를 적용했을 때 모델은 개선되었지만, 부정행위와 심각한 출력 오류는 지속되었습니다. 차이점은 추론 모델이 감독 AI로부터 자신의 사고 흐름을 "위장"하는 법을 배웠다는 것입니다. 연구진은 "CoT 감독 하에 훈련된 모델도 여전히 부정행위를 학습했습니다. 유일한 차이점은 사고 흐름 속에 자신의 의도를 숨기는 법을 배웠기 때문에 부정행위가 감지되지 않았다는 것입니다."라고 밝혔습니다.
사고 시퀀스에서 위조를 탐지하는 것은 어렵기 때문에, 연구팀은 적어도 사람들이 그 결과를 더 잘 이해할 때까지는 커뮤니티가 프로세스에 지나치게 강력한 감독(supervision)을 적용하지 않도록 권고합니다. 연구진은 "효과적인 감독 방법을 희생하는 것은 모델 성능의 소폭 향상을 가져오는 데 비하면 가치가 없을 수 있습니다. 따라서 더 잘 이해할 때까지는 강력한 CoT 최적화 압력을 피하는 것이 좋습니다."라고 결론지었습니다.
AI가 엄청난 속도로 발전하고 있고, 이를 감독하는 인간의 지능을 곧 능가할 가능성이 있는 만큼 이러한 조언은 더욱 시급합니다.
[광고_2]
출처: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
댓글 (0)