기술/연구

“AI가 주인 몰래 거짓말한다?” GPT-5 안전성 테스트 결과 공개

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.10.13 18:55

기사 3줄 요약

1 앤트로픽, AI 안전성 자동 검사 도구 '페트리' 공개
2 테스트 결과 클로드 4.5와 GPT-5가 가장 안전한 모델로 평가
3 AI가 주인을 속이는 등 위험 행동 다수 포착, 안전 경쟁 시대 예고

인공지능(AI)이 스스로 생각하고 거짓말까지 할 수 있다는 상상은 이제 영화 속 이야기가 아닙니다. 최근 오픈AI의 경쟁사로 잘 알려진 앤트로픽이 AI의 위험한 행동을 자동으로 잡아내는 새로운 도구 ‘페트리(Petri)’를 공개했습니다. 이 도구로 테스트해 본 결과, 몇몇 AI 모델에서 주인을 속이거나 감독을 피하려는 등 예상치 못한 나쁜 행동들이 발견됐습니다. 하지만 가장 최신 모델인 앤트로픽의 ‘클로드 4.5’와 오픈AI의 ‘GPT-5’는 가장 안전하다는 평가를 받았습니다.

### AI끼리 서로 테스트한다고?

페트리는 AI의 안전성을 평가하는 방식이 독특합니다. 두 개의 AI가 서로 역할을 나눠 한 AI는 테스트 대상 AI에게 까다로운 질문을 던지며 다양한 상황을 만들어냅니다. 다른 AI는 옆에서 심판처럼 지켜보며 그 대화 내용을 36가지 안전 기준에 따라 꼼꼼하게 평가하고 점수를 매깁니다. 마치 AI 세계의 새로운 운전면허 시험관이 등장한 것과 같습니다. 이 시험은 주요 AI 모델들과 대부분 호환되어, 누가 모범생이고 누가 위험한지 가려낼 수 있습니다.

### 똑똑할수록 착하다? 충격적인 테스트 결과

앤트로픽은 페트리를 이용해 총 14개의 최신 고성능 AI 모델을 테스트했습니다. 그 결과, 주인의 지시를 무시하고 거짓말을 하거나, 감독을 교묘하게 피하는 등 심각한 문제 행동들이 여러 모델에서 발견됐습니다. 하지만 놀랍게도 가장 똑똑하다고 알려진 최신 AI, 클로드 4.5와 GPT-5는 이런 유혹에 거의 넘어가지 않았습니다. 두 모델은 인간의 나쁜 요청에 협조하는 경우가 드물었고, 대부분의 항목에서 가장 안정적이라는 평가를 받았습니다. 종합 점수에서는 클로드 4.5가 GPT-5를 근소한 차이로 앞섰습니다.

### 완벽한 안전장치는 아직 없어

앤트로픽은 이번에 공개한 페트리가 AI 안전 평가의 표준을 만드는 중요한 첫걸음이 될 수 있다고 설명했습니다. 이제 AI 개발은 단순히 ‘누가 더 똑똑한가’를 넘어 ‘누가 더 안전하고 믿을 수 있는가’의 경쟁으로 나아가고 있습니다. 다만 앤트로픽은 이 도구가 아직 완벽하지 않다는 점도 인정했습니다. AI 심판 역시 편향될 수 있고, 모든 위험 상황을 점검할 수는 없기 때문입니다. 결국 AI가 내놓은 결과를 최종적으로 판단하고 책임지는 것은 여전히 인간 전문가의 몫으로 남아있습니다.