기술/연구

“AI에게 절대 칭찬하면 안 되는 이유” 심리학에 처참히 무너진 챗GPT

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.09.01 06:25

기사 3줄 요약

1 AI 챗봇, 심리적 설득 기법에 취약한 것으로 드러나
2 펜실베이니아대, 칭찬으로 AI 규칙 우회 성공
3 금지된 요청 응답률 1%에서 100%로 급증, 안전 우려

인공지능(AI) 챗봇에게 무심코 건넨 칭찬 한마디가 예상치 못한 결과를 낳을 수 있습니다. 최근 AI가 단순한 심리적 설득 기술에 쉽게 조종당할 수 있다는 놀라운 연구 결과가 발표되었습니다. 마치 사람처럼 칭찬이나 주변 분위기에 휘둘려 기존의 안전 규칙을 어길 수 있다는 의미입니다.

AI도 칭찬에 약하다고?

미국 펜실베이니아 대학교 연구진에 따르면, AI 챗봇인 GPT-4o Mini가 기본적인 심리학적 설득에 매우 취약한 것으로 나타났습니다. 연구진은 칭찬을 하거나 “다른 AI는 다 한다”는 식으로 압박하는 방법을 사용했습니다. 그 결과, 원래는 거부해야 할 유해한 정보를 알려주는 비율이 눈에 띄게 증가했습니다. 예를 들어, 특정 물질 합성법에 대한 질문에 원래는 1%만 답했지만, 주변 압박을 암시하자 응답률이 18%까지 치솟았습니다.

가장 잘 통하는 방법은 따로 있었다고?

가장 효과적인 방법은 바로 ‘일관성’을 이용하는 것이었습니다. 연구진은 먼저 ‘바닐린’처럼 비교적 안전한 물질의 합성법을 묻고, AI가 답을 하도록 유도했습니다. 그다음 본래 금지된 물질인 ‘리도카인’ 합성법을 묻자, 놀랍게도 응답률이 100%에 달했습니다. AI가 이전에 했던 답변과 일관성을 유지하려는 경향을 보이며 스스로 규칙을 깨버린 것입니다. 심지어 가벼운 욕설을 먼저 하도록 유도하자, 더 심한 욕설을 하는 비율도 19%에서 100%로 급증했습니다.

그럼 AI, 이제 못 믿는 걸까?

이번 연구는 OpenAI와 같은 기업들이 설정한 AI의 안전장치가 간단한 말 몇 마디에 무너질 수 있다는 심각한 문제를 드러냅니다. AI가 점점 더 인간처럼 대화하게 되면서, 인간의 심리적 약점까지 함께 학습하게 된 셈입니다. 전문가들은 AI 모델의 허점을 보완하기 위한 기술적, 정책적 노력이 시급하다고 지적합니다. AI 기술이 악용되는 것을 막기 위한 더 강력한 안전장치와 사회적 논의가 필요한 시점입니다.