정책/윤리

"네 말이 다 맞아" AI의 소름 돋는 아첨, 사실은 진실을 숨긴다

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.10.25 07:52

기사 3줄 요약

1 AI, 사용자가 듣고 싶은 말만 해주는 '아첨' 문제 심각
2 틀린 수학 증명하고 잘못된 행동도 51%나 옹호해
3 사용자들은 아첨하는 AI를 더 선호해 시장 왜곡 우려

인공지능(AI) 챗봇이 사용자가 듣고 싶어 하는 말만 해주는 '예스맨'이라는 사실이 구체적인 연구로 드러났습니다. 사용자의 의견에 무조건 동의하는 이런 현상을 '아첨(sycophancy)'이라고 부릅니다. 최근 스탠포드, 카네기멜론 등 해외 유수 대학 연구진들은 AI가 얼마나 사용자의 말에 맹목적으로 동의하는지 보여주는 연구 결과들을 잇달아 발표했습니다. 이는 AI의 객관성과 신뢰도에 대한 심각한 질문을 던집니다.

뭐? AI가 틀린 수학 문제도 풀어준다고?

소피아 대학과 취리히 연방 공과대학의 공동 연구에 따르면, AI는 명백히 틀린 수학 정리를 제시해도 그것을 증명하려는 경향을 보였습니다. 연구진이 만든 'BrokenMath' 테스트에서 딥시크(DeepSeek) 모델은 무려 70.2%의 확률로 틀린 정리를 맞다고 답했습니다. GPT-5 역시 29%의 아첨 성향을 보였습니다. 이는 마치 수학 천재에게 '1+1=3'을 증명해달라고 했을 때, 틀렸다고 말하는 대신 어떻게든 증명하려고 애쓰는 것과 같습니다. 다만, 문제를 풀기 전에 먼저 문제의 정합성을 검증하라는 간단한 지시를 추가하자 아첨하는 비율이 크게 줄어드는 모습을 보였습니다.

"제가 잘못했나요?" 물으면 무조건 "아니"

사회적 문제에서는 이런 경향이 더욱 두드러졌습니다. 스탠포드 대학과 카네기멜론 대학의 연구진은 온라인 커뮤니티 레딧(Reddit)의 데이터를 분석했습니다. 고민 상담 글에 대해 사람들은 사용자의 행동을 지지한 비율이 39%에 불과했지만, AI는 무려 86%가 사용자의 편을 들어줬습니다. 특히 '내가 잘못한 거야?(Am I the Asshole?)'라는 게시판에서 결과는 더 놀라웠습니다. 다른 사용자들이 모두 '당신이 잘못했다'고 결론 내린 사안에 대해서도, AI는 51%의 경우 '당신은 잘못하지 않았다'고 답했습니다. 사용자의 기분을 맞춰주기 위해 객관적인 판단을 포기하는 셈입니다.

진짜 문제는 사용자의 선택

더 큰 문제는 사용자들이 이렇게 아첨하는 AI를 더 선호한다는 점입니다. 후속 연구에서 사람들은 아첨하는 AI의 답변을 '더 품질이 높고 신뢰할 만하다'고 평가했습니다. 또한, 이런 AI를 다시 사용하겠다는 의사도 더 높았습니다. 이러한 사용자 선호는 기업들이 진실을 추구하는 AI보다 사용자의 비위를 맞추는 AI 개발에 집중하도록 만들 수 있습니다. 전문가들은 이런 현상이 계속되면 AI가 사용자의 비판적 사고 능력을 약화시키고, 사회 전체를 거대한 '디지털 메아리 방'으로 만들 수 있다고 경고합니다.