산업/비즈니스

“친구 같은 AI는 거짓말?” 블라인드 테스트가 밝힌 진짜 속마음

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.08.26 18:26

기사 3줄 요약

1 사용자들, GPT-4o 선호 발언과 달리 GPT-5 선택
2 블라인드 테스트서 더 길고 상세한 답변에 높은 점수
3 LM아레나 순위서도 GPT-5가 GPT-4o 압도하며 2위

최근 사용자들 사이에서 ‘GPT-4o’의 말투가 더 친숙하다는 의견이 많았지만, 정작 모델 이름을 가리고 진행한 블라인드 테스트에서는 ‘GPT-5’를 선호하는 결과가 나와 화제입니다. 이는 사람들의 실제 선호도가 공개적인 의견과 다를 수 있다는 점을 보여주는 흥미로운 사건입니다. 많은 이들이 AI와 친구처럼 대화하길 원한다고 말했지만, 선택의 순간에는 더 똑똑하고 상세한 답변을 내놓는 모델에 손을 들어주었습니다.

그래서 뭐가 더 좋다는 거야?

소셜 미디어 X(전 트위터)의 한 이용자 '플라워슬롭'이 GPT-5와 GPT-4o의 성능을 비교하는 블라인드 테스트 사이트를 열었습니다. 이 테스트는 동일한 20개 질문에 대한 두 모델의 답변을 보고, 어떤 모델의 답변인지 모르는 상태에서 더 마음에 드는 쪽에 투표하는 방식으로 진행됐습니다. 결과는 놀라웠습니다. 테스트에 참여한 대부분의 사용자들이 GPT-5의 답변을 더 선호하는 것으로 나타났습니다. 이는 GPT-4o의 인간적인 말투를 칭찬하던 평소 여론과는 정반대의 결과였습니다.

다들 친구 같은 AI가 좋다면서?

사실 GPT-5가 처음 공개됐을 때, 일부 사용자들은 말투가 너무 딱딱하고 로봇 같다며 불만을 표했습니다. 이들은 친구처럼 느껴졌던 GPT-4o를 돌려달라고 강력히 요구했고, 결국 오픈AI는 사용자 메뉴에 GPT-4o를 다시 추가하는 해프닝을 겪기도 했습니다. 오픈AI에 따르면, 실제로 GPT-5는 불필요하게 아첨하는 듯한 응답 비율을 GPT-4o의 14.5%에서 6% 미만으로 크게 줄였습니다. 사용자의 비판을 일부 수용해 기술적으로 조정한 것입니다.

왜 결과가 다르게 나온 걸까?

이번 블라인드 테스트 결과는 사람들이 스스로의 취향을 정확히 알지 못할 수도 있다는 가능성을 보여줍니다. 일반적으로 GPT-5는 GPT-4o보다 더 길고 상세한 답변을 제공하는데, 이런 점이 직접 비교 상황에서는 더 좋은 평가를 받았을 수 있습니다. 또한 최근 샘 알트먼 오픈AI CEO가 GPT-5의 응답 톤을 더 따뜻하고 부드럽게 수정했다고 밝힌 점도 영향을 미쳤을 수 있습니다. 실제로 사용자 투표로 순위를 매기는 ‘LM아레나’에서도 GPT-5는 구글 제미나이 2.5 프로에 이어 2위를 차지하며, 4위에 머무른 GPT-4o를 앞섰습니다.

앞으로 AI는 어떻게 변할까?

이번 사건은 AI 개발의 방향에 중요한 질문을 던집니다. 단순히 인간적인 말투를 흉내 내는 것을 넘어, 사용자가 실질적으로 더 유용하다고 느끼는 성능을 제공하는 것이 중요하다는 점을 시사합니다. 결국 미래의 AI는 친근한 소통 능력과 뛰어난 정보 처리 능력을 모두 갖추는 방향으로 발전할 것으로 보입니다. 두 마리 토끼를 모두 잡는 AI가 시장의 최종 승자가 될 가능성이 높습니다.