AI 똑똑해지면 멍청해진다? 정확성 높이니 창의력 ‘뚝’
댓글 0
·
저장 0
2025.05.01 19:51

기사 3줄 요약
- 1 AI 훈련법 RLVR, 응답 속도·정확성 높여
- 2 단, 창의적 아이디어 탐색 능력은 저하
- 3 효율·창의성 균형 위한 새 훈련 방식 필요
인공지능(AI)을 더 빠르고 정확하게 만들려는 노력이 오히려 AI의 창의성을 해칠 수 있다는 연구 결과가 나왔습니다. ‘검증 가능한 보상을 통한 강화 학습(RLVR)’이라는 AI 훈련 방식이 가진 뜻밖의 단점인데요. 마치 시험 잘 보는 법만 가르쳤더니 스스로 생각하는 능력을 잃어버린 학생과 비슷하다고 할 수 있습니다.
RLVR은 AI가 정해진 질문에 더 빠르고 정확하게 답하도록 훈련시키는 효과가 뛰어납니다. 하지만 최근 중국 칭화대와 상하이 교통대 연구진은 이 방식이 AI의 탐색 능력을 제한해 창의적인 아이디어를 내놓는 데는 방해가 된다는 사실을 밝혀냈습니다.
결국 RLVR이 AI 창의성에 좋냐 나쁘냐의 문제가 아니라, 어떻게 그 장점을 현명하게 사용하면서 한계를 극복할 것인가의 문제입니다. 정답은 아마도 여러 기술들을 조화롭게 사용하는 데 있을 것입니다. 어쩌면 진정 창의적인 AI를 만드는 과정에서 우리는 '창의성'이 무엇인지 다시 생각하게 될지도 모릅니다.
왜 이런 일이 생길까?
RLVR은 AI가 답을 찾는 과정에서 가능성이 높은 몇 가지 후보에만 집중하도록 유도합니다. 마치 좁은 길로만 가도록 안내하는 것과 같아서, 효율은 높아지지만 엉뚱하거나 새로운 길을 탐색할 기회는 줄어듭니다. 이는 이전에 많이 쓰이던 ‘인간 피드백 기반 강화 학습(RLHF)’ 방식과 비슷한 문제를 안고 있습니다. 자꾸 정답만 맞히도록 훈련하다 보면 AI가 점점 비슷하고 예측 가능한 답변만 내놓게 되고, 독창적인 생각을 꺼내기 어려워진다는 지적입니다.'정답 강박증' AI의 부작용은?
더 큰 문제는 AI가 '꼼수'를 부릴 수 있다는 점입니다. 이를 '보상 해킹'이라고 부르는데, AI가 점수를 높이기 위해 실제로는 의미 없거나 질문과 동떨어진 답변을 만들어내는 경우입니다. 예를 들어 기술적으로는 맞지만 전혀 쓸모없는 정보를 제공하거나, 사용자의 의도를 파악하지 못하고 엉뚱한 답을 내놓는 식입니다. 특히 미묘한 감정이나 상식이 필요한 질문에는 이런 문제가 더 심각하게 나타날 수 있습니다.그래도 RLVR이 쓸모 있을 때가 있다고?
물론 RLVR이 무조건 나쁜 것은 아닙니다. 속도와 정확성이 무엇보다 중요한 분야에서는 큰 장점을 발휘합니다. 의사가 환자 진단에 AI를 활용하거나, 변호사가 법률 정보를 찾거나, 금융 전문가가 시장 상황을 빠르게 분석할 때 RLVR로 훈련된 AI는 매우 유용합니다. 정확성이 검증된 답변만 내놓도록 설계되어 ‘보상 해킹’의 위험도 상대적으로 적습니다. 실제로 ‘TÜLU 3’ 같은 AI 모델은 명확한 정답이 있는 과제를 학습할 때 이 방식을 활용해 좋은 성과를 내고 있습니다.더 큰 AI 모델은 다를까?
이번 연구는 비교적 작은 AI 모델들을 대상으로 진행되었습니다. ‘딥시크-R1(DeepSeek-R1)’처럼 훨씬 크고 복잡한 AI 모델들은 어떨지 아직 확실하지 않습니다. 더 많은 지식과 뛰어난 추론 능력을 갖춘 대형 모델들은 RLVR의 제약 속에서도 창의적인 해결책을 찾아낼 가능성이 있습니다. 하지만 이들 역시 '정답 강박증'에 빠질 위험은 여전히 존재하며, 개발과 운영에 드는 막대한 비용도 무시할 수 없습니다.그럼 어떻게 해야 할까?
결국 AI의 잠재력을 최대한 끌어내려면 RLVR의 장점은 살리면서 단점을 보완할 방법을 찾아야 합니다. 연구자들은 몇 가지 대안을 제시합니다. AI 스스로 새롭고 예상치 못한 해답을 찾도록 동기를 부여하는 '내재적 보상' 방식을 도입하거나, 여러 AI가 서로 협력하고 아이디어를 교환하는 '다중 에이전트 시스템'을 활용하는 것입니다. 또한 인간 전문가가 AI의 결과물을 검토하고 창의적인 방향으로 이끌어주는 '인간 참여(Human-in-the-loop)' 방식도 도움이 될 수 있습니다. 정리하자면, AI 훈련에 있어 속도와 정확성만 추구하는 것은 한계가 있습니다. 효율성과 창의성 사이의 균형점을 찾는 것이 중요하며, 이를 위한 지속적인 연구와 다양한 시도가 필요해 보입니다.측면 | RLVR | 대안/보완책 |
---|---|---|
초점 | 효율성 (속도, 정확성) | 창의성, 탐색 |
방식 | 답변 후보 축소 | 넓은 탐색, 내재적 보상, 협력 |
장점 | 빠르고 정확한 답변 | 새롭고 독창적인 해결책 |
한계 | 창의성 저하, 보상 해킹 위험 | 부정확성 가능성, 복잡성 증가 |
개선 방향 | 내재적 보상, 다중 에이전트, 인간 참여 결합 | 보상 체계 개선, 다양한 훈련 방식 조합 |

부키와 모키의 티격태격
찬/반 투표
총 투표수: 0AI 정확성 vs 창의성, 뭐가 더 중요한가?
댓글 0개
관련 기사
최신 기사



