“AI에게 일부러 틀린 답 줬더니 성능 24% 올랐다?“
댓글 1
·
저장 0
·
편집: 이도윤 기자
발행: 2025.06.01 21:10

기사 3줄 요약
- 1 AI, 오답 보상으로도 성능 향상 연구 결과
- 2 특정 모델, 틀린 답에도 24.6% 정확도 상승
- 3 정답 없는 학습 가능성, 모든 모델 적용은 미지수
AI가 똑똑해지려면 정답만 먹여야 할까요? 최근 한 연구는 이 생각에 ‘땡!’ 하고 틀린 답을 제시했습니다. 심지어 틀린 정보를 줘도 인공지능(AI)의 문제 해결 능력이 좋아질 수 있다는 놀라운 결과가 나왔습니다.
워싱턴대학교와 앨런 인공지능연구소(AI2), UC 버클리 연구진이 최근 발표한 논문에 따르면, ‘검증 가능한 보상 기반 강화학습(RLVR)’이라는 방법을 사용하면 AI가 정답이 아닌 피드백으로도 학습할 수 있다고 합니다. 이는 AI 학습 방식에 새로운 가능성을 열어주는 중요한 발견입니다.
정말 오답으로도 똑똑해진다고?
연구팀은 수학 문제 풀이에 특화된 AI 모델인 '큐원2.5-매스(Qwen2.5-Math)'를 대상으로 실험을 진행했습니다. 연구진은 정답을 맞혔을 때 보상을 주는 일반적인 방식 외에, 일부러 틀린 답에 보상을 주거나 무작위로 보상을 주는 등 다양한 조건을 설정했습니다. 그 결과, 놀랍게도 틀린 답에 보상을 준 경우에도 AI의 수학 문제 해결 정확도가 24.6%나 향상되었습니다. 정답을 기준으로 보상을 줬을 때는 정확도가 28.8% 올랐고, 무작위 보상은 21.4%, 여러 답 중 다수가 선택한 답을 따르는 보상은 26.5%의 성능 향상을 보였습니다. 심지어 답안을 특정 형식으로만 써도 16.4%나 똑똑해졌습니다. 이는 AI가 꼭 완벽한 정답이 아니더라도, 일정한 기준이나 패턴을 통해 학습할 수 있다는 것을 보여줍니다.모든 AI에 통하는 만능키는 아니라고?
하지만 이 놀라운 결과가 모든 AI 모델에 적용되는 것은 아니었습니다. 연구팀이 같은 실험을 메타의 '라마 3'나 '올모 2' 같은 다른 AI 모델에 적용했을 때는 오히려 성능이 최대 8.5%까지 떨어지는 현상이 나타났습니다. 이것은 RLVR 방식이 특정 구조를 가진 AI 모델, 예를 들면 큐원 모델에 더 효과적일 수 있음을 의미합니다. 따라서 이 학습법을 모든 AI에 무작정 적용하기보다는, 각 AI 모델의 특성을 고려하는 것이 중요해 보입니다. 왜 어떤 모델에는 효과가 있고, 어떤 모델에는 역효과가 나는지에 대한 추가적인 연구가 필요합니다. AI마다 잘 맞는 공부 방법이 따로 있는 셈입니다.큐원 모델만의 특별한 비결이 있었나?
연구진은 큐원 모델이 다른 모델과 달리 수학 문제를 풀 때 마치 컴퓨터 프로그래밍 코드처럼 단계별로 풀이 과정을 정리하는 경향을 보였다고 밝혔습니다. 이런 ‘코드 추론’ 방식으로 답을 찾았을 때, 그냥 답만 맞힌 경우(정확도 29%)보다 훨씬 높은 정확도(64%)를 보였습니다. 신기한 점은, 제대로 된 보상을 받든 아니든 이런 코드 추론 방식이 점점 더 자주 나타났다는 것입니다. 연구팀은 이것이 AI가 훈련 과정에서 새로운 능력을 배웠다기보다는, 이미 가지고 있던 잠재적인 능력이 특정 학습 신호(심지어 오답 보상)를 통해 발현된 것일 수 있다고 분석했습니다. 즉, 큐원 모델은 이미 똑똑해질 준비가 되어 있었고, RLVR 방식이 그 스위치를 켠 셈입니다. 어쩌면 정답을 찾는 과정 자체가 중요한 학습 자극이 된 것일 수도 있습니다.그럼 이제 AI 공부는 어떻게 시켜야 할까?
이번 연구는 AI를 훈련시킬 때 꼭 완벽하게 정제된 정답 데이터만 필요하지 않을 수 있다는 가능성을 보여줍니다. 사람의 손길이 많이 필요한 데이터 라벨링 작업의 부담을 줄일 수 있다는 점에서 의미가 큽니다. 하지만 아직은 초기 단계의 연구이며, 어떤 조건에서 이런 현상이 나타나는지, 다른 분야 문제에도 적용될 수 있는지 등 추가 연구가 필요합니다. 결국, AI가 스스로 학습하고 발전하는 길은 우리가 생각하는 것보다 더 다양할 수 있습니다. 정답만을 강요하기보다, AI가 가진 잠재력을 최대한 끌어낼 수 있는 다양한 학습 환경을 고민해볼 때입니다. 이번 연구가 그 중요한 첫걸음이 될 수 있을 것입니다.
편집자:
이도윤 기자
제보·문의:
aipick@aipick.kr

부키와 모키의 티격태격
찬/반 투표
총 투표수: 1AI 학습에 오답 활용, 효과적일까?
효과적
0%
0명이 투표했어요
비효과적
0%
0명이 투표했어요
관련 기사
최신 기사




오..모르겠는데 ㅋㅋ