AI 스스로 똑똑해진다? 최신 연구 "그건 아니었다"
댓글 0
·
저장 0
2025.05.02 03:59

기사 3줄 요약
- 1 AI 강화 학습 RLVR, 창의력 향상 효과 없어
- 2 기존 지식 효율적 검색만 도울 뿐, 새 능력 생성 못 해
- 3 칭화대 등 연구진, RLVR 통한 AI 자가 발전 능력 반박
인공지능(AI)이 스스로 학습하며 계속 똑똑해질 수 있다는 기대감이 컸습니다. 특히 '검증 가능한 보상을 통한 강화학습(RLVR)'이라는 기술이 주목받았죠. 그런데 최근 중국 칭화대와 상하이교통대 연구진이 RLVR에 대한 흥미로운 연구 결과를 내놓았습니다. AI가 스스로 새로운 능력을 키우는 게 아니라는 내용입니다.
* Pass@1은 한 번 시도해서 정답 맞힐 확률, Pass@256은 256번 시도해서 정답 맞힐 확률을 의미합니다. RLVR 기법들이 기본 모델보다 Pass@1은 높지만, 여러 번 시도했을 때(Pass@256)의 성능 향상은 크지 않거나 오히려 떨어지는 경우도 있습니다.
RLVR, 그게 뭔데?
RLVR은 거대 언어 모델(LLM) 같은 AI를 더 똑똑하게 만드는 훈련 방법 중 하나입니다. AI가 정답을 맞히거나 목표에 맞는 행동을 하면 '보상'을 줘서 더 잘하게 만드는 원리죠. 마치 게임 캐릭터가 퀘스트를 깨면 보상을 받는 것과 비슷합니다. 사람들은 이 방법으로 AI가 점점 더 어려운 문제도 풀고, 새로운 아이디어도 내놓을 거라고 기대했습니다.그래서 뭐가 문제라는 거야?
연구진은 RLVR로 훈련시킨 AI가 실제로는 새로운 추론 능력을 얻는 게 아니라고 밝혔습니다. 단지 AI가 원래 가지고 있던 지식 중에서 정답을 더 빠르고 효율적으로 찾아내는 능력이 좋아질 뿐이라는 겁니다. 예를 들어, 학생이 교과서 내용을 완벽히 외워서 시험 문제를 빨리 푸는 것과 비슷합니다. 하지만 교과서 밖의 새로운 문제를 창의적으로 푸는 능력과는 다르다는 거죠. 연구진은 RLVR로 만들어진 모든 답변 경로가 이미 원래 AI 모델 안에 존재했던 것들이라고 강조했습니다.그럼 쓸모없는 기술인가?
그렇다고 RLVR이 쓸모없다는 뜻은 아닙니다. AI에게 빠르고 정확한 답을 바로바로 원할 때는 여전히 유용합니다. 예를 들어, 고객 서비스 챗봇이 흔한 질문에 신속하고 정확하게 답변해야 할 때 RLVR로 훈련된 AI는 큰 도움이 될 수 있습니다. 특정 작업에 맞춰 AI 성능을 최적화하는 데는 효과적인 셈입니다.한계점과 다른 방법은 없을까?
이번 연구는 비교적 작은 AI 모델들을 대상으로 진행됐다는 한계가 있습니다. 더 크고 복잡한 모델에서는 다른 결과가 나올 수도 있습니다. 또한 AI의 추론과 창의력을 높이기 위한 다른 방법들도 있습니다. 사람의 피드백을 활용하는 RLHF나, 더 뛰어난 모델의 지식을 작은 모델에 옮기는 '지식 증류', 신경망과 기호 추론을 결합하는 '신경-기호 방법' 등이 연구되고 있습니다. 결론적으로 RLVR은 AI의 효율성을 높이는 도구지만, AI가 스스로 생각하고 창조하는 능력을 키워주는 만능 열쇠는 아니라는 점이 밝혀졌습니다. 진짜 사람처럼 생각하는 AI를 만들려면, 단순히 기존 지식을 잘 찾는 것을 넘어 새로운 접근법이 필요하다는 것을 시사합니다.모델 | Omni-MATH-Train Pass@1 | Omni-MATH-Train Pass@256 | Omni-MATH-Test Pass@1 | Omni-MATH-Test Pass@256 | MATH500 Pass@1 | MATH500 Pass@256 |
---|---|---|---|---|---|---|
Qwen2.5-7B (기본) | 9.9 | 67.2 | 10.2 | 69.1 | 34.5 | 96.2 |
RLOO (RLVR 기법 중 하나) | 28.6 | 66.4 | 28.1 | 69.2 | 75.0 | 97.4 |
DAPO (RLVR 기법 중 하나) | 31.4 | 66.1 | 26.5 | 67.0 | 75.6 | 96.4 |

부키와 모키의 티격태격
찬/반 투표
총 투표수: 0AI가 스스로 진짜 똑똑해질 수 있을까?
댓글 0개
관련 기사
최신 기사



