GPT-4마저 흔들? MS, AI 추론 능력 '시소 현상' 발견
댓글 0
·
저장 0
·
편집: 이도윤 기자
발행: 2025.04.16 10:20

기사 3줄 요약
- 1 MS 연구, AI 토큰 늘려도 추론 능력 저하 가능성 경고
- 2 정답/오답 오가는 '시소 현상', CoT 추론 불안정 확인
- 3 AI 발전, 모델 크기 외 표현 공학 등 새 접근법 요구
AI, 똑똑해지기만 하는 줄 알았는데 아니라고?
인공지능(AI), 특히 챗GPT와 같은 대규모 언어 모델(LLM)이 세상을 바꾸고 있습니다. 우리는 AI가 더 많은 데이터를 학습할수록 더 똑똑해질 것이라고 막연히 기대해왔습니다. 하지만 최근 마이크로소프트 리서치의 연구 결과는 이러한 통념에 찬물을 끼얹고 있습니다. 단순히 데이터 양, 즉 토큰 수를 늘리는 것만으로는 AI의 추론 능력이 향상되지 않으며, 오히려 성능이 떨어질 수도 있다는 충격적인 사실이 밝혀졌습니다.데이터가 많으면 무조건 좋은 거 아냐? '시소 현상'이 뭐길래?
이번 연구는 AI의 추론 능력에 대한 몇 가지 불편한 진실을 드러냈습니다. 가장 주목할 만한 것은 '시소 현상(Seesaw Phenomenon)'입니다. 이는 AI가 같은 질문이나 문제에 대해서도 한번은 정답을 내놓았다가 다음번에는 오답을 내놓는 등, 마치 시소처럼 일관성 없이 오락가락하는 불안정한 모습을 보이는 것을 말합니다. 연구진은 토큰 수를 늘렸을 때 이 현상이 더 심해질 수 있다고 지적합니다. 즉, AI에게 더 많은 정보를 준다고 해서 항상 더 정확하고 논리적인 답변을 기대할 수는 없다는 의미입니다. 이 '시소 현상'은 AI가 아직 인간처럼 안정적인 추론 능력을 갖추지 못했음을 보여주는 단적인 예입니다. 마이크로소프트 리서치는 이 문제가 앞으로 AI가 인간 수준의 범용 인공지능(AGI)으로 발전하는 데 큰 걸림돌이 될 수 있다고 경고합니다.단계별로 생각하면 정확할 줄 알았더니… CoT도 믿을 수 없다고?
또 다른 문제는 '사고의 연쇄(Chain-of-Thought, CoT)' 방식의 불안정성입니다. CoT는 AI가 마치 사람이 문제를 풀 듯 단계별로 생각하는 과정을 보여주며 답을 찾아가는 방식입니다. 더 복잡하고 긴 추론 과정을 거치면 더 정확한 답을 낼 것이라고 기대했지만, 연구 결과는 달랐습니다. 추론 과정이 길어진다고 해서 반드시 더 정확한 결론에 도달하는 것은 아니었으며, 오히려 중간에 오류가 발생할 가능성도 커졌습니다. 놀라운 점은 이러한 문제들이 특정 모델에 국한된 것이 아니라는 사실입니다. 현재 가장 발전된 모델 중 하나로 평가받는 GPT-4 역시 이러한 추론의 불안정성에서 자유롭지 못했습니다. 이는 단순히 모델의 크기나 학습 데이터 양의 문제가 아니라, AI의 근본적인 구조나 작동 방식에 해결해야 할 과제가 남아있음을 시사합니다.능력 범주 | 벤치마크 | 설정 | GPT-3 | GPT-3.5 | GPT-4 |
---|---|---|---|---|---|
지식 | 질문 답변 | Natural Questions | 17.8 | 39.6 | 48.4 |
추론 | 상식 추론 | LAMBADA | 53.6 | 67.8 | 78.6 |
수학 | 수학적 추론 | GSM8K | 12.1 | 78.2 | 92.1 |
코딩 | 코딩 문제 | HumanEval | 0.0 | 53.9 | 66.3 |
그래서 해결책은 있는 거야? AI는 어떻게 발전해야 할까?
마이크로소프트 연구는 문제점만 지적하는 데 그치지 않고 몇 가지 해결 방향도 제시했습니다. 첫째는 '표현 공학(Representation Engineering)'입니다. 이는 AI 모델 내부의 작동 방식을 미세하게 조정하여, 마치 AI의 '생각 회로'를 더 논리적으로 다듬는 것과 같습니다. 추가적인 학습 없이도 추론 과정에서 특정 제어 신호를 보내 AI의 내부 표현 공간을 조절함으로써 성능을 개선할 수 있습니다. 둘째는 '전문가 혼합(Mixture of Experts, MoE)' 방식입니다. 하나의 거대한 AI 모델에 모든 것을 의존하는 대신, 특정 작업에 특화된 여러 '전문가' AI 모델들을 두고 필요에 따라 협력하게 만드는 방식입니다. 예를 들어 수학 문제 전문 AI, 글쓰기 전문 AI 등이 각자의 영역에서 더 정확하고 일관된 성능을 발휘하도록 하는 것입니다. 연구진은 각 작업별로 별도의 전문가를 두면서도 공통 전문가를 유지하거나, 밀집된 전문가와 희소한 전문가 활성화를 결합하는 방식 등을 제안합니다. 이번 마이크로소프트의 연구는 AI 업계에 중요한 메시지를 던집니다. 단순히 모델의 크기를 키우고 더 많은 데이터를 학습시키는 것만으로는 진정한 의미의 AI 발전을 이루기 어렵다는 것입니다. 이제는 AI가 더 안정적이고 신뢰할 수 있는 추론 능력을 갖추도록, 모델의 내부 작동 방식과 구조에 대한 더 깊은 고민과 연구가 필요한 시점입니다. AI의 미래는 이러한 근본적인 문제들을 어떻게 해결하느냐에 달려있다고 해도 과언이 아닐 것입니다.
편집자:
이도윤 기자
제보·문의:
aipick@aipick.kr

부키와 모키의 티격태격
찬/반 투표
총 투표수: 0AI 데이터 양 늘리면 더 똑똑해질까?
그렇다
0%
0명이 투표했어요
아니다
0%
0명이 투표했어요
댓글 0개
관련 기사
최신 기사



