기술/연구

“AI, 그동안 다들 잘못 가르쳤다?” 지능 폭발 일으킨 진짜 비결은 이것

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.07.08 04:45

기사 3줄 요약

1 2024년 AI 능력 폭발적 성장, 이전과 완전히 다른 모습
2 단순 모방 학습 버리고 ‘강화학습’으로 훈련 방식 대전환
3 AI 스스로 실수하며 배워, 복잡한 문제 해결 능력 갖춰

2023년 초만 해도 인공지능(AI)에게 복잡한 일을 시키는 건 웃기는 소리였습니다. GPT-4를 이용한 ‘오토GPT’ 같은 자율 에이전트는 야심 차게 등장했지만, 금세 방향을 잃고 엉뚱한 결과만 내놓기 일쑤였습니다. 하지만 불과 1년 만에 상황은 180도 달라졌습니다. 2024년, AI는 스스로 코드를 짜서 앱을 만들고, 사람처럼 컴퓨터를 조작하며, 깊이 있는 자료 조사를 수행합니다. 이 엄청난 능력의 폭발적인 성장은 단순히 AI 모델이 좋아졌기 때문만이 아닙니다. 진짜 비밀은 AI를 가르치는 ‘훈련 방식’의 근본적인 대전환에 있었습니다. 바로 앵무새처럼 따라만 하던 ‘모방 학습’에서 스스로 시행착오를 겪으며 배우는 ‘강화 학습’으로의 진화입니다.

그냥 따라만 하니, 자꾸 길을 잃잖아?

과거 AI의 주요 훈련법은 ‘모방 학습’이었습니다. 사람이 쓴 글이나 코드를 엄청나게 보여주고 그대로 따라 하게 만드는 방식입니다. 마치 우리가 운전을 배울 때, 옆자리에서 베테랑 운전자가 하는 걸 눈으로만 보는 것과 같습니다. 이 방법은 그럴듯해 보이지만 치명적인 약점이 있었습니다. 바로 ‘복합 오류’입니다. 운전 중 아주 살짝 실수를 하면, 한 번도 가보지 않은 낯선 길로 들어서게 됩니다. 모방만 하던 AI는 이런 낯선 상황에서 어떻게 대처할지 몰라 더 큰 실수를 저지르고, 결국 완전히 길을 잃고 맙니다. 2023년의 오토GPT가 제대로 작동하지 않았던 이유가 바로 이것입니다.

실수해도 괜찮아, AI는 원래 그렇게 크는 거야

이 문제를 해결하기 위해 등장한 것이 바로 ‘강화학습’입니다. 이는 AI가 직접 운전대를 잡고 실수를 하도록 내버려 두는 것과 같습니다. AI가 실수를 하면, “그쪽은 아니야, 핸들을 이쪽으로 돌려”라고 피드백을 줍니다. AI는 이런 수많은 실수와 피드백을 경험하며 어떤 행동이 좋은 결과로 이어지는지 스스로 터득합니다. 이 과정을 거친 AI는 낯선 상황을 만나도 당황하지 않고 문제를 해결하는 ‘일반화된 지능’을 갖게 됩니다. 최근에는 한 단계 더 나아가, AI가 다른 AI의 결과물을 평가하고 가르치는 ‘RLHF’나, 특정 원칙(헌법)에 따라 행동하도록 훈련하는 ‘Constitutional AI’ 같은 정교한 기법까지 등장했습니다.

이제 진짜 ‘생각하는’ AI가 온다고?

강화학습은 AI에게 또 다른 놀라운 능력을 선물했습니다. 바로 복잡한 문제를 여러 단계로 나눠 차근차근 생각하는 ‘사고 연쇄(Chain-of-Thought)’ 능력입니다. 단순히 답만 내놓는 게 아니라, 정답에 이르는 논리적인 과정을 스스로 만들어내는 것입니다. 중국의 딥시크(DeepSeek) AI는 훈련 과정에서 누구도 가르쳐주지 않았는데도 “잠깐, 다시 생각해 보자”라며 자신의 결론을 의심하고 수정하는 행동을 스스로 터득했습니다. 강화학습이 AI를 단순히 흉내 내는 기계에서, 스스로 생각하고 문제를 해결하는 ‘에이전트’로 진화시킨 것입니다. 이 혁신적인 훈련 방식의 변화가 바로 오늘날 우리가 목격하는 AI 능력 폭발의 진짜 엔진입니다.

편집자: 이도윤 기자

제보·문의: aipick@aipick.kr