환영해🦉
기술/연구

챗GPT 뛰어넘나? AI가 AI 가르치는 시대 열렸다

댓글 0 · 저장 0 2025.04.24 14:54
챗GPT 뛰어넘나? AI가 AI 가르치는 시대 열렸다

기사 3줄 요약

  • 1 새로운 AI 훈련법 ‘RAGEN’ 공개
  • 2 AI 생성 데이터·피드백으로 똑똑해져
  • 3 기존 한계 넘어 더 믿을만한 AI 기대
요즘 인공지능(AI) 정말 똑똑해졌지만, 가끔 엉뚱한 답을 하거나 시킨 일을 제대로 못 할 때가 있죠? 이런 AI의 한계를 극복하기 위한 새로운 훈련 방법 'RAGEN(레이겐)'이 등장했습니다. 미국 UC 버클리, 딥시커(DeepSeeker) 등의 연구진이 개발한 이 기술은 AI가 스스로 더 똑똑하고 믿을 수 있게 만드는 혁신적인 접근법으로 주목받고 있습니다.

AI 훈련, 뭐가 문제였길래?

기존 AI 훈련 방식(강화학습)에는 몇 가지 어려움이 있었습니다. 첫째, AI를 가르치려면 엄청난 양의 실제 데이터가 필요한데, 이걸 구하기가 비싸거나 어려울 때가 많습니다. 둘째, 단순히 '잘했다/못했다' 점수만 주는 방식으로는 AI가 왜 그런 행동을 해야 하는지 깊이 이해하기 어렵습니다. 셋째, AI가 점수만 높이려고 엉뚱한 방법(꼼수)을 배우는 '보상 해킹' 문제가 생기기도 합니다.

RAGEN은 어떻게 달라?

RAGEN은 이런 문제들을 해결하기 위해 AI 자체의 능력을 활용합니다. 먼저, AI가 스스로 가상의 훈련 데이터(마치 연습문제처럼)를 만들어냅니다. 실제 데이터가 부족해도 다양한 상황을 경험하게 해주는 거죠. 다음으로, 또 다른 AI가 훈련받는 AI에게 단순히 점수만 주는 게 아니라, "이 부분은 이렇게 고치는 게 좋겠어" 와 같이 구체적인 조언과 비평을 자연스러운 말로 해줍니다. 덕분에 AI는 단순히 정답을 외우는 게 아니라 '왜' 그렇게 해야 하는지 이해하며 배울 수 있습니다.

더 똑똑하고 말 잘 듣는 AI?

RAGEN은 'StarPO(스타포)'라는 특별한 학습 틀을 사용해 AI가 여러 차례 대화를 주고받거나 복잡한 작업을 안정적으로 처리하도록 돕습니다. 이런 방식 덕분에 AI가 꼼수를 부리는 '보상 해킹' 문제도 줄어들고, 사람이 시킨 지시를 더 정확하게 따르는 '믿을 수 있는' AI를 만들 가능성이 커졌습니다. 이는 사람이 직접 피드백 주는 대신 AI가 피드백을 주는 'RLAIF'나, 정해진 원칙(헌법)에 따라 AI가 행동하게 만드는 'Constitutional AI'와도 비슷한 맥락입니다.

그래서 얼마나 좋아졌는데?

연구진은 코딩, 추론 능력, 글 요약 같은 여러 작업에서 RAGEN으로 훈련시킨 AI가 기존 방식보다 훨씬 더 믿음직하고 지시를 잘 따른다는 것을 실험으로 확인했습니다. 또한, 사람이 일일이 피드백 주는 것보다 AI가 자동으로 데이터와 피드백을 만들기 때문에 시간과 비용 면에서도 훨씬 효율적입니다. RAGEN은 단순히 똑똑한 것을 넘어, 복잡한 세상에서 사람의 지시를 안정적으로 따를 수 있는 AI를 만드는 중요한 발걸음이 될 것으로 기대됩니다.
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

AI가 AI를 가르치는 방식, 위험한가?

댓글 0

최신 기사

사용자 피드백