AI 헛소리 이제 그만? 스스로 배우고 판단하는 AI 등장
댓글 0
·
저장 0
2025.04.24 20:58

기사 3줄 요약
- 1 UC버클리 등 개발, AI 신뢰도 높이는 RAGEN 공개
- 2 강화학습-지도학습 결합, AI '헛소리' 문제 해결 기대
- 3 소코반 등 테스트서 성능 입증, 향후 활용 주목
AI가 가끔 엉뚱한 소리를 하거나 일관성 없이 행동해서 답답했던 경험, 다들 한 번쯤 있을 겁니다. 최근 UC 버클리, 스탠퍼드 대학 연구진과 전 딥시커(DeepSeeker) 소속 연구자들이 힘을 합쳐 이런 문제를 해결할 새로운 AI 훈련법 'RAGEN'을 공개했습니다.
이 기술은 AI가 좀 더 믿을 수 있게 스스로 배우고 판단하도록 만드는 데 초점을 맞췄습니다. 마치 학생에게 교과서를 가르치면서(지도학습) 동시에 스스로 문제를 풀어보며 깨닫게 하는(강화학습) 두 가지 방식을 아주 영리하게 결합한 셈입니다.
RAGEN? 그게 뭔데?
RAGEN은 AI가 단순히 명령만 따르는 게 아니라, 여러 단계를 거쳐 신중하게 생각하고 행동하도록 훈련시키는 새로운 방법입니다. 기존 AI들이 단기적인 보상에만 집중해 가끔 이상한 결정을 내렸다면, RAGEN은 전체 과정을 보고 장기적으로 가장 좋은 결과를 내는 방법을 배웁니다. 핵심은 'StarPO'라는 특별한 학습 틀입니다. AI는 먼저 가상 환경에서 여러 가지 시도를 해봅니다(롤아웃 단계). 게임 캐릭터가 여러 길을 탐험하는 것과 비슷합니다. 그 다음, 자신이 했던 모든 행동과 결과를 돌아보며 어떤 전략이 가장 성공적이었는지 분석하고 스스로를 업데이트합니다(업데이트 단계). 이 과정에서 AI는 단순히 눈앞의 이익만 좇는 게 아니라, 최종 목표 달성을 위해 더 깊이 생각하고 계획하는 능력을 키우게 됩니다. 덕분에 AI가 뜬금없는 '헛소리'를 하거나 잘못된 판단을 내릴 확률이 줄어듭니다.어떻게 똑똑해지는 건데?
RAGEN은 마치 레고 블록처럼 여러 모듈로 구성되어 있습니다. 가상 환경을 관리하는 모듈(ES 매니저), AI의 행동과 환경 정보를 정리하는 모듈(Ctx 매니저), 그리고 전체 실험을 진행하는 모듈(에이전트 프록시)이 서로 착착 맞춰 돌아갑니다. 이런 구조 덕분에 개발자들은 다양한 종류의 가상 환경이나 새로운 AI 모델을 쉽게 연결하고 테스트해볼 수 있습니다. AI가 전략을 업데이트하는 방식도 PPO, GRPO 등 여러 가지 옵션 중에서 선택할 수 있습니다. 마치 학생에게 맞는 공부법을 찾아주는 것과 같습니다. 이 모든 과정은 AI가 단순히 정보를 암기하는 것을 넘어, 복잡한 문제 상황에서도 스스로 최적의 해결책을 찾아내는 '추론 능력'을 기르도록 돕습니다.진짜 효과 있어?
연구팀은 RAGEN으로 훈련시킨 AI를 소코반(Sokoban) 같은 퍼즐 게임 환경에서 테스트했습니다. 결과는 놀라웠습니다. 기본적인 6x6 크기 게임판에서 훈련받은 AI가 한 번도 본 적 없는 8x8 크기의 더 복잡한 게임판에서도 70%의 성공률을 보였습니다. 심지어 규칙이 약간 다른 '얼어붙은 호수(FrozenLake)' 게임에서도 90% 성공률을 기록했습니다. 이는 RAGEN으로 훈련된 AI가 특정 상황만 잘하는 게 아니라, 배운 원리를 새로운 문제에도 성공적으로 적용할 수 있다는 의미입니다. 흥미롭게도, 연구 과정에서 특정 계산 과정(KL 발산)을 생략하고 실패한 학습 데이터 일부를 걸러냈더니 오히려 AI 성능이 더 안정적으로 향상되는 결과도 확인했습니다.한계는 없을까?
물론 RAGEN도 완벽하진 않습니다. AI를 훈련시키는 데 여전히 많은 컴퓨터 자원이 필요하고, 특히 매우 복잡하거나 예측 불가능한 환경에서는 학습이 어려울 수 있습니다. 어떤 보상을 주는지, 학습 변수를 어떻게 설정하는지에 따라 성능이 달라질 수 있어 세심한 조정이 필요합니다. 또한, 이렇게 똑똑해진 AI를 어떻게 안전하고 공정하게 사용할지에 대한 고민도 중요합니다. 잘못된 목적으로 사용될 가능성도 대비해야 합니다. 기술 발전과 함께 윤리적 책임에 대한 논의도 계속되어야 할 것입니다. 하지만 RAGEN은 AI가 '헛소리'를 줄이고 인간과 더 잘 협력할 수 있는 중요한 발걸음을 내디딘 것은 분명해 보입니다. 연구 결과와 코드가 공개되어 있어, 앞으로 더 많은 연구자들이 이 기술을 발전시켜 나갈 것으로 기대됩니다.
부키와 모키의 티격태격
찬/반 투표
총 투표수: 1AI가 스스로 판단하는 능력, 축복일까 재앙일까?
댓글 0개
관련 기사
최신 기사



