환영해🦉
기술/연구

“AI 멍청한 실수 끝?” 구글, 내부 강화학습 전격 공개

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.01.19 18:34
“AI 멍청한 실수 끝?” 구글, 내부 강화학습 전격 공개

기사 3줄 요약

  • 1 구글, AI 환각 잡는 내부 강화학습 공개
  • 2 메타컨트롤러로 AI 장기 계획 능력 향상
  • 3 기존 방식보다 복잡한 추론 문제 해결 탁월
인공지능(AI)이 엉뚱한 대답을 내놓는 '환각 현상'이나 복잡한 계획을 세우지 못해 쩔쩔매는 모습을 본 적이 있으신가요. 최근 구글이 이런 AI의 고질적인 문제를 해결할 수 있는 획기적인 기술을 공개해 화제가 되고 있습니다. 구글은 지난 16일, AI가 단순히 다음 단어를 예측하는 것을 넘어 인간처럼 '속으로 생각'하고 행동을 결정하는 '내부 강화 학습(Internal RL)' 기술을 발표했습니다.

AI에게 '나침반'을 쥐어주다

현재 우리가 쓰는 챗GPT 같은 대형언어모델(LLM)은 주로 다음에 올 단어를 하나하나 맞추는 방식으로 작동합니다. 하지만 이런 방식은 마치 발밑만 보고 걷는 것과 같아서, 목적지가 멀거나 길이 복잡하면 쉽게 길을 잃어버리곤 합니다. 구글이 공개한 논문에 따르면, 이를 해결하기 위해 '메타컨트롤러(Meta-controller)'라는 새로운 개념을 도입했다고 합니다. 메타컨트롤러는 AI 내부에서 작동하는 일종의 '나침반' 역할을 수행합니다. AI가 겉으로 말을 내뱉기 전에, 속으로 '이 방향이 맞아?'라고 끊임없이 확인하며 목표를 향해 올바르게 나아가도록 유도하는 것입니다. 놀라운 점은 사람이 일일이 정답을 알려주지 않아도, AI가 스스로 '어떤 생각이 정답으로 가는 지름길인지' 학습한다는 사실입니다.

100만 번 실패하던 문제도 해결

구글 연구진은 이 기술의 성능을 확인하기 위해 복잡한 미로 찾기와 로봇 팔 제어 실험을 진행했습니다. 기존의 최신 AI 학습 방식들은 100만 번을 시도해도 문제를 해결하지 못하는 경우가 많았습니다. 하지만 내부 강화 학습을 적용한 AI는 훨씬 적은 횟수의 시도만으로도 높은 성공률을 기록했습니다. 연구진의 실험 결과에 따르면, 기존 모델의 지식은 그대로 둔 채 오직 '생각하는 방식(메타컨트롤러)'만 훈련시켰을 때 가장 좋은 성과가 나왔다고 합니다. 이는 AI가 이미 알고 있는 지식을 억지로 바꾸려 하기보다, 그 지식을 잘 활용하는 '요령'을 터득하게 하는 것이 더 효율적이라는 것을 증명합니다.

로봇과 코딩의 미래가 바뀐다

이번 연구는 단순히 AI가 말을 더 잘하게 만드는 것에 그치지 않습니다. 내부 강화 학습은 장기적인 계획이 필요한 로봇 제어나 복잡한 프로그래밍 코드를 짜는 데에도 큰 변화를 가져올 전망입니다. 예를 들어, 로봇이 복잡한 지형을 통과하거나 개발자가 수천 줄의 코드를 작성해야 할 때, AI가 중간에 길을 잃지 않고 끝까지 임무를 완수할 수 있게 됩니다. 구글 연구진은 이 기술이 자율 에이전트와 실제 로봇 제어 분야로 확장될 수 있는 중요한 경로를 열었다고 평가했습니다. 앞으로는 겉으로는 침묵하지만 속으로는 치열하게 생각해서 완벽한 답을 내놓는 '신중한 AI'를 만나게 될지도 모릅니다.
편집자 프로필
편집: 이도윤 기자
이메일: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

AI가 속으로 생각하는 기술, 기대되나 두렵나?

댓글 0