“알파고는 이렇게 이겼다” AI를 훈련시키는 ‘당근과 채찍’의 비밀
댓글 0
·
저장 0
·
편집: 이도윤 기자
발행: 2025.07.09 14:17

기사 3줄 요약
- 1 AI, 정답 없이 ‘당근과 채찍’ 방식으로 스스로 학습
- 2 동물 훈련 심리학에서 출발, 70년 전 튜링이 개념 제시
- 3 알파고 승리의 핵심 기술로 로봇, 자율주행 등에 활용
세기의 대결로 불렸던 이세돌 9단과 알파고의 바둑 시합을 기억하시나요. 당시 모두의 예상을 깨고 알파고가 승리할 수 있었던 배경에는 ‘강화학습’이라는 인공지능(AI) 훈련 방식이 있었습니다.
강화학습은 정답을 직접 가르쳐주지 않고, AI가 특정 행동을 했을 때 보상(상)이나 벌을 주며 스스로 최선의 방법을 터득하게 만드는 기술입니다.
마치 우리가 강아지를 훈련시킬 때 잘하면 간식을 주고, 잘못하면 칭찬을 안 해주는 것과 같은 원리입니다. 이 과정을 수없이 반복하며 AI는 누적된 보상을 최대로 얻는 방법을 스스로 학습하게 됩니다.
그래서 강화학습이 뭔데?
강화학습의 개념은 아주 간단한 예시로 이해할 수 있습니다. 3개의 차선이 있는 도로에서 모형 자동차가 가운데 차선으로 달리면 1점을 얻고, 가장자리 차선은 0점, 차선을 벗어나면 -1점을 받는다고 가정해 봅시다. 처음에는 무작위로 움직여 차선을 벗어나기도 하지만, 점차 점수를 많이 받는 방향으로 움직이려 할 겁니다. 이 시행착오를 수없이 반복하면, 자동차는 결국 감점을 피하고 가장 높은 점수를 주는 중앙 차선으로만 달리게 됩니다. 이것이 바로 강화학습의 핵심입니다.완전 최신 기술 아니었어?
놀랍게도 이 아이디어는 100년도 더 된 심리학 이론에서 출발했습니다. 1911년 심리학자 손다이크는 ‘만족스러운 결과를 낳는 행동은 반복될 가능성이 높다’는 ‘효과의 법칙’을 발표했습니다. 동물의 행동을 설명하던 이 원리가 기계에 적용된 것입니다. AI의 아버지로 불리는 앨런 튜링은 1948년 논문에서 이미 ‘기계가 잘못된 행동을 하면 고통을, 옳은 행동을 하면 쾌락을 줘서 학습시킬 수 있다’고 예측했습니다. 이후 1960년에는 300개가 넘는 성냥갑을 이용해 스스로 게임을 배우는 기계 ‘MENACE’가 등장하기도 했습니다.그래서 우리 삶에 뭐가 달라지는데?
이러한 강화학습은 수많은 시뮬레이션이 가능한 분야에서 강력한 힘을 발휘합니다. 알파고와 같은 게임 AI는 물론, 로봇이 스스로 걷는 법을 배우거나 자율주행차가 최적의 경로를 찾는 데에도 활용됩니다. 물론 한계도 있습니다. 체스 게임처럼 한참 뒤에야 승패가 결정되는 경우, 어떤 수가 승리에 결정적이었는지 알기 어렵기 때문입니다. 하지만 강화학습은 AI가 인간의 개입 없이 스스로 똑똑해지는 길을 열어준 핵심 기술로, 앞으로 더 많은 분야에서 우리 삶을 바꾸게 될 전망입니다.
편집자:
이도윤 기자
제보·문의:
aipick@aipick.kr

부키와 모키의 티격태격
찬/반 투표
총 투표수: 0AI의 자율학습, 인류에게 축복일까 재앙일까?
축복
0%
0명이 투표했어요
재앙
0%
0명이 투표했어요
댓글 0개
관련 기사
최신 기사



