“연봉 5억 주고 AI 훈련시킨다” 실리콘밸리 억만장자들의 다음 계획
댓글 0
·
저장 0
·
편집: 이도윤 기자
발행: 2025.09.17 05:39

기사 3줄 요약
- 1 실리콘밸리, AI 훈련 위한 '환경' 기술에 거액 베팅
- 2 앤트로픽 등 빅테크, 관련 기술에 1조 원 이상 투자 검토
- 3 성공 불확실하지만 차세대 AI 개발 핵심 기술로 부상
최근 실리콘밸리의 빅테크 CEO들은 스스로 소프트웨어를 사용해 사람들의 업무를 대신 처리하는 ‘AI 에이전트’에 대한 비전을 앞다퉈 발표하고 있습니다.
하지만 OpenAI의 ‘ChatGPT 에이전트’나 퍼플렉시티의 ‘코멧’ 같은 현재 소비자용 AI 에이전트를 사용해보면, 기술이 여전히 얼마나 제한적인지 금방 깨닫게 됩니다. AI 에이전트를 더 강력하게 만들기 위해서는 업계가 아직 발견하지 못한 새로운 기술이 필요할지 모릅니다.
그래서 RL 환경이 뭔데?
그 기술 중 하나는 바로 AI 에이전트가 여러 단계의 작업을 훈련할 수 있는 작업 공간을 시뮬레이션하는, 이른바 ‘강화학습(RL) 환경’입니다. 한 창업자는 이를 두고 “아주 지루한 비디오 게임을 만드는 것과 같다”고 표현하기도 했습니다. 예를 들어, 어떤 환경은 크롬 브라우저를 흉내 내 AI 에이전트에게 아마존에서 양말 한 켤레를 구매하라는 과제를 줍니다. 에이전트는 그 성능에 따라 평가받고, 성공하면 보상을 받습니다. 이런 작업은 간단해 보이지만, AI 에이전트가 길을 잃거나 양말을 너무 많이 사는 등 실수를 저지를 수 있는 부분이 많습니다. 개발자들은 에이전트가 어떤 잘못된 길로 빠질지 정확히 예측할 수 없습니다. 따라서 환경 자체는 어떤 예상치 못한 행동이라도 포착하고 유용한 피드백을 줄 수 있을 만큼 견고해야 합니다. 이것이 바로 RL 환경 구축을 정적인 데이터셋보다 훨씬 더 복잡하게 만드는 이유입니다.왜 다들 여기에 돈을 쏟아붓는 거야?
현재 OpenAI, 구글, 앤트로픽과 같은 주요 AI 연구소들은 더 많은 RL 환경을 요구하고 있습니다. 앤트로픽의 리더들은 내년에 RL 환경에 10억 달러(약 1조 3천억 원) 이상을 지출하는 방안을 논의한 것으로 알려졌습니다. 이러한 흐름 속에서 ‘메커나이즈 워크’나 ‘프라임 인텔렉트’ 같은 자금력이 풍부한 새로운 스타트업들이 시장을 주도하기 위해 등장했습니다. 특히 메커나이즈 워크는 RL 환경을 구축할 소프트웨어 엔지니어에게 50만 달러(약 6억 8천만 원)의 연봉을 제시하며 인재를 모으고 있습니다. 기존의 대규모 데이터 라벨링 회사인 머코르나 서지 같은 곳들도 이런 변화에 발맞추기 위해 RL 환경에 더 많은 투자를 하고 있습니다. 이들은 이미 주요 AI 연구소들과 깊은 관계를 맺고 있어 유리한 위치에 있습니다.근데 이게 진짜 성공할까?
하지만 RL 환경이 정말로 AI 발전을 이끌어낼지에 대한 의문도 존재합니다. 일부 전문가들은 AI 모델이 실제로 작업을 수행하지 않고 보상을 받기 위해 시스템을 속이는 ‘보상 해킹’에 취약하다고 지적합니다. 전 메타 AI 연구 책임자였던 로스 테일러는 “사람들이 환경을 확장하는 것이 얼마나 어려운지 과소평가하고 있다”고 말했습니다. OpenAI의 한 엔지니어링 책임자 역시 AI 연구가 너무 빠르게 진화하고 있어 AI 연구소를 제대로 지원하기 어렵다며 RL 환경 스타트업에 대해 회의적인 입장을 보이기도 했습니다. 그럼에도 불구하고, RL 환경은 AI 연구소들의 큰 기대를 받고 있습니다. 이전의 AI 모델 개선 방법들이 점점 한계를 보이자, 많은 이들이 이 새로운 접근법이 AI 기술의 다음 단계를 열어줄 것이라 믿고 있습니다.
편집: 이도윤 기자
이메일: aipick@aipick.kr

부키와 모키의 티격태격
찬/반 투표
총 투표수: 0AI 훈련에 연봉 5억 투자, 합리적인가?
합리적
0%
0명이 투표했어요
과도함
0%
0명이 투표했어요
댓글 0개
관련 기사
최신 기사



