앤트로픽 연구원

Sholto Douglas(작까지 Deepmind) & Trenton Bricken의 팟캐스트

클로드4 발표 직후





Q: 작 (2024.5) 이후 AI 연구의 가장 큰 변화는?

A: 언어 모델에서의 강화학습이 "마침내 작동했다".

이는 경쟁 프로그래밍, 수학에서 결정적으로 입증되었다.


장기간 실행되는 에이전트 성능은 아직 초기 단계이나,

특히 소프트웨어 엔지니어링 분야에서는 연말까지 결정적인 증거를 보일 것으로 예상된다.


내에 대한 예측을 하면,

올해 말에서 내 이맘쯤이면

주니어 엔지니어의 하루치 일을 처리할 수 있는 코딩 에이전트가 생기거나,

꽤 유능하고 독립적으로 몇 시간 동안 일할 수 있는 에이전트가 생길 것이라고 생각한다.




Q: 왜 소프트웨어 엔지니어링이 다른 분야보다 훨씬 더 나아졌는가?

A: 검증 가능성이 매우 높고,

단기적으로 경제적 가치가 매우 높기 때문에 연구실들의 우선순위가 되었기 때문이다.




Q: 최근 논문을 보면 강화학습이 실제로 새로운 역량을 끌어내는 것인지, 단지 기본 모델에 내재된 추론 능력을 사용하는 것인지 논란이 있다.

A: 해당 칭화대 논문은 기본 모델(사전학습) 대비 강화학습에 컴퓨팅을 비교도 안되게 적게 사용했다.


알파고, 알파제로 같은 딥마인드 연구들이 이미 증명했듯이,

강화학습 신호가 충분히 명확함에 더불어

충분한 RL 컴퓨팅이 있으면 인간 수준을 뛰어넘는 새로운 지식을 가르칠 수 있다.


2017의 오래된 ML 논문들을 보면,

세상의 기본적인 매커니즘을 파악하는 동안 모델의 학습 곡선은 항상 평평해보인다.

그러다가 쉬운 보상을 활용하면서 급등한다.


LLM의 곡선은 조금 다르다.

세계 지식을 알고 있기 때문에

초반에 막다른 골목이 없기 때문이다.

그래서 강화학습 초반에 급등하는 현상이 나타난다.


사람들이 '아, 예시 하나만 보고도 배울 수 있겠네'라고 말하는게 그 이유다.

그 뒤에 아마 일반적인 내용을 배우게 될 것이다.




Q: 그렇다면 앤트로픽은 왜 RL에 100만 달러만 쓰고 수억 달러를 투자하지 않는가?

A: 우주선을 발사할 때도 기술을 더 발전시키고 나중에 발사하면 더 멀리 날아가는 것과 비슷하다.

알고리즘이 올바른 결과를 얻었는지 확인하고, 그 뒤에 대규모 컴퓨팅을 수행하기 위함이다.


모든 회사들이 RL 투자를 늘리고 있다.




Q: 특히 창의적이거나 덜 검증 가능한 영역에서 모델에게 "취향"을 가르치고 "조잡함"을 덜 출력하도록 하려면 어떻게 해야 하는가?

A: "생성자-검증자 격차"가 필요하다.

즉, 고품질 출력을 생성하는 것보다 조잡함을 판단하는 것이 더 쉬워야 한다.


RLHF는 처음에 일부 인간의 취향을 부여했기 때문에 매우 잘 작동했었다.

앞으로의 과제는 모델들에게 이러한 취향을 불어넣고

스스로 경험하며 배우도록 피드백 루프를 구축하는 것이다.


강화학습이 수학, 코드 이외에도 일반화된다는 증거에 대해 말하자면

공개적인 예는 OpenAI의 최근 논문이 있다.


일반인이 따를 수 있는 기준에 따라 의료 질문 답변을 채점하는 데 모델을 사용하는 것이다.

OpenAI 모델은 이 부분에서 매우 뛰어나며, 답변을 채점하기에 충분했다는 결론이 나왔다.


*즉, AI 모델들이 일반적인 분야에 대해서도 이미 검증을 잘 하기 때문에

이를 보상신호로서 강화학습에 쓸 수 있다는 것이다.





Q: 현재의 한계를 고려할 때, 컴퓨터 사용 에이전트가 곧 고도로 유능해질 것이라는 낙관론의 이유는 무엇인가?

A: 인터페이스를 토큰화할 수 있는한,  코딩과 근본적으로 다른 점은 없다.

수학/코딩보다 피드백 루프에 넣기 더 어렵지만 노력하면 해결할 수 있다.


연구실도 완벽하게 최적화된 기계가 아니며,

현재 코딩과 같은 더 가치 있고 다루기 쉬운 우선순위에 대한 트레이드 오프가 있다.


그러나 컴퓨터 사용 에이전트는 충분한 경제적 가치가 잠재적으로 있기 때문에,

곧 많은 자원이 투입될 것으로 생각된다.




Q: 2026 5월 예측: 에이전트가 특정 포토샵 작업(3가지 영상 효과 추가)이나 완전 자동 세금 처리와 같은 복잡한 컴퓨터 작업을 수행할 수 있는가?

A: 포토샵의 경우 완전히 가능할 것이다. 항공권 예약도 완전히 가능하다.


완전 자동으로 세금 처리하는 것은 2026 말까지 가능할 것 같다. (나도 신고하다가 실수한다)

주요 병목 현상은 연구실의 누군가가 해당 작업에 RL 피드백 루프를 구축할 만큼 충분한 관심을 갖는지 여부다.


*완전 자동 세금 처리란, 받은 편지함을 뒤지고, 호텔 예약을 클릭하고, "샴페인은 사업 비용이었나요?"라고 묻는 등 세부 작업을 포함한다.





Q: 일부 연구자들은 컴퓨팅 확장이 둔화되면 2030까지 AGI가 실현되지 않을 것이라고 비관적으로 전망한다. 당신의 생각은 어떤가?

A: 향후 몇 동안 훈련 컴퓨팅은 극적으로 증가할 수 있으며, 이를 통해 RL은 큰 혜택을 볼 것이다.


Deepseek가 o1을 따라잡을 수 있었던 것은 비슷한 양의 RL 컴퓨팅을 적용할 수 있었기 때문이다.

하지만 컴퓨팅 차이는 올해가 지나면서 점점 더 커질 것이다.


올해는 강화학습에 적용하는 컴퓨팅을 획기적으로 늘릴 수 있기 때문에 매우 흥미로울 것이다.





Q: 알파제로와 달리 왜 현재 LLM은 AGI로 가는 더 직접적인 경로(Baby AGI)로 간주되는가?

A: 알파제로는 2인용 게임에서 작동했으며 RL에 매우 친화적인 환경이었다.


LLM은 세계와 언어에 대한 일반적인 개념을 이해하고 있기에

실제 작업에 대한 초기 "사다리 발판", 보상 신호를 제공한다.

알파제로에는 이것이 부족했다.


GPT-3/4가 나오기 전까지는 RLHF도 제대로 먹히지 않았다.





Q: 강화학습이 특정 도메인을 넘어서 메타학습, 즉 일반화가 되는게 맞는가?

A: GPT-2 시절에는 다양한 도메인에 맞춰 모델을 미세조정했고, 그 때 훨씬 뛰어난 성능을 보였다.

하지만 GPT-4에 도달하고, 컴퓨팅을 늘려 충분히 다양한 요소에 대해 학습하자,

모든 개별 하위 작업에서 매우 잘 일반화되었다.


실제로 미세 조정된 소규모 모델보다 훨씬 더 잘 일반화되어 매우 유용했다.


현재 RL에서 보고 있는 현상도 거의 비슷한 맥락이다.

RL이 현재는 특별히 훈련받은 부분들이 삐쭉삐쭉 솟아오르고 있지만,

RL 컴퓨팅을 확장하면서 GPT와 같은 일이 일어날 것이며, 일반화로의 전환이 시작될 것이다.


우리는 이미 이러한 일반화 변화의 초기 증거를 보고 있다고 생각한다.

하지만 곧 매우 분명해질 것이다.




Q: 화이트 칼라 직업 대체에 대해?

A: 나는 거의 확신을 가지고 강력하게 주장한다.

2 안에 화이트칼라 직업이 대체될 가능성이 매우 높다.

2 안에 될 것 같지만, 5 안에는 거의 확정이라고 본다.


어느 시점이던지 간에,

이는 향후 세상을 완전히 바꿔놓을 것이며,

우리는 그에 맞는 적절한 정책을 마련해야만 한다.


현재 발전이 아예 멈추더라도(저는 절대 그렇지 않다고 생각하지만)

적절한 데이터만 있다면 현재의 알고리즘만으로도 화이트칼라 업무를 자동화하기에 충분하다.


화이트칼라 직업 자동화의 경제적 가치는 매우 높기 때문에, 결국 실현될 것이다.




Q: 급격한 AI 발전 속, 학생이나 경력 초기 단계 사람들에게 해줄 수 있는 조언은?

A: 가능한 넓은 미래의 스펙트럼에 대비하라.

당신 마음대로 쓸 수 있는 10명의 엔지니어가 있다면 어떤 문제를 해결할 것인지 생각해보라.

기초 분야(생물학, CS, 물리학)에서 기술적 깊이를 추구하라.

AI는 이제 당신의 무한한 완벽한 교사가 될 수 있다.

에이전트가 힘든 작업을 자동화할 수 있는 방법을 알아내어 "더 게을러지라"





https://youtu.be/64lXQP6cs5M?si=yYeSE481B7awNP12