기술/연구

'치트코드' 발동한 GPT-4.5, 직원 단 10명으로 10배 강력해졌다

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.04.12 22:10

기사 3줄 요약

1 OpenAI, GPT-4.5 개발에 단 5-10명만 투입
2 감성지능 높였지만 STEM 추론력은 약화
3 벤치마크 테스트서 혼합된 성능 보여

OpenAI가 새로운 GPT-4.5를 출시했지만 초기 계획과는 다른 방향으로 발전했다는 소식입니다. 애초에 '10배 똑똑한' 모델을 목표로 했지만, 결과적으로는 추론 능력보다 자연스러운 의사소통과 감성지능에 더 중점을 둔 모델이 탄생했습니다.

단 10명으로 완성한 '치트코드'

OpenAI 팀은 GPT-4.5 개발 과정에서 '치트코드'라고 부를 만한 특별한 이점을 활용했습니다. 이전 모델 개발 경험을 통해 축적된 지식과 기술 덕분에 GPT-4를 처음부터 개발하는 데 단 5-10명의 작은 팀만 필요했다고 합니다. 이 '치트코드'는 단순한 행운이 아니라 모델 아키텍처에 대한 깊은 이해, 개선된 훈련 인프라, 그리고 기술적 장애물을 효율적으로 해결하는 능력이었습니다.

크기보다 중요한 추론 능력

샘 알트만 OpenAI CEO는 AI 개발 방향을 단순히 모델 크기를 키우는 것에서 추론 능력을 향상시키는 방향으로 전환하고 있다고 밝혔습니다. 모델을 키우는 것만으로는 실제 지능이나 문제 해결 능력이 자동으로 향상되지 않는다는 사실을 인정한 것입니다. GPT-4.5는 OpenAI의 마지막 비추론 플래그십 모델이 될 것으로 보입니다.

GPT-4.5의 장단점

GPT-4.5는 자연스러운 대화와 감성지능에 초점을 맞추면서 창의성과 뉘앙스가 필요한 작업에서는 뛰어난 성능을 보이지만, STEM 관련 작업에서는 o3-mini 같은 다른 모델보다 성능이 떨어집니다. 이는 의도적인 트레이드오프로, 더 유창하고 간결한 대화 출력을 위해 일부 구조화된 추론 능력을 희생한 결과입니다.

벤치마크 성능

GPT-4.5는 다양한 벤치마크에서 혼합된 결과를 보여줍니다:

벤치마크	GPT-4.5	GPT-4o	OpenAI o3-mini (high)
GPQA (과학)	71.4%	53.6%	79.7%
AIME '24 (수학)	36.7%	9.3%	87.3%
MMMLU (다국어)	85.1%	81.5%	81.1%
MMMU (멀티모달)	74.4%	69.1%	-
SWE-Lancer Diamond (코딩)	32.6%	23.3%	10.8%
SWE-Bench Verified (코딩)	38.0%	30.7%	61.0%

SimpleQA 벤치마크에서는 62.5%의 정확도를 달성해 GPT-4o의 38.2%보다 훨씬 높은 성능을 보였습니다. 하지만 이것은 단순한 질문에 대한 정확도일 뿐, 복잡한 추론 능력을 완전히 반영하지는 못합니다.

멀티모달 능력과 감성지능

GPT-4.5는 이미지를 해석하고 문서에서 중요한 정보를 추출하는 능력이 뛰어납니다. 예를 들어, 동전 이미지에서 "동전이 4개 있네요"라고 바로 대답하거나 '나 홀로 집에' 장면을 정확히 인식할 수 있습니다. 또한 감성지능과 설득력이 매우 뛰어납니다. OpenAI의 MakeMePay 평가에서 57%의 지불 유도 성공률을 기록해 다른 모든 모델을 능가했습니다. 이러한 능력은 고객 서비스, 코칭, 설득이 필요한 분야에서 활용될 수 있습니다.

미래 응용 분야

GPT-4.5의 잠재적 응용 분야로는 개인 맞춤형 교육, 고급 고객 서비스, 창의적 콘텐츠 생성 등이 있습니다. 학생의 감정 상태에 맞춰 조정되는 AI 튜터나 사용자의 선호도와 감정 신호에 기반한 맞춤형 추천을 제공하는 가상 비서 등을 만드는 데 활용될 수 있습니다. 샘 알트만은 이제 컴퓨팅 자원이 더 이상 제한 요소가 아니라고 말하며, 데이터 효율성과 알고리즘 개선에 집중하는 방향으로 전환하고 있음을 시사했습니다. 이는 단순히 자원을 늘리는 것을 넘어 더 효율적이고 목표 지향적인 훈련 방법과 추론 능력을 통합하는 AI 개발 접근 방식의 근본적인 변화를 의미합니다.

편집자: 이도윤 기자

제보·문의: aipick@aipick.kr