“GPT 점수 왜 이래?” 확 바뀐 AI 시험, 1등은 누구?
댓글 0
·
저장 0
·
편집: 이도윤 기자
발행: 2026.01.07 18:29
기사 3줄 요약
- 1 AI 평가 기준 실무 중심으로 전면 개편
- 2 GPT-5.2 종합 1위 차지했으나 점수 하락
- 3 암기보다 실제 업무 수행 경제적 가치 중시
“AI가 똑똑한 줄 알았는데, 실전 투입하니 점수가 반토막?”
최근 인공지능(AI) 업계에 큰 충격을 주는 사건이 발생했습니다. 그동안 AI 모델의 성능을 측정하던 시험 방식이 완전히 바뀌었기 때문입니다. 기존에는 단순히 지식을 얼마나 많이 외우고 있는지 평가했다면, 이제는 “실제로 돈을 벌어올 수 있느냐”를 따지기 시작했습니다. 마치 학교 시험 성적은 좋은데 일머리가 없는 신입사원을 걸러내겠다는 의도로 보입니다.
AI 벤치마킹 기관인 아티피셜 애널리시스(Artificial Analysis)는 최근 AI 모델 평가 지표인 ‘인텔리전스 인덱스 4.0’을 공개했습니다. 이번 개편은 단순한 업데이트 수준이 아닙니다. 기존에 널리 쓰이던 이론 중심의 평가 항목을 과감히 없애고, 실제 경제적 가치를 창출할 수 있는지를 묻는 ‘실전형 테스트’로 탈바꿈했습니다.
“암기왕 필요 없다, 일 잘하는 AI 나와라”
이번 평가의 핵심은 ‘현실 세계 적응력’입니다. 아티피셜 애널리시스에 따르면, 새로운 평가 기준인 ‘GDPval-AA’는 44개 직업과 9개 산업 분야에서 AI가 실제로 업무를 수행할 수 있는지 측정합니다. 단순히 질문에 답하는 것을 넘어, 엑셀 시트를 채우고 PPT를 만들며 보고서를 작성하는 능력을 봅니다. 이는 기업들이 AI를 도입할 때 가장 중요하게 생각하는 부분과 일치합니다. 아무리 어려운 수학 공식을 외우고 있어도, 당장 내일 회의에 쓸 자료를 만들지 못하면 소용이 없기 때문입니다. 이제 AI도 ‘책상 물림’에서 벗어나 ‘현장형 인재’로 거듭나야 하는 시점이 온 것입니다. 또한 ‘AA-옴니사이언스’라는 항목도 눈길을 끕니다. 이 테스트는 AI가 얼마나 정확한 지식을 가지고 있는지뿐만 아니라, 모르는 것을 모른다고 말할 줄 아는지도 평가합니다. 그동안 AI가 그럴싸한 거짓말을 하는 ‘환각 현상(Hallucination)’ 때문에 골머리를 앓던 기업들에게는 아주 중요한 지표가 될 전망입니다.“GPT-5.2도 쩔쩔맸다?” 충격적인 결과
평가 난이도가 올라가자 AI 모델들의 점수는 처참하게 깎였습니다. 이전 버전에서는 70점대를 기록하던 모델들이 이번에는 50점을 넘기기도 힘들었습니다. 하지만 그 와중에도 1등은 존재했습니다. 오픈AI의 ‘GPT-5.2’가 종합 1위를 차지했고, 앤트로픽의 ‘클로드 오퍼스 4.5’와 구글의 ‘제미나이 3 프로’가 그 뒤를 이었습니다. 오픈AI의 GPT-5.2는 일반적인 업무 능력 평가에서 가장 높은 점수를 받으며 “역시 1등”이라는 평가를 받았습니다. 하지만 과학적 추론 능력을 평가하는 ‘크리트PT’에서는 정답률이 고작 11.5%에 그쳤습니다. 이는 AI가 사무 보조 역할은 훌륭하게 수행하지만, 아직 복잡한 과학 연구를 주도하기에는 갈 길이 멀다는 것을 보여줍니다. 구글의 제미나이 시리즈는 지식의 정확도는 높았지만, 엉뚱한 거짓말을 하는 비율도 상대적으로 높게 나타났습니다. 반면 앤트로픽과 오픈AI의 모델들은 모르는 질문에는 답변을 피하며 신중한 모습을 보였습니다. 전문가들은 의료나 법률처럼 정확성이 생명인 분야에서는 이런 ‘신중함’이 필수적이라고 지적합니다.이제는 ‘실전형 AI’가 대세가 된다
이번 벤치마크 개편은 AI 시장의 흐름을 완전히 바꿔놓을 것으로 보입니다. 이제 기업들은 단순히 “어떤 AI가 점수가 제일 높냐”를 따지는 것이 아니라, “우리 회사 업무에 딱 맞는 AI는 무엇인가”를 고민하게 될 것입니다. 변호사 시험 합격률보다는 실제 소장을 얼마나 잘 쓰는지가 더 중요해진 셈입니다. 아티피셜 애널리시스에 따르면, 앞으로 AI 도입을 고려하는 기업들은 종합 점수보다는 세부 영역 점수를 꼼꼼히 살펴봐야 합니다. 사무 자동화가 목적이라면 업무 수행 능력이 좋은 모델을, 연구 개발이 목적이라면 과학적 추론 능력이 뛰어난 모델을 선택해야 실패하지 않습니다. 결국 AI도 인간과 마찬가지로 ‘적재적소’에 배치되어야 제 몫을 할 수 있습니다. 이번 평가 기준의 변화는 AI가 연구실을 떠나 우리의 실제 삶과 일터로 깊숙이 들어오고 있음을 알리는 신호탄입니다. 앞으로 어떤 AI가 이 험난한 ‘실전 테스트’를 통과하고 살아남을지 지켜보는 것도 흥미로운 관전 포인트가 될 것입니다.
편집: 이도윤 기자
이메일: aipick@aipick.kr
부키와 모키의 티격태격
찬/반 투표
총 투표수: 0AI 평가, 암기력보다 실무능력 중시해야 한다
찬성
0%
0명이 투표했어요
반대
0%
0명이 투표했어요
댓글 0개
관련 기사
최신 기사