“AI 성능 순위, 모두 가짜였다?” 진짜 1등 가리는 새 기준 등장
댓글 0
·
저장 0
·
편집: 이도윤 기자
발행: 2025.07.20 14:29

기사 3줄 요약
- 1 세일즈포스, 진짜 '일 잘하는 AI' 가리는 새 평가 시스템 공개
- 2 기존 AI 성능 순위 뒤집혀, 알리바바 AI는 예상 밖 부진
- 3 기업, AI 도입 전 실무 능력 검증 가능해져 실용성 증대
인공지능(AI)의 성적표를 곧이곧대로 믿기 어려운 시대가 왔습니다. 시험 점수는 높은데 막상 일을 시켜보면 헤매는 AI가 많기 때문입니다.
최근 미국의 빅테크 기업 세일즈포스가 이런 문제를 해결할 새로운 AI 평가 시스템, 'MCPeval'을 공개해 큰 주목을 받고 있습니다. 한국 대통령실의 하정우 AI 수석까지 나서서 '훨씬 현실적인 평가 방식'이라며 관심을 보일 정도입니다.
그래서 그게 뭔데?
쉽게 말해 MCPeval은 AI의 ‘실무 능력’을 테스트하는 시험입니다. 기존 평가는 AI가 얼마나 많은 지식을 암기했는지 보는 ‘필기시험’ 같았습니다. 하지만 MCPeval은 다릅니다. AI에게 특정 업무와 필요한 도구를 주고 ‘이 일 한번 해결해봐’라고 시키는 ‘실기 시험’에 가깝습니다. 이 모든 과정은 자동으로 기록되고 분석됩니다. 이를 통해 기업은 AI가 실제로 일을 얼마나 잘하는지, 어떤 부분에서 강하고 약한지를 정확히 파악할 수 있습니다. 심지어 이 시스템은 오픈소스로 공개되어 누구나 사용할 수 있습니다.왜 이게 중요한 건데?
실제 테스트 결과는 놀라웠습니다. 기존 시험(벤치마크)에서 점수가 높았던 중국 알리바바의 AI '큐원'은 이 실무 테스트에서 예상보다 낮은 성적을 받았습니다. 도구를 제대로 사용하지 못하거나 주어진 임무를 완수하는 데 어려움을 겪었습니다. 반면, OpenAI의 GPT 모델들은 뛰어난 실무 능력을 보여주었습니다. 특히 일의 순서를 계획하고 차근차근 해결해 나가는 과정에서 높은 점수를 받았습니다. 이 결과는 같은 AI 모델이라도 평가 방식에 따라 성능이 완전히 다르게 보일 수 있다는 것을 명확히 보여줍니다. 진짜 '일 잘하는 AI'를 가리려면 실전 능력을 봐야 한다는 의미입니다.그래서 앞으로 어떻게 되는데?
이 새로운 평가 방식은 AI 시장에 큰 변화를 가져올 전망입니다. 기업들은 이제 AI를 도입하기 전에 우리 회사 업무에 정말 도움이 될지 미리 테스트해볼 수 있게 됩니다. 단순히 ‘어떤 AI가 제일 똑똑하다’는 광고나 순위만 보고 비싼 돈을 쓸 필요가 없어지는 셈입니다. 개발사들 역시 실제 활용 능력을 높이는 방향으로 AI를 개발하게 될 것입니다. 결국 AI의 가치를 ‘이론’이 아닌 ‘실력’으로 증명하는 시대가 열리는 것입니다. 이는 AI 기술이 더 실용적으로 발전하는 중요한 계기가 될 것입니다.
편집자:
이도윤 기자
제보·문의:
aipick@aipick.kr

부키와 모키의 티격태격
찬/반 투표
총 투표수: 0AI 성능은 실무 능력으로 평가해야 할까?
찬성
0%
0명이 투표했어요
반대
0%
0명이 투표했어요
댓글 0개
관련 기사
최신 기사



