환영해🦉
기술/연구

“AI 성능 순위는 다 쇼였다?” 메타가 공개한 진짜 AI 능력 시험

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.09.27 20:46
“AI 성능 순위는 다 쇼였다?” 메타가 공개한 진짜 AI 능력 시험

기사 3줄 요약

  • 1 메타, AI 진짜 실력 가리는 새로운 시험 공개
  • 2 기존 정적 테스트 한계 극복, 동적 환경 평가
  • 3 GPT-5가 최고점 기록, AI 에이전트 경쟁 심화
인공지능(AI)의 진짜 실력을 평가하는 새로운 기준이 등장했습니다. 페이스북의 부모 회사인 메타가 AI의 성능을 현실적으로 평가하기 위한 새로운 플랫폼과 기준을 선보였습니다. 기존의 AI 성능 시험들이 실제 상황을 제대로 반영하지 못한다는 지적에 따른 것입니다. AI의 진짜 능력을 검증하려면 계속해서 상황이 바뀌는 동적인 환경이 필요하다는 설명입니다.

그럼 기존 시험은 뭐가 문제였는데?

기존의 AI 성능 평가는 정해진 문제지를 푸는 것과 같았습니다. 문제와 답이 고정되어 있어 AI가 얼마나 똑똑한지 정확히 알기 어려웠습니다. 현실 세계는 예상치 못한 변수들로 가득하기 때문입니다. 이러한 방식은 AI가 특정 문제 풀이만 잘하도록 훈련될 수 있다는 한계를 가집니다. 실제 우리 생활에 적용했을 때 제대로 작동하지 않을 수 있다는 의미입니다. 메타는 이런 모델 개발과 실제 사용 사이의 격차를 줄이고자 새로운 평가 방식을 내놓았습니다.

메타가 만든 시험은 뭐가 다른데?

메타가 공개한 'ARE'는 AI를 위한 일종의 가상 현실 훈련소입니다. 이곳에서 AI는 실제 앱을 사용하고, 예측 불가능한 사건들을 마주하며 과제를 수행해야 합니다. 단순히 지식을 검색하는 수준을 넘어섭니다. 이를 바탕으로 작동하는 '가이아2'는 메타의 새로운 AI 능력 시험입니다. 갑작스러운 조건 변경에 대처하고, 마감 기한을 지키며, 다른 AI와 협력하는 능력까지 평가합니다. 예상치 못한 오류가 발생했을 때 어떻게 대처하는지도 중요한 평가 항목입니다.

그래서 이걸로 뭘 알 수 있는데?

이 새로운 시험을 통해 우리는 AI의 ‘진짜 실용적인 능력’을 알 수 있습니다. 예를 들어 불명확한 지시사항을 얼마나 잘 해석하는지, 여러 AI가 힘을 합쳐 복잡한 문제를 해결할 수 있는지를 평가합니다. 평가는 'LLM 판사'라는 또 다른 AI가 맡습니다. 시간에 따라 상황이 계속 변하기 때문에, AI가 아무것도 하지 않고 있을 때 벌어지는 돌발 상황에 대응하는 능력도 확인할 수 있습니다. 참고로 현재 이 시험에서 가장 높은 점수를 받은 모델은 OpenAI의 'GPT-5'입니다.

앞으로 AI 평가는 어떻게 바뀔까?

메타의 이번 발표는 AI 평가 방식의 큰 변화를 예고합니다. 이제 AI의 능력은 단순히 얼마나 많은 지식을 아는지가 아니라, 실제 세상에서 얼마나 유용하게 문제를 해결하는지로 평가받게 될 것입니다. 메타는 이 평가 시스템을 오픈소스로 공개했습니다. 누구나 이 시험장을 활용해 자신이 만든 AI의 실력을 검증해 볼 수 있습니다. 앞으로 더 현실적이고 까다로운 기준들이 등장하며 AI 기술 경쟁은 더욱 치열해질 전망입니다.
편집자 프로필
편집: 이도윤 기자
이메일: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

AI 성능 평가, 실전형 테스트가 필수인가?

댓글 0