산업/비즈니스

“지금까지 AI 순위는 가짜?” 의사, 변호사가 직접 뽑은 진짜 1등

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.09.23 18:46

기사 3줄 요약

1 스케일 AI, 새 AI 모델 순위 시스템 '실 쇼다운' 공개
2 의사, 변호사 등 다양한 직업군이 직접 모델 평가 참여
3 현재 GPT-5 1위, 기존 평가 방식에 새로운 도전 제기

인공지능(AI) 모델들의 진짜 실력을 가리는 새로운 경쟁의 장이 열렸습니다. 데이터 전문 기업 스케일 AI가 '실 쇼다운(SEAL Showdown)'이라는 새로운 AI 성능 평가 시스템을 공개했습니다. 이 시스템은 의사, 변호사 등 다양한 분야의 전문가들이 직접 참여해 최고의 AI를 뽑는다는 점에서 큰 주목을 받고 있습니다. 현재 순위에서는 GPT-5가 1위를 차지하며 AI 왕좌의 게임에 불을 지폈습니다.

그래서 뭐가 다른데?

기존 AI 성능 평가는 주로 기술 전문가 중심으로 이루어졌습니다. 하지만 실 쇼다운은 평가 참여자의 폭을 크게 넓혔습니다. 스케일 AI에 따르면, 전 세계 100여 개국에서 의사, 변호사, 물리학자 같은 전문직 종사자부터 일반 사용자까지 참여합니다. 두 개의 AI에게 같은 질문을 던지고 더 마음에 드는 답변을 고르는 '블라인드 테스트' 방식입니다. 이를 통해 특정 분야에 치우치지 않고, 실제 다양한 직업과 환경에서 어떤 AI가 더 유용한지 알 수 있습니다. 단순한 기술 점수 경쟁을 넘어선, 진짜 '인간 중심'의 평가를 지향하는 셈입니다.

현재 순위는 어떻게 돼?

가장 궁금해할 현재 순위도 공개되었습니다. 1위는 OpenAI의 'GPT-5'가 차지했습니다. 그 뒤를 이어 앤트로픽의 '클로드 오퍼스 4.1'과 '클로드 소네트 4'가 각각 2위와 3위에 올랐습니다. 구글의 '제미나이 2.5 프로'는 7위를 기록했습니다. 모델별 강점도 드러났습니다. 클로드는 글쓰기와 논리적인 추론에 강했고, ChatGPT는 아이디어를 내는 브레인스토밍에 뛰어났습니다. 흥미롭게도 구글 제미나이는 50대 이상 사용자에게서 높은 점수를 받았습니다.

이게 왜 중요한 걸까?

AI 기술은 하루가 다르게 발전하고 있지만, 어떤 모델이 정말 좋은지 판단할 '표준 시험'은 없는 상황입니다. 그래서 여러 AI를 써본 사람들의 집단 지성을 활용하는 방식이 인기를 얻고 있습니다. 실 쇼다운의 등장은 이제 사용자들이 자신의 직업이나 나이, 사는 지역에 맞춰 최적의 AI를 고를 수 있게 됐다는 의미가 있습니다. 앞으로 AI 모델을 선택하는 기준이 더욱 명확해지고, 기업들의 기술 경쟁도 한층 더 뜨거워질 전망입니다.