기술/연구

“역시 오픈AI가 왕이었다” 23개 AI 중 과학자들이 인정한 압도적 1위

댓글 1 · 저장 0 · 편집: 이도윤 기자 발행: 2025.07.11 08:48

기사 3줄 요약

1 오픈AI 'o3' 모델, 과학 질문 분야 최강 AI로 선정
2 102명 연구자들이 직접 투표하는 새 플랫폼서 압도적 1위 평가
3 구글 제미나이 등 주요 경쟁 모델들을 큰 차이로 앞서

OpenAI의 인공지능(AI) 모델 ‘o3’가 과학 분야에서 최강자의 자리를 굳혔습니다. 단순히 시험 점수가 높은 것을 넘어, 진짜 전문가들이 인정한 결과라 더욱 주목받고 있습니다. 미국 앨런 인공지능연구소(AI2)는 최근 ‘사이아레나(SciArena)’라는 새로운 AI 평가 플랫폼을 공개했습니다. 이곳에서 23개의 주요 AI 모델을 겨루게 한 결과, OpenAI의 ‘o3’가 거의 모든 분야에서 1위를 휩쓸었습니다.

그래서 o3가 얼마나 대단한데?

이번 평가는 전 세계 102명의 진짜 연구자들이 직접 심사위원으로 참여했습니다. 그 결과 o3는 자연과학, 공학, 보건, 인문사회 등 모든 분야에서 압도적인 성능을 보였습니다. 중국의 딥시크가 개발한 ‘R1’ 모델이나 구글의 ‘제미나이 2.5 프로’ 같은 쟁쟁한 경쟁자들도 있었지만, o3의 벽을 넘지는 못했습니다. 특히 o3는 인용 문헌을 풍부하게 제시하고, 기술적으로 정교한 답변을 만들어내는 능력에서 높은 점수를 받았습니다.

AI 모델	자연과학	공학	인문	사회과학
OpenAI o3	1위	1위	1위	1위
DeepSeek R1	2위	4위	-	-
Google Gemini 2.5 Pro	3위	5위 (공학·보건)	-	-

뭘로 어떻게 평가한 거야?

사이아레나의 평가 방식은 특별합니다. 기존의 AI 성능 평가는 정해진 문제지를 푸는 시험(벤치마크) 같았습니다. 하지만 사이아레나는 다릅니다. 사용자가 질문을 던지면, 임의로 선택된 두 AI가 내놓은 답변을 보고 더 나은 쪽에 투표하는 ‘실시간 대결’ 방식입니다. 이 때문에 실제 현장에서 AI가 얼마나 유용한지를 더 정확하게 파악할 수 있습니다. AI2의 연구원 아르만 코한은 “o3는 기술적으로 정교한 답변을 만들어 사용자 선호도가 높다”고 분석했습니다. 이는 o3가 단순 정보 검색을 넘어, 깊이 있는 이해를 바탕으로 논리적인 결과물을 만든다는 의미입니다.

그럼 이제 o3만 믿으면 되는 건가?

물론 한계는 있습니다. 대부분의 AI 모델은 어떤 데이터를 학습하고 어떻게 만들어졌는지 전부 공개하지 않습니다. 그래서 왜 성능 차이가 나는지 명확히 설명하기는 어렵습니다. 그럼에도 불구하고 세계적인 과학 학술지 네이처는 이 새로운 평가 방식을 주목했습니다. 네이처는 사이아레나가 ‘실제 현장에서 유용한 AI를 가려낼 중요한 도구’라고 평가했습니다. 앞으로 AI의 성능 경쟁이 단순 점수 싸움에서 벗어나, 실제 사용자들의 평가 중심으로 바뀔 수 있음을 보여주는 대목입니다.

편집자: 이도윤 기자

제보·문의: aipick@aipick.kr