기술/연구

“GPT-5도 결국 쩔쩔맸다?” MIT 공개 매스넷에 AI 수학 실력 들통

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.04.30 11:02

기사 3줄 요약

1 MIT 세계 최대 수학 올림피아드 데이터 공개
2 GPT-5 정답률 69% 기록하며 지능 한계 노출
3 전 세계 학생 교육 격차 해소와 AI 발전 기대

매사추세츠 공과대학교 연구진이 인공지능의 수학적 사고력을 시험할 거대 자료를 내놓았습니다. 이번에 공개된 매스넷은 전 세계 47개국에서 수집한 올림피아드 수준의 수학 문제들로 가득합니다. 인공지능이 얼마나 정교한 추론을 할 수 있는지 확인하는 새로운 기준이 될 예정입니다. 이 자료는 기존에 있던 비슷한 데이터셋보다 규모가 5배 이상 큽니다. 연구진은 1,500권이 넘는 문제집과 수십 년 된 스캔 파일을 직접 추적해 3만 개의 문제를 모았습니다. 각국 수학계의 독창적인 관점이 담겨 있어 학습 가치가 매우 높습니다.

인공지능은 정말 수학 천재일까

최신 모델인 GPT-5조차 이번 시험에서 기대보다 낮은 성적을 받았습니다. 6,400개의 핵심 문항을 풀게 한 결과 평균 정답률은 70퍼센트 수준에 그쳤습니다. 문제 3개 중 1개는 여전히 제대로 풀지 못한다는 뜻입니다. 특히 그림이나 도표가 포함된 기하학 문제에서 약점이 크게 드러났습니다. 시각적인 정보를 논리적으로 연결하는 능력은 아직 사람보다 많이 부족합니다. 텍스트 위주의 학습이 가진 한계가 명확히 확인된 셈입니다. 언어에 따른 실력 차이도 매우 심각한 수준으로 나타났습니다. 영어권 문제는 잘 풀지만 몽골어 같은 비주류 언어 문제는 정답률이 0퍼센트였습니다. 학습 데이터가 특정 국가와 언어에만 편중되어 있다는 점이 밝혀졌습니다.

전문가도 놀란 구조적 이해의 한계

인공지능은 문제의 겉모습이 아닌 본질적인 구조를 파악하는 데 서툴렀습니다. 두 문제가 숫자만 다르고 같은 원리인지 찾아내는 확률은 5퍼센트뿐이었습니다. 이는 인공지능이 수학 원리를 이해하기보다 유형을 암기하고 있음을 시사합니다. 이번 프로젝트를 주도한 샤덴 알샤마리 연구원은 소외된 학생들을 생각했습니다. 교육 기반이 부족한 나라의 학생들도 고급 수학 해설을 무료로 보길 원했습니다. 누구나 평등하게 학습 자원에 접근할 수 있는 환경을 만드는 것이 목표입니다. 매스넷에 수록된 정답은 전문가들이 검토한 공식적인 해설입니다. 한 문제에 대해 여러 가지 풀이 방식을 제시해 사고의 폭을 넓혀줍니다. 학생들에게는 훌륭한 교재가 되고 연구자들에게는 좋은 시험지가 됩니다.

인공지능 추론 능력의 새로운 이정표

이번 연구 결과는 국제 학습 표현 컨퍼런스에서 정식으로 발표되었습니다. 자료는 깃허브와 허깅페이스를 통해 전 세계에 무료로 개방된 상태입니다. 인공지능의 추론 모델을 개선하려는 시도가 더욱 활발해질 전망입니다. 단순한 계산을 넘어 사람처럼 생각하는 인공지능을 만드는 과정은 험난합니다. 하지만 이번 매스넷 공개는 그 길을 앞당기는 중요한 열쇠가 될 것입니다. 앞으로 인공지능이 수학의 미스터리를 풀어낼 날을 기대해 봅니다.