기술/연구

“GPT-5도 쩔쩔맨다?” MIT가 공개한 수학 올림피아드 3만 문제의 정체

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.04.27 01:10

기사 3줄 요약

1 MIT가 세계 최대 수학 데이터셋 매스넷 공개
2 47개국 3만 문제로 AI 추론 능력 정밀 검증
3 GPT-5도 정답률 69% 그쳐 기술적 한계 노출

최근 매사추세츠 공과대학교(MIT) 연구진이 인공지능의 수학적 추론 능력을 검증할 수 있는 세계 최대 규모의 데이터셋인 매스넷을 오픈소스로 공개했습니다. 사우디아라비아의 킹 압둘라 과학기술대학교(KAUST)와 기술 기업 휴메인이 공동으로 참여한 이번 프로젝트는 3만 개 이상의 고난도 수학 문제와 해설을 담고 있습니다. 지금까지 흩어져 있던 전 세계의 독창적인 문제들이 체계적으로 수집되어 누구나 무료로 이용할 수 있게 되었습니다. 연구진에 따르면 이번 매스넷은 전 세계 47개국에서 수집된 143개 경시대회의 문제를 망라하고 있습니다. 기존 데이터셋보다 약 5배 이상 큰 규모로 구축되었으며 17개 언어로 작성된 풍부한 자료를 포함하고 있다는 점이 특징입니다. 각 나라의 독특한 수학적 관점을 담아내어 인공지능이 폭넓은 사고를 학습할 수 있도록 설계되었습니다. 루마니아나 브라질 등 수학 강국들의 전통적인 문제 해결 방식이 대거 포함되어 연구 가치가 매우 높습니다.

AI도 무릎 꿇린 올림피아드의 벽

현존하는 최강의 인공지능 모델로 평가받는 GPT-5조차 매스넷의 핵심 문제들 중에서 약 69%의 정답률을 기록하는 데 그쳤습니다. 이는 인공지능이 여전히 고차원적인 수학적 추론 과정에서 인간의 통찰력을 따라오지 못하고 있음을 명확히 보여줍니다. 특히 문제가 그림이나 도표를 포함하고 있는 경우 인공지능 모델들의 성능이 눈에 띄게 하락하는 현상이 발견되었습니다. 텍스트 정보와 시각적 정보를 동시에 처리하며 논리적 결론을 도출하는 능력이 아직 부족하다는 분석이 나오고 있습니다. 비주류 언어로 된 문제에서 일부 모델이 0%의 정답률을 기록한 점은 향후 학습 데이터의 불균형을 해결해야 할 숙제로 남았습니다. 특정 언어와 문화권에 편중된 학습 방식이 인공지능의 지능적 한계를 만들고 있는 셈입니다.

교육 격차 해소할 열쇠 될까

연구진은 이번 데이터셋 공개가 단순히 인공지능 성능 테스트를 넘어 전 세계 학생들에게 평등한 교육 기회를 제공하기를 기대하고 있습니다. 교육 인프라가 부족한 국가의 학생들도 올림피아드 수준의 문제를 접하며 심화 학습을 할 수 있는 환경이 마련된 것입니다. 전문가들이 검토한 공식 해설은 한 문제에 대해 여러 가지 접근 방식을 제시하여 학습 효과를 극대화합니다. 이는 온라인의 단순한 해설보다 인공지능의 추론 학습에 훨씬 더 풍부한 신호를 제공할 것으로 보입니다.

평가 항목	주요 결과 내용
GPT-5 정답률	약 69% (3문제 중 1문제 오답)
시각적 추론	도표 포함 시 성능 급격히 하락
언어 장벽	몽골어 등 비주류 언어 정답률 0%

이번 연구 결과는 2026년 열리는 국제 학습 표현 컨퍼런스(ICLR)에서 공식 발표될 예정입니다. 매스넷은 인공지능의 지능을 한 단계 높이는 동시에 인류의 지식 공유에 큰 기여를 할 전망입니다.