기술/연구

“수학 천재들도 쩔쩔?” MIT가 공개한 매스넷 속 숨겨진 사실

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.04.29 05:15

기사 3줄 요약

1 MIT 연구진 세계 최대 수학 데이터셋 매스넷 공개
2 47개국 3만 개 문제로 인공지능 추론 능력 검증
3 GPT-5도 고난도 문제 30% 해결 못 해 한계 노출

인공지능의 한계를 시험할 강력한 데이터셋이 세상에 나왔습니다. 매사추세츠 공과대학교 연구진은 세계 최대 규모의 수학 문제 모음인 매스넷을 전격 공개했습니다. 이 데이터셋은 인공지능이 얼마나 복잡한 사고를 할 수 있는지 확인하는 새로운 척도가 될 전망입니다. 전 세계 47개국에서 모은 3만 개 이상의 고난도 문제가 포함되었습니다.

전 세계 수학 영재들의 지혜를 한곳에

기존의 데이터셋은 주로 미국이나 중국의 문제에만 집중되어 있어 한계가 있었습니다. 하지만 이번에 공개된 자료는 6개 대륙의 독특한 수학적 전통을 모두 담아냈습니다. 한국어를 포함한 17개 언어로 구성되어 인공지능의 언어 능력도 함께 평가할 수 있습니다. 40년 동안 쌓인 전 세계 수학 영재들의 지혜가 한곳에 모인 셈입니다. 연구진은 이를 위해 2만 5,000페이지에 달하는 방대한 자료를 일일이 추적했습니다. 수십 년 된 스캔본까지 디지털화하여 인공지능 학습을 위한 고품질 데이터를 완성했습니다.

GPT-5조차 무릎 꿇린 고난도 문제

연구진이 최신 인공지능들을 대상으로 직접 테스트를 진행해 본 결과는 놀라웠습니다. 결과는 예상보다 훨씬 낮은 정답률을 기록하며 인공지능의 한계를 드러냈습니다. 최고 성능을 자랑하는 GPT-5조차 정답률이 70%를 넘기지 못한 것으로 나타났습니다. 어려운 문제 3개 중 1개는 인공지능도 제대로 해결하지 못한 것입니다. 구글의 제미나이 역시 복잡한 증명 문제에서는 고전하는 모습을 보였습니다. 이는 인공지능이 단순한 계산을 넘어 깊은 추론을 하는 데 여전히 어려움이 있음을 시사합니다.

그림과 언어의 벽에 부딪힌 기술

특히 그림이나 도표가 포함된 문제에서 인공지능은 매우 큰 약점을 보였습니다. 시각적인 정보를 이해하고 수학적으로 연결하는 능력이 아직 부족하기 때문입니다. 비주류 언어로 된 문제에서는 아예 정답을 맞히지 못하는 경우도 속출했습니다. 인공지능 학습 데이터가 특정 국가나 언어에 치우쳐 있다는 사실이 증명된 것입니다.

벤치마크	규모	언어	난이도
GSM8K	8,500	영어	초등 수준
MATH	12,500	영어	고등 수준
매스넷	30,676	17개 언어	올림피아드

위 표에 따르면 매스넷은 기존 데이터셋보다 규모와 난이도 면에서 압도적인 차이를 보입니다. 인공지능의 진짜 실력을 검증하기 위한 가장 가혹한 시험대인 셈입니다.

누구나 공부할 수 있는 공평한 기회

이번 프로젝트의 목적은 단순히 인공지능을 시험하는 것에만 머물지 않습니다. 교육 환경이 열악한 전 세계 학생들에게 공평한 학습 기회를 주는 것이 핵심입니다. 누구나 무료로 최고 수준의 수학 문제를 공부할 수 있는 온라인 공간이 열린 것입니다. 이는 전 세계적인 교육 격차를 해소하는 데 큰 기여를 할 것으로 보입니다. 매스넷은 현재 깃허브와 허깅페이스를 통해 누구나 자유롭게 이용할 수 있습니다. 이번 연구 결과는 국제 학술 대회인 ICLR 2026에서 공식 발표되며 큰 주목을 받았습니다.