기술/연구

“GPT-5도 쩔쩔매네” MIT가 공개한 세계 최대 규모 수학 AI 데이터셋

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.04.29 12:33

기사 3줄 요약

1 MIT가 세계 최대 수학 데이터셋 매스넷을 공개함
2 47개국 3만 개 이상의 올림피아드 문제 포함
3 최신 AI도 정답률 69퍼센트에 그치며 한계 노출

GPT-5 같은 최강 인공지능도 쩔쩔매는 수학 시험지가 나타났습니다. MIT 연구진이 전 세계 수학 올림피아드 문제를 싹 모은 매스넷을 공개했습니다. 인공지능의 진짜 똑똑함을 시험할 수 있는 세계 최대 규모의 데이터셋입니다. 47개국에서 모인 방대한 문제를 통해 기계의 사고력을 정밀하게 측정합니다.

47개국 천재들의 문제를 한곳에

매스넷은 전 세계 47개국에서 열린 143개 수학 경시대회 문제를 담고 있습니다. 무려 3만 개가 넘는 전문가들의 문제와 정교한 해설이 포함되었습니다. 기존에 있던 비슷한 데이터셋보다 규모가 5배나 더 큽니다. 미국이나 중국뿐만 아니라 브라질과 루마니아 같은 다양한 국가의 문제를 모았습니다. 각 나라 수학계만의 독특한 사고방식을 인공지능이 배울 수 있게 설계했습니다. 이를 위해 연구진은 수십 년 된 낡은 종이 문제집까지 일일이 찾아내어 스캔했습니다.

GPT-5조차 세 문제 중 하나는 틀려

최신 모델인 GPT-5를 대상으로 매스넷의 핵심 문제들을 풀게 해봤습니다. 정답률은 약 69퍼센트에 그치며 인공지능의 한계를 명확하게 보여주었습니다. 수학 올림피아드 수준의 복잡한 추론 앞에서는 기계도 고전하는 셈입니다. 특히 그림이나 도표가 들어간 문제에서는 정답률이 훨씬 더 떨어졌습니다. 글자만 읽는 것은 잘하지만 시각 정보를 이해하는 능력은 아직 부족합니다. 몽골어 같은 비주류 언어 문제에서는 아예 손도 못 대는 모습도 보였습니다. 매스넷은 단순히 답을 맞히는 것을 넘어 문제의 구조를 이해하는지도 확인합니다. 최첨단 모델조차 문제들 사이의 논리적 유사성을 찾아낼 확률이 5퍼센트뿐이었습니다. 이는 인공지능이 수학적 원리를 깊이 있게 파악하지 못하고 있음을 뜻합니다.

전 세계 학생들에게 열린 공부방

MIT는 이 방대한 자료를 깃허브와 허깅페이스에 모두 무료로 올렸습니다. 교육 환경이 좋지 않은 나라의 학생들도 최고의 문제를 접할 수 있습니다. 수학 교육의 불평등을 해소하고 누구나 공부할 기회를 주려는 목적입니다. 이번 연구 결과는 전 세계 AI 연구자들이 더 발전된 모델을 만드는 데 쓰일 것입니다. 수학 AI의 성능을 높이면 과학과 공학 분야에서도 혁신적인 변화가 일어납니다. 매스넷은 인공지능이 진정한 지능을 갖추기 위한 중요한 시험대가 될 전망입니다.