환영해🦉
기술/연구

“GPT-5도 30%는 틀렸다?” MIT의 세계 최대 수학 데이터셋 충격 공개

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.05.02 00:14
“GPT-5도 30%는 틀렸다?” MIT의 세계 최대 수학 데이터셋 충격 공개

기사 3줄 요약

  • 1 MIT 세계 최대 수학 올림피아드 데이터셋 매스넷 공개
  • 2 47개국 3만 개 고난도 문제와 전문가 해설 포함
  • 3 GPT-5 정답률 69% 기록하며 추론 능력 한계 노출
MIT 컴퓨터과학 인공지능연구소가 세계 최대 규모의 수학 데이터셋 매스넷을 공개했습니다. 인공지능의 추론 능력을 정교하게 검증하려는 목적입니다. 이 데이터셋은 킹 압둘라 과학기술대학교와 기술 기업 휴메인이 공동으로 제작했습니다. 연구진은 24일 해당 데이터를 오픈소스로 누구나 이용하게 했습니다.

인공지능 지능 테스트 시작된다

매스넷은 47개국에서 수집한 3만 개 이상의 전문가 집필 문제로 구성되었습니다. 17개 언어와 143개 경시대회 내용을 포함합니다. 기존 데이터셋보다 5배 이상 큰 규모를 자랑하며 다양성을 확보했습니다. 루마니아와 브라질 등 각국 수학계의 독특한 관점이 담겼습니다. 2만 5,000페이지 분량의 방대한 자료를 추적하여 정리했습니다. 수작업으로 수집된 개인 아카이브가 데이터 구축의 토대가 되었습니다.

전 세계 수학 문제가 한곳에

최신 인공지능 모델들을 대상으로 성능을 측정한 결과는 꽤나 충격적입니다. 현존 최고 사양인 GPT-5조차 정답률이 69% 수준에 머물렀습니다. 올림피아드 수준 문제 3개 중 1개는 여전히 풀지 못한 셈입니다. 특히 그림이나 도표가 포함된 문제에서 성능이 크게 떨어졌습니다. 이는 인공지능의 시각적 추론 능력이 여전히 과제임을 보여줍니다. 복잡한 구조를 파악하는 능력은 사람보다 한참 뒤처지는 모습입니다.

천재 인공지능도 정답률은 69%

몽골어와 같은 비주류 언어에서는 정답률이 0%를 기록하기도 했습니다. 이는 인공지능 학습 데이터가 특정 국가에 편중되었음을 뜻합니다. 기술의 혜택이 특정 문화권에만 쏠려 있다는 지적이 나옵니다. 다양한 언어 환경에 대한 학습이 시급하다는 분석이 따릅니다. 연구진은 이번 데이터가 인공지능 모델 개선에 큰 도움을 줄 것으로 보고 있습니다. 언어와 문화의 장벽을 넘는 학습이 가능해질 전망입니다.

누구나 무료로 공부하는 시대

매스넷은 교육 인프라가 부족한 학생들에게 평등한 기회를 제공합니다. 깃허브와 허깅페이스를 통해 누구나 자유롭게 내려받을 수 있습니다. 중앙 집중식 학습 공간으로서 전 세계 학생들에게 도움을 줍니다. 전문가의 공식 해설이 포함되어 학습 가치가 매우 높습니다. 하나의 문제에 대해 여러 가지 접근 방식을 제시하기도 합니다. 이는 인공지능의 논리적 사고 학습에 풍부한 신호를 제공합니다.

앞으로가 더 기대되는 이유

이번 연구 결과는 국제 학습 표현 컨퍼런스에서 공식 발표되었습니다. 인공지능의 추론 능력을 개선할 중요한 지표가 될 전망입니다. 고난도 경시대회를 준비하는 학생들에게도 독보적인 자원이 됩니다. 데이터셋 공개는 교육의 질을 높이는 계기가 될 것으로 보입니다. 전 세계 수학계의 전통을 담아낸 시도는 혁신적이라는 평가를 받습니다. 인공지능과 사람이 함께 성장하는 발판이 마련되었습니다.
편집자 프로필
편집: 이도윤 기자
이메일: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

AI가 수학 문제 30% 틀린 것, 충격적인가?

댓글 0

관련 기사