세계 최대 규모 올림피아드 수학 데이터셋 ‘매스넷(MathNet)’ 오픈소스로 공개...MIT, AI 추론 능력 검증과 교육 민주화 - 인공지능신문

[AI] 오픈소스 ai | | 🧠 기타 AI
#ai 역량 강화 #ai 윤리 #review #기타 ai #생성형 ai
원문 출처: [AI] 오픈소스 ai · Genesis Park에서 요약 및 분석

요약

세계 최대 규모 올림피아드 수학 데이터셋 ‘매스넷(MathNet)’ 오픈소스로 공개...MIT, AI 추론 능력 검증과 교육 민주화 인공지능신문

본문

전 세계 47개국, 17개 언어, 143개 경시대회에서 수집된 3만 개 이상의 전문가 집필 문제와 솔루션을 포함 인공지능의 수학적 추론 능력을 한 단계 끌어올릴 세계 최대 규모의 올림피아드 수준 수학 데이터셋이 공개되었다. 매년 국제수학올림피아드(IMO) 참가국들이 제출한 뒤 흩어졌던 독창적인 문제들이 체계적으로 수집·정리되어 AI 연구자와 전 세계 학생들에게 무료로 개방된다. 매사추세츠 공과대학교(MIT) 컴퓨터과학·인공지능연구소(CSAIL)는 사우디아라비아의 킹 압둘라 과학기술대학교(KAUST), 기술 기업 휴메인(HUMAIN)과 공동으로 3만 개 이상의 수학 문제와 해설을 담은 ‘매스넷(MathNet)’을 24일(현지시간) 오픈소스로 공개했다. 특히, 매스넷은 지금까지 구축된 증명 기반 수학 데이터셋 중 가장 크고 품질이 높다. 전 세계 47개국, 17개 언어, 143개 경시대회에서 수집된 3만 개 이상의 전문가 집필 문제와 솔루션을 포함하고 있으며, 이는 기존 유사 데이터셋보다 5배 이상 큰 규모다. 이 데이터셋의 진정한 차별점은 ‘다양성’에 있다. 기존 데이터셋이 주로 미국과 중국의 경시대회 문제에 치중했던 것과 달리, 매스넷은 6개 대륙 수십 개국의 문제를 망라한다. 루마니아의 조합론 문제나 브라질의 정수론 문제 등 각국 수학계의 독특한 관점과 전통을 담아내어 AI 모델이 더욱 폭넓은 수학적 사고를 학습할 수 있도록 설계되었다. 이번 프로젝트를 주도한 MIT 박사과정 샤덴 알샤마리(Shaden Alshammari)는 “각국이 가져온 창의적인 문제 책자들이 행사 후 흩어지는 것이 안타까웠다”고 배경을 밝혔다. 연구진은 이를 위해 2만 5,000페이지에 달하는 1,500여 권의 PDF와 수십 년 된 스캔본을 추적했다. 특히 2006년부터 수작업으로 올림피아드 문제집을 수집해 온 나비드 사파에이(Navid Safaei)의 개인 아카이브가 데이터셋 구축의 결정적 토대가 되었다. 매스넷에 수록된 솔루션들은 전문가의 검토를 거친 공식 해설로, 한 문제에 대해 여러 가지 접근 방식을 제시한다. 이는 온라인 커뮤니티에서 수집된 짧고 비공식적인 해설보다 AI의 추론 학습에 훨씬 더 풍부한 신호를 제공하며, 고난도 경시대회를 준비하는 학생들에게도 독보적인 학습 자원이 될 전망이다. 연구진은 매스넷을 통해 최신 AI 모델들의 성능을 벤치마킹한 결과, 최근의 ‘수학 정복’ 보도와는 상반된 복합적인 결과가 도출되었다고 밝혔다. 테스트 결과, 현존 최고 사양인 GPT-5조차 매스넷의 6,400개 핵심 문제에서 평균 69.3%의 정답률에 머물렀다. 올림피아드 수준의 문제 3개 중 1개는 여전히 풀지 못한다는 의미다. 특히 문제가 그림이나 도표를 포함하는 경우 모든 모델의 성능이 급격히 하락하여, AI의 ‘시각적 추론’ 능력이 여전히 해결해야 할 과제임을 드러냈다. 언어 장벽 문제도 지적되었다. 일부 오픈소스 모델들은 몽골어와 같은 비주류 언어로 된 문제에서 0%의 정답률을 기록했다. 이는 AI 학습 데이터가 특정 언어와 문화권에 편중되어 있음을 시사한다. 매스넷은 단순한 문제 풀이를 넘어, 두 문제가 동일한 수학적 구조를 공유하는지 식별하는 ‘검색(Retrieval)’ 벤치마크도 도입했다. 테스트 결과, 최첨단 임베딩 모델들도 구조적 동등성을 단번에 찾아낼 확률이 5%에 불과한 것으로 나타났다. 알샤마리 연구원은 “이 데이터셋이 AI의 추론 모델 개선뿐만 아니라, 자국 내 교육 인프라가 부족한 전 세계 학생들에게 평등한 기회를 제공하는 중앙 집중식 학습 공간이 되길 바란다”고 강조했다. 현재, 데이터셋 매스넷은 깃허브(다운)와 허깅페이스(다운)를 통해 누구나 공개적으로 이용할 수 있다. 이번 연구 결과는 이달 말 브라질에서 열리는 국제 학습 표현 컨퍼런스(ICLR 2026)에서 '수학적 추론 및 검색을 위한 글로벌 멀티모달 벤치마크(A Global Multimodal Benchmark for Mathematical Reasoning and Retrieval-다운)'란 제목으로 발표됐다.

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

공유

관련 저널 읽기

전체 보기 →