뉴스피드 큐레이션 SNS 대시보드 저널

GPT-5도 어린이 종이접기 문제에서 길을 잃었다 - AI 매터스

[AI] multimodal ai | | 🤖 AI 모델
#ai 모델 #gpt-5 #ai 딜 #eq 감성 #gpt-5.1 #openai #유료 사용자 #인공지능 #챗gpt

요약

오픈AI가 공개한 차세대 모델 GPT-5.1은 기계적 답변을 넘어 사용자의 톤을 조절하고 지시를 정확히 수행하는 등 대화력과 지능이 대폭 강화되었습니다. 새로운 모델은 프로 및 비즈니스 등 유료 사용자에게 우선 적용된 후 무료 사용자에게까지 순차적으로 확대 제공될 예정입니다. 특히 애플이 iOS 26부터 시리와 챗GPT 통합을 지원하며 GPT-5.1 탑재를 예고해, AI와의 자연스러운 소통이 더욱 가까워질 전망입니다.

왜 중요한가

개발자 관점

검토중입니다

연구자 관점

검토중입니다

비즈니스 관점

검토중입니다

관련 엔티티

GPT-5 오픈AI GPT-5.1 애플 iOS 26 시리 챗GPT

본문

GPT-5는 박사급 수학 시험을 척척 풀어낸다. 그런데 종이 한 장을 접어 정육면체를 만든 모습을 떠올리는 문제 앞에서는 이상하게 손을 못 댄다. 어린아이도 머릿속에서 어렵지 않게 풀어내는 종류의 문제다. 센스타임 리서치(SenseTime Research)와 난양공과대학(Nanyang Technological University) 연구팀이 100억 토큰 이상을 쓰며 GPT-5, 제미나이(Gemini), 그록(Grok), 시드(Seed), 큐원(Qwen), 인턴(Intern) 등 최상위 멀티모달 AI 6개 계열을 8개 공간지능 벤치마크에서 정면 비교했다. 결과는 “지금 가장 똑똑한 AI는 누구인가”라는 질문에 한 줄로 답하기 어려운 풍경을 보여준다. 100억 토큰을 쏟은 EASI 실험에서 1위를 차지한 GPT-5 EASI(Holistic Evaluation of multimodAl LLMs on Spatial Intelligence)는 멀티모달 AI의 공간지능을 평가하기 위해 만들어진 통합 프레임워크다. 연구팀은 약 3만 1천 장의 이미지, 4천 5백 개의 영상, 2만 4천 개의 문제로 구성된 8개 벤치마크를 활용해 6개 계열의 최상위 모델을 같은 조건에서 시험에 올렸다. 평균 점수 기준으로 GPT-5가 43.06점으로 1위를 차지했고, 그 뒤를 제미나이 2.5 프로(Gemini 2.5 Pro)가 40.25점으로 바짝 따라붙었다. GPT-5-미니(GPT-5-mini), 시드 1.6(Seed 1.6), 그록 4(Grok 4) 순으로 줄을 섰다. GPT-5는 8개 벤치마크 중 7개에서 최고점을 가져갔다. 사실상 “가장 똑똑한 AI”라는 타이틀을 다시 한 번 확인한 셈이다. 인간 평균 86점, GPT-5 43점이라는 절반의 격차 같은 시험을 인간 평가자에게 풀게 했더니 평균 86.41점이 나왔다. GPT-5의 43.06점과 비교하면 정확히 두 배 차이다. 더 노골적으로 격차가 드러나는 영역도 있다. 다중 이미지 공간지능을 평가하는 MMSI 벤치마크에서 GPT-5는 인간 점수보다 76점 이상 낮았다. 멘탈큐브(MindCube)와 스테어(STARE) 같은 시점 변환·기하 변형 과제에서도 50점 안팎의 격차가 벌어졌다. 다시 말해, 시험 점수표만 보면 1등은 GPT-5가 맞다. 하지만 그 1등은 인간이 거의 만점을 받는 시험에서 절반 정도밖에 받지 못한 1등이다. 일반적인 AI 벤치마크에서는 이미 인간을 추월한 듯 보이던 모델들이 공간지능 영역에 들어서면 갑자기 어린아이 수준으로 떨어지는 모습을 보인다. 종이 상자를 접지 못하는 AI, 가려진 블록을 못 세는 AI 이 격차가 어디에서 오는지 가장 직관적으로 보여주는 장면이 논문에 나온다. 첫 번째 장면은 종이 상자다. 펼쳐진 정육면체 전개도가 한 장 주어지고, 이를 접었을 때 어떤 모양이 되는지 네 가지 보기 중에서 고르는 문제다. 정답은 4번이었지만 GPT-5는 2번을 골랐다. 두 번째 장면은 더 단순하다. 책상 위에 작은 블록 여러 개가 쌓여 있는 사진을 보여주고, 총 몇 개인지 묻는다. 정답은 8개였다. 보이는 블록은 정확히 인식했지만, 뒤쪽에 가려진 블록의 존재를 추론하지 못해 GPT-5는 10개라고 답했다. 어린아이라면 “안 보이는 곳에도 블록이 있어야 위에 있는 블록이 떠 있지 않지”라고 자연스럽게 추론하는 영역이다. 이런 실패 사례는 공간지능이 단순히 시각 인식이 아니라 머릿속에서 3차원 모델을 만들고 회전시키고 가려진 부분을 채워 넣는 능력임을 보여준다. 마치 운전자가 GPS 화면 속 도로명을 모두 읽을 줄 알면서도 막상 좌회전 후 골목길을 그려보라고 하면 막막해지는 것과 비슷하다. 정보는 다 있는데, 머릿속에 공간을 세우지 못하는 것이다. 3D 회전에서 무작위 찍기보다 못한 점수가 나온 이유 연구팀이 가장 흥미롭게 짚은 결과는 따로 있다. 정신적 회전(Mental Rotation) 과제에서 GPT-5는 무작위 찍기보다 더 낮은 점수를 받았다. 정신적 회전이란 어떤 물체를 머릿속에서 90도 또는 180도 회전시킨 모습을 상상하는 능력을 말한다. 흥미로운 점은 같은 GPT-5가 2D 회전 문제는 인간 수준에 가깝게 풀어낸다는 것이다. 그런데 같은 형태의 문제를 3D로 옮기는 순간 점수가 약 46점이나 떨어진다. 평면 도형을 머릿속에서 돌리는 것과 입체 도형을 돌리는 것은 인간에게는 거의 같은 작업처럼 느껴지지만, AI에게는 전혀 다른 차원의 문제라는 뜻이다. 연구팀은 이 격차의 원인을 “근본적인 공간 표현(spatial representation)의 결여”로 진단한다. AI가 추론 과정 자체는 그럴듯하게 펼치지만, 머릿속에 입체 모델을 세우는 단계에서 무너진다는 설명이다. 작가가 등장인물의 동선을 머릿속으로 그리지 못한 채 시나리오를 쓰는 상황과 비슷하다. 문장은 매끄럽지만 인물이 어디에 있고 어디로 움직이는지가 어긋난다. 가장 어려운 문제에서 오픈소스가 비싼 모델을 따라잡는다 마지막으로 눈에 띄는 발견은 비용 구도와 관련이 있다. 일반적인 AI 시험에서는 유료 상용 모델이 오픈소스 모델보다 압도적으로 앞서는 경우가 많았다. 그런데 공간지능 시험에서 가장 어려운 문제들로 좁혀 보면 격차가 사라진다. 인간 점수보다 60점 이상 낮은 극단적인 난이도 영역에서는 GPT-5와 오픈소스 모델인 인턴VL3(InternVL3), 큐원2.5-VL(Qwen2.5-VL) 사이의 차이가 약 15점 이내로 줄어들었다. 옴니스페이셜(OmniSpatial) 벤치마크의 기하 추론, 가설 추론 같은 일부 카테고리에서는 오픈소스 모델이 상용 모델을 따라잡거나 오히려 앞서기도 했다. 이 결과는 두 가지 가능성을 동시에 보여준다. 하나는 공간지능이라는 영역에서는 폐쇄형 모델의 우위가 절대적이지 않다는 점이다. 또 하나는, 이 분야가 아직 정복되지 않은 신대륙이라는 점이다. 누가 먼저 머릿속에 3차원 모델을 세우는 AI를 만들 것인가가 다음 경쟁의 축이 될 가능성이 있다. 연구팀은 EASI 코드와 평가 리더보드를 깃허브(GitHub)와 허깅페이스(Hugging Face)에 공개해, 이 경쟁이 더 빠르게 진행되도록 판을 깔아두었다. FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 공간지능이란 정확히 무엇인가요? 공간지능(Spatial Intelligence)이란 사물의 크기, 위치, 방향을 머릿속에 3차원으로 그려보고 회전시키거나 변형시키는 능력을 말합니다. 종이를 접어 상자를 만드는 모습을 떠올리거나, 가려진 물체의 존재를 추론하거나, 다른 시점에서 본 모습을 상상하는 것이 모두 여기에 해당합니다. 사람에게는 자연스럽지만 AI에게는 가장 어려운 능력 중 하나로 꼽힙니다. Q2. GPT-5가 1위라면, 일상에서는 GPT-5만 쓰면 되나요? 공간지능 평균 점수에서는 GPT-5가 1위지만, 인간 평균과 비교하면 절반 수준에 머무릅니다. 사진 속 사물 크기 추정이나 단순한 위치 관계 판단에는 충분히 신뢰할 수 있지만, 가구 배치 시뮬레이션이나 종이접기 안내처럼 머릿속에 3차원 구조를 세워야 하는 작업에서는 결과를 다시 확인하는 편이 안전합니다. Q3. 오픈소스 모델이 GPT-5를 따라잡았다고 하던데 사실인가요? 전체 평균에서는 GPT-5가 앞섭니다. 다만 공간지능 중에서도 가장 어려운 문제로 좁히면 오픈소스 모델과의 격차가 약 15점 이내로 줄어듭니다. 일부 카테고리에서는 오픈소스 모델이 상용 모델을 앞서기도 합니다. 비용 효율을 중시하는 조직이라면 오픈소스 모델을 진지하게 검토할 만한 근거가 생긴 셈입니다. 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. 리포트명: Holistic Evaluation of Multimodal LLMs on Spatial Intelligence 이미지 출처: AI 생성 콘텐츠 해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

관련 저널 읽기

전체 보기 →