오픈AI, ‘GPT-5.2’ 공개…공식 성능표 보니 GPT-5.1 대비 ‘전 구간 상승’ - kmjournal.net

[AI] arc-agi-2 | | 🔬 연구
#ai 딜 #gpt-5 #gpt-5.1 #gpt-5.2 #openai #성능 상승 #ai경쟁 #gemini #review #성능개선 #언어모델 #오픈ai
원문 출처: [AI] arc-agi-2 · Genesis Park에서 요약 및 분석

요약

오픈AI가 공개한 최신 언어모델 GPT-5.2는 전작 GPT-5.1 대비 코딩, 수학, 과학 등 주요 벤치마크에서 전방위적인 성능 향상을 기록하며 기술적 우위를 확인했습니다. 특히 지식 노동 능력 수치는 두 배 가까이 뛰어오르는 등 사고력과 추론 능력에서 비약적인 진보를 보였고, 오류율도 30% 감소하여 신뢰도가 크게 개선되었습니다. 또한 경쟁 모델인 구글의 제미나이3 프로와 비교해서도 대다수 평가 항목에서 앞서며, 글로벌 AI 경쟁에서 다시금 주도권을 잡았다는 평가를 받고 있습니다.

본문

오픈AI가 최신 언어모델 GPT-5.2를 11일(현지시간) 발표하면서, 기존 모델 GPT-5.1을 뛰어넘는 성능을 공식 표로 공개했다. 특히 코딩·수학·과학·추상 추론 등 주요 벤치마크에서 큰 폭으로 개선된 수치가 확인되면서 글로벌 AI 경쟁이 다시 출렁이고 있다. 이번 성능표는 GPT-5.2가 단순한 소폭 업그레이드가 아니라, 사고력·추론·코딩 능력을 중심으로 ‘세대 교체’에 가까운 변화라는 점을 보여준다. GPT-5.2 vs GPT-5.1, 공식 수치로 보니 “전 구간 업그레이드” 오픈AI가 공개한 성능표에서 가장 눈에 띄는 변화는 지식 노동 능력(GDPval)이다. ▲GPT-5.2 Thinking: 70.9% / ▲GPT-5.1 Thinking(표기상 GPT-5): 38.8% 전 모델에 비해 두 배 가깝게 성능이 향상되었다. ‘전문가 수준 업무를 얼마나 정확하게 수행했는지’를 측정하는 항목에서 이 정도 차이가 난다는 건, 실제 업무 생산성 측면에서도 체감되는 성능이라는 의미다. 코딩 성능 확 올라…SWE-Bench Pro·Verified 모두 5.2가 우세 코딩 실력을 평가하는 SWE-Bench Pro 성능도 ▲GPT-5.2 Thinking: 55.6% ▲GPT-5.1 Thinking: 50.8%로 크게 개선됐다. 또 다른 실전형 코딩 벤치마크인 SWE-bench Verified에서도 ▲GPT-5.2: 80.0% ▲GPT-5.1: 76.3%을 기록해 전반적인 성능 향상이 확인되었다. 그래프에서는 출력 토큰이 늘어날수록 GPT-5.2 곡선이 GPT-5.1, GPT-5.1 Codex-Max보다 계속 위에서 그려진다. 즉, 긴 코드 작업에서도 GPT-5.2가 안정적으로 높은 정확도를 유지한다는 의미다. 수학·과학·추상 추론도 ‘전방위 향상’ GPT-5.2 성능표를 항목별로 보면 수학·과학·추상 추론 분야에서도 확실한 우위가 나타난다. ▲GPQA Diamond(고급 과학 질문): 92.4% vs 88.1% 대비 상승 ▲CharXiv Reasoning(과학 차트 이해): 88.7% vs 80.3% ▲AIME 2025(경시 수학): 100% vs 94% ▲FrontierMath Tier 1–3: 40.3% vs 31.0% ▲ARC-AGI-1: 86.2% vs 72.8% ▲ARC-AGI-2: 52.9% vs 17.6% 특히 ARC-AGI-2에서는 GPT-5.1 대비 3배 넘게 점수가 높아져, “규칙을 스스로 찾는 추상 사고력”에서 가장 큰 개선이 이루어진 지점으로 보인다. 오류율 30% 감소…환각(Hallucination)도 뚜렷하게 줄어 세 번째 그래프는 GPT-5.2가 사실 오류를 얼마나 줄였는지를 보여준다. ▲GPT-5.2 Thinking 오류율: 6.2% ▲GPT-5.1 Thinking 오류율: 8.8% 두 모델의 차이는 약 30%로, 실제 사용자들의 민감한 질문이나 장문 작업에서 안정성이 더 좋아졌다는 의미다. 환각 감소는 GPT-5.2가 강조하는 핵심 성능 중 하나로, 이번 버전의 신뢰도 개선이 수치로 입증된 셈이다. 제미나이3와도 비교 우세 점한 GPT-5.2 이번에 오픈AI가 공개한 표는 GPT-5.2와 GPT-5.1의 비교에 초점을 맞춘 자료다. 다만 다른 매체 보도와 구글의 공식 수치를 종합하면 ▲SWE-Bench ▲GPQA ▲AIME ▲ARC-AGI 등 대부분의 영역에서 GPT-5.2가 제미나이3 프로(Gemini 3 Pro)를 앞선다. | 벤치마크 | GPT-5.2 Thinking | Gemini 3 Pro | 우위 | | SWE-Bench Pro (public) | 55.6% | 43.3% | GPT-5.2 우세 | | SWE-Bench Verified | 80.0% | 76.2% | GPT-5.2 우세 | | GPQA Diamond (no tools) | 92.4% | 91.9% | GPT-5.2 근소 우세 | | CharXiv Reasoning | 88.7% | 81.4% | GPT-5.2 우세 | | AIME 2025 (no tools) | 100% | 95% | GPT-5.2 우세 | | FrontierMath Tier 1–3 | 40.3% | 공개 없음 | - | | ARC-AGI-1 (Verified) | 86.2% | 공개 없음 | - | | ARC-AGI-2 (Verified) | 52.9% | 31.1% | GPT-5.2 압도적 우세 | SWE-Bench Pro(공개 버전) 기준으로 GPT-5.2 Thinking은 55.6%를 기록해 제미나이3 프로(43.3%)를 앞섰다. 반면 SWE-Bench Verified(실제 오픈소스 프로젝트 버그 수정 테스트)에서는 GPT-5.2가 80.0%, 제미나이3 프로가 76.2%로, 두 모델 모두 최고 수준 성능을 보였다. 박사급 과학 문제 GPQA Diamond에서는 GPT-5.2가 92.4%, 제미나이3 프로가 91.9%를 기록했고, 수학 경시 테스트 AIME 2025에서는 GPT-5.2가 100%로 만점을, 제미나이3 프로는 95%를 얻었다. 가장 난도가 높은 추상 추론 시험 ARC-AGI-2에서는 GPT-5.2가 52.9%, 제미나이3 프로가 31.1%로 격차가 크게 벌어졌다. GPT-5.2, 전작 대비 전 구간 상승…“우위는 확인됐지만 혁신은 제한적” GPT-5.2는 주요 벤치마크에서 전작인 GPT-5.1을 확실히 앞서며 기술적 우위를 되찾는 데 성공했다. 코딩·수학·과학·추상 추론 등 핵심 영역에서 폭넓게 성능이 개선됐고, 특히 ARC-AGI·AIME와 같은 고난도 시험에서의 점프는 모델 안정성과 사고력의 성숙을 보여준다. 다만 이번 성능 향상이 기존 모델과의 ‘압도적 격차’를 만들어낼 만큼의 기술적 혁명은 아니라는 평가도 적지 않다. GPT-5.2는 새로운 패러다임을 연다기보다 기존 아키텍처를 정교하게 다듬어 정확도와 신뢰도를 한 단계 끌어올린 ‘정밀 업그레이드형 진화’에 가깝다. 결국 GPT-5.2는 AI 경쟁의 흐름을 다시 주도할 만큼의 실질적 강화는 이루었지만, 기술 판도를 뒤흔드는 대전환을 만들지는 못했다. 다만 이번 개선이 쌓이면서 내년 공개가 예상되는 차세대 프론티어 모델의 성능 향상에 중요한 교두보가 될 가능성은 충분하다. 신주백 기자 [email protected]

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

공유

관련 저널 읽기

전체 보기 →