(2-2) GPT-5.2 vs. Gemini 3 대결, 누가 ‘세계 최고’? - 애플경제

[AI] gpt-5.2 | | 🔬 연구
#ai 대결 #ai 딜 #gemini #gemini 3 #gpt-5 #gpt-5.2 #애플경제 #ai 벤치마크 #review #구글 #오픈ai
원문 출처: [AI] gpt-5.2 · Genesis Park에서 요약 및 분석

요약

오픈AI의 GPT-5.2와 구글의 제미니 3는 전반적인 벤치마크 성능에서 대동소이하며, 미세한 수치 차이로 GPT-5.2가 근소하게 앞서는 수준입니다. GPT-5.2는 스프레드시트, 코딩, 웹 개발 등 복잡한 업무 처리에 강점을 보이고, 제미니 3는 텍스트-이미지 변환, 검색 등 멀티모달 기능과 구글 생태계 연동성이 뛰어납니다. 두 모델 모두 월 20달러로 가격 경쟁력이 비슷하므로, 사용자는 각자의 목적과 워크플로우에 맞춰 선택할 필요가 있습니다.

본문

각종 벤치마크 측정, “특정 용도별 차이, 일부 GPT 5.2가 약간 앞서” 제미니 3, ‘텍스트, 이미지 인식, 텍스트-이미지 변환, 이미지 편집, 검색’ 우수 GPT 5.2 ‘스프레드시트, PPT, 코딩, 이미지 인식, 긴 문맥, 도구 사용’ 등서 강해 “제미니 3, 다양한 구글 생태계와 관련 제품 접목이 장점” [애플경제 엄정원 기자] 오픈AI가 구글 제미니3 시리즈의 대항마로 GPT-5.2를 내놓으면서 양자 간 AI경쟁은 더욱 가열되고 있다. 현재로선 세계 최고 성능의 AI모델 자리를 두고 치열한 경쟁을 벌이게 된 셈이다. GPT-5.2는 이미 유료 고객을 대상으로 배포 중이며, 곧 일반 사용자들에게도 제공될 예정이다. 이는 오픈AI CEO 샘 알트만이 AI 회사에 ‘적색 경보’를 발령한 내용이 담긴 내부 문건이 유출된 직후 한 달만에 나온 결과물이다. 앞서 구글의 최신 AI 모델인 제미니 3는 다양한 벤치마크 테스트와 ‘LMArena AI’ 순위표에서 기존 GPT 5.1이나 앤스포릭 ‘클로드 오퍼스’ 등을 압도하는 성적을 거두었다. 제미니 3 출시 한 달만에 다시 강적 GPT 5.2 출현 그러나 GPT 5.2가 등장하면서 다시 제미니3의 강적이 출현한 셈이다. 그렇다면 오픈AI의 GPT-5.2는 구글의 제미니 3와 비교했을 때 성능이 어떨까. 각종 외신과 기술매체 등에선 양자의 벤치마크 성능, 가격 등 각종 스펙 비교를 통해 우열을 판가름해보려는 시도가 이어지고 있다. 이들을 대략 요약해보면, 두 모델은 성능은 대체로 비슷하면서도, 각각 특정 영역에서 우위를 점하고 있는 것으로 보인다. 일단 오픈AI는 GPT-5.2가 ‘전문 지식 작업’ 분야에서 다른 AI 모델보다 뛰어나다고 주장한다. 오픈AI는 GPT-5.2가 “스프레드시트 작성, 프레젠테이션 제작, 코딩, 이미지 인식, 긴 문맥 이해, 도구 사용, 복잡하고 여러 단계를 거치는 프로젝트 처리에 더 능숙하다”고 자신하고 있다. 다만 보다 객관적인 ‘LMArena’ 순위표를 보면, GPT-5.2는 적어도 한 가지 핵심 영역, 즉 ‘웹 개발’에선 사용자들에게 좋은 인상을 주고 있는 것으로 보인다. 해당 순위표에서 상위 모델인 ‘GPT-5.2-high’는 ‘클로드 오퍼스’ 4.5에 이어 2위를 차지했다. ‘제미니 3’ Pro는 4위, 기본 GPT-5.2 모델은 6위를 기록했다. 결론적으로 ‘웹 개발’ 작업에선 GPT-5.2가 Gemini 3보다 우수한 것으로 보인다. 하지만 아직 출시 초기 단계이므로 완전히 확정할 수는 없다. 이에 반해 LMArena의 다른 순위표에서는 GPT-5.2가 순위에 들지 못했다. 하지만 GPT-5.2는 앞으로 좀더 두고봐야 한다는 의견도 있다. 각종 벤치마크 측정 결과, “미미한 차이” 분명 현재로선 텍스트, 이미지 인식, 텍스트-이미지 변환, 이미지 편집, 검색 부문에서는 다양한 버전의 Gemini 3가 1위를 차지하고 있다. 이와 유사한 구글e Veo 3 모델은 텍스트-비디오 변환과 이미지-비디오 변환 부문에서 1위를 기록하고 있다. 결국 이 분야의 전체 순위에서도 Gemini 3가 1위를 차지하고 있으며, GPT-5.2는 아직 순위권에 들지 못했다. 다만 GPT-5.1-high는 현재 전체 순위에서 6위를 기록하고 있다. 이에 대해 샘 앨트먼이 매우 불만을 느끼고 있다는 얘기도 들린다. 현재 오픈AI측이 발표한 GPT-5.2 벤치마크 결과를 100% 신뢰할 수는 없다. 예를 들어 ‘ ScaleAI’와 같은 제3의 측정 기관의 순위에도 아직 이는 포함되어 있지 않다. 하지만 구글과 오픈AI 측이 각각 발표한 벤치마크 결과를 비교해 보면 대충 우열을 짐작할 수도 있다는 분석이다. 우선 ‘SWE-bench’ 검증 결과에선 구글 제미니 3의 점수가 76.2%, 오픈AI GPT-5.2의 점수가 80%로 발표되었다. GPT-5.2가 박빙으로 앞서지만, 사실상 동률에 가깝다. 또 ‘Humanity's Last Exam(HLE)’는 도구를 사용하지 않는 범위의 성능을 측정한 결과, 구글제미니 3은 37.5%, 오픈AI GPT-5.2는 34.5%로 발표했다. 제미니 3이 약간 앞서지만, 역시 거의 동급이라고 할 수 있다. ‘GPQA Diamond’의 경우 제미니 3은 91.9%, GPT-5.2은 92.4%로 나타나, 후자가 약간 앞서면서 역시 동률에 가깝다. AIME 2025가 또한 도구 미사용 성능을 측정한 결과에선 제미니 3이 95%, GPT-5.2가 100% 점수를 받았다. GPT-5.2가 약간 앞서는 결과다. 그러나 구글측은 이를 부인하며, “제미니3가 91.8%, GPT-5.2가 89.6%의 점수를 받았다”고 발표하기도 했다. 이들 결과를 종합하면, 전반적으로 두 모델 모두 벤치마크 성능에서 장단점이 엇갈린다. 굳이 따지면 GPT-5.2가 미미한 차이로 앞서긴 한다. 현재 양사 모두 자체 웹사이트에서 전체 벤치마크 성능 결과를 공개하고 있다. “비슷한 가격과 성능, 사용자 선택하기 나름” Gemini 3와 GPT-5.2는 모두 시리즈 형태다. 각각 제미니와 챗GPT 플랫폼에 통합된다. 이 플랫폼들은 서로 다른 기능을 제공한다. 예를 들어, 제미니는 사용자가 AI로 사진과 동영상을 생성할 수 있도록 지원한다. 챗GPT는 이미지 생성은 가능하지만, AI 동영상 제작에는 소라(Sora) 앱이 필요하다. 전문가 수준의 사용자들은 구글이나 오픈AI의 API와 기업 시스템을 통해 이들 새로운 모델에 접근할 수 있다. 눈길을 끄는 것은 제미니 3가 특히 한 가지 유리한 측면이 있다는 점이다. 분명 제미니 3는 GPT-5.2보다 더 많은 제품에 통합되어 있어, 사용자가 새로운 추론 모델에 접근할 수 있는 방법이 더 다양하다는 사실이다. 즉, 제미지 앱과 구글 앱 외에도 제미니 3는 구글 AI 모드에 탑재되어 있다. 또한 구글은 제미니3를 다양한 구글 AI 스튜디오 프로젝트와 ‘NotebookLM’같은 도구에도 접목했다. 이에 “GPT-5.2의 성능이 더 우수하더라도 제미니 3를 통해 더 많은 다양한 작업을 수행할 수 있다.”는 것이다. 가격 면에서는 두 AI 모델이 비슷한 수준이다. 오픈AI의 챗GPT Plus 플랜(Pro 플랜은 월 200달러)은 미화 월 20달러(한화 약 2만9천원)로 GPT-5.2 모델에 대한 확장된 접근 권한을 제공한다. 구글 역시 구글 AI Pro 플랜(구글 클라우드 스토리지가 포함된 구글 AI 울트라는 월 249.99달러)을 미화 월 20달러에 제공한다. API 접근 가격 측면에서도 두 모델은 거의 비슷하다. 또 GPT-5.2는 입력 토큰 100만 개당 1.75달러, 출력 토큰 100만 개당 14달러다. 제미니 3는 입력 토큰 100만 개당 2달러, 출력 토큰 100만 개당 12달러다. 그래서 “두 AI 모델을 모두 사용해본 다음, 어떤 모델이 자신의 요구사항과 워크플로에 가장 적합한지 확인해볼 필요가 있다”는 의견이다.

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

공유

관련 저널 읽기

전체 보기 →