오픈AI, 'GPT‑5.1-코덱스-맥스' 출시..."제미나이 3보다 코딩 우수" - AI타임스

[AI] live coding ai | | 🔬 연구
#gpt-5 #ai 모델 출시 #gpt-5.1-코덱스-맥스 #openai #review #제미나이 3 #코딩 성능
원문 출처: [AI] live coding ai · Genesis Park에서 요약 및 분석

요약

오픈AI가 ‘GPT‑5.1-코덱스-맥스’를 공식 출시했다고 AI타임스가 보도했습니다. 새로운 모델은 코딩 성능에서 경쟁사인 구글의 제미나이 3를 앞서는 등 우수한 역량을 발휘한 것으로 전해졌습니다. 이번 출시로 향후 AI 코딩 시장의 판도가 바뀔지 주목됩니다.

본문

오픈AI가 최신 모델 'GPT‑5.1-코덱스-맥스(GPT-5.1-Codex-Max)’를 출시했다. 역대 최강으로 꼽힌 '제미나이 3'의 코딩 성능을 뛰어넘는 것으로 나타났다. 오픈AI는 19일(현지시간) 코딩 특화 모델 GPT‑5.1-코덱스-맥스를 공개하고, 'GPT-5.1-코덱스'를 대체해 코덱스 개발 환경의 기본 모델로 적용했다. 단순 코딩을 넘어, 소프트웨어 엔지니어링 전반을 지원하는 지속형 개발 에이전트로 설계됐다고 밝혔다. 복잡한 리팩터링, 자율 디버깅, 여러 컨텍스트 창에서 프로젝트 규모 작업을 관리할 수 있는 지속적이고 컨텍스트 중심적인 소프트웨어 개발 에이전트 역할을 한다. 오픈AI는 "지속적인 장기 추론이 필요한 평가에서 상당히 우수한 성능을 보인다"라며 "압축을 사용해 여러 컨텍스트 윈도우에서 일관되게 작동할 수 있기 때문에 이 모델은 장기 코딩이나 사이버 보안과 같은 분야의 과제에서 향상된 결과를 제공한다"라고 설명했다. 이처럼 핵심은 장기 문맥 관리 성능이다. 컴팩션(compaction) 메커니즘을 통해 중요한 문맥만 유지하고 불필요한 정보를 자동 정리해, 사실상 수백만 토큰 규모의 연속 작업이 가능하다. 또 중간 추론 단계에서는 기존 대비 약 30% 적은 토큰을 사용해 비용·지연시간 효율도 높였다. 비영리 연구 기관 METR의 테스트에 따르면, 이 모델의 평균 작업 지속 시간은 2시간42분으로, GPT-5보다 25분 더 길다. 오픈AI 내부 테스트 중에는 24시간 이상 작업을 지속한 사례도 관측됐다. METR (50% accuracy): GPT-5.1-Codex-Max = 2 hours, 42 minutes This is 25 minutes longer than GPT-5. pic.twitter.com/NgqG3E5LfB — prinz (@deredleritt3r) November 19, 2025 구글이 전날 공개한 제미나이 3 프로와의 비교 평가에서 핵심 코딩 벤치마크 전반에 걸쳐 더 우수한 성능을 보였다. 초고난도 코드 추론 능력을 측정하는 'SWE-벤치 베리파이드'에서 77.9% 정확도로 제미나이 3 프로의 76.2%를 앞섰다. 또, 터미널 환경 문제 해결 능력을 평가하는 '터미널-벤치 2.0'에서도 58.1%로, 제미나이 54.2%보다 높은 점수를 받았다. 실시간 코딩 능력을 평가하는 '라이브코드벤치 프로'에서는 2439점을 기록해 제미나이와 동일한 성능을 나타냈다. 기존 GPT-5.1-코덱스와 비교해도 뚜렷한 성능 향상이 확인됐다. 'SWE-랜서(Lancer) IC SWE' 점수는 66.3%에서 79.9%로 크게 상승했으며, SWE-벤치 베리파이드는 73.7%에서 77.9%로 개선됐다. 터미널-벤치 2.0 점수 역시 52.8%에서 58.1%로 크게 증가했다. 오픈AI는 "이 모델은 지속적으로 구현을 반복하고, 테스트 실패를 수정하며, 궁극적으로 성공적인 결과를 제공할 것"이라고 강조했다. 현재 GPT-5.1-코덱스-맥스는 Codex 환경에서 CLI, IDE 확장 기능, 클라우드, 코드 리뷰용으로 사용할 수 있으며, API 액세스도 곧 제공될 예정이다. 박찬 기자 [email protected]

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

공유

관련 저널 읽기

전체 보기 →