한 달 만에 '챗GPT' 성능 또 올렸다...신 모델 'GPT-5.5' 발표 - 디일렉
[AI] 제미나이 3.1 프로
|
|
🖥️ 하드웨어
#ai 모델
#gpt-5
#hbm
#sk하이닉스
#sk하이닉스 계약학과
#계약학과
#고려대
#반도체
#서강대
#의대 쏠림 현상
#입시
#하드웨어/반도체
#한양대
요약
오픈AI가 출시한 신규 모델 'GPT-5.5'는 다양한 용도로 활용 가능한 슈퍼앱을 지향하며, 코딩과 수학 분야에서 구글과 앤트로픽의 최신 경쟁 모델들을 압도하는 성능을 보였습니다. 주요 벤치마크 테스트에서 GPT-5.5는 상대 모델들보다 높은 수치를 기록했으나, 소프트웨어 엔지니어링 관련 SWE-벤치 프로에서는 클로드 오퍼스 4.7에 뒤처지는 결과가 나타났습니다. 오픈AI는 해당 발표 자료에서 이러한 성과를 제외하고 GPT-5.5의 우수성을 강조했습니다.
왜 중요한가
개발자 관점
검토중입니다
연구자 관점
검토중입니다
비즈니스 관점
검토중입니다
본문
오픈AI가 불과 한 달 만에 GPT 새 모델을 공개했다. 오픈AI는 신규 버전 'GPT-5.5'가 GPT 전 모델을 통틀어 가장 스마트하고 직관적이며, 자사의 목표인 '슈퍼앱'에 가까이 다가섰다고 소개했다. 오픈AI에 따르면 슈퍼앱은 다용도 스위스칼처럼 여러 가지 목적에서 사용될 수 있는 통합 AI 모델이다. GPT-5.5은 에이전틱 코딩, 지식 업무 등 기업용 핵심 분야와 수학·과학 연구와 같은 실험적 AI 응용 분야까지 폭넓게 활용될 수 있도록 설계됐다. 오픈AI는 GPT-5.5가 다양한 벤치마크에서 자사의 이전 모델뿐 아니라 구글 제미나이 3.1 프로, 앤트로픽 클로드 오퍼스 4.7 등 최신 경쟁 모델들을 모두 앞서는 성능을 기록했다고 주장했다. 코딩과 에이전트 성능을 살펴보는 터미널 벤치(Terminal-Bench) 2.0 테스트에서는 클로드 오퍼스 4.7의 69.4%, 제미나이 3.1 프로의 68.5%를 크게 앞서는 82.7%를 기록했다. 프론티어 매스(FrontierMath)에서도 35.4%로, 클로드 오퍼스 4.7의 22.9%, 제미나이 3.1 프로의 16.7%보다 뛰어난 결과를 나타냈다. 반면 AI 기술 관련 해외 미디어 핸디AI(Handy AI)가 수행한 SWE-벤치 프로(SWE-Bench Pro)에서 GPT-5.5는 58.6%로, 클로드 오퍼스 4.7의 64.3%에 비해 뒤진다. 오픈AI는 GPT-5.5 발표 자료의 성능 비교표에서 SWE-벤치 프로를 다루지 않고 있다. 터미널 벤치는 AI 모델이 터미널(CLI) 환경에서 파일 수정, 서버 구축, 도구 설치 등 복잡한 다단계 작업을 자율적으로 수행하는지 측정하는 테스트다. SWE-벤치 프로는 실제 오픈소스 프로젝트의 복잡한 버그를 수정하거나 새로운 기능을 구현하는 엔지니어링 능력을 테스트한다. 프론티어 매스의 경우 현대 수학의 미해결 난제에 버금가는 수준의 고도로 복잡한 수학적 증명과 문제 해결 능력을 측정하는 테스트다. AI 기반 소프트웨어 코드 리뷰 자동화 서비스인 코드래빗 사이트에서도 자사가 사용하는 리뷰 시스템과 비교해 GPT-5.5의 코드 리뷰 정밀도를 테스트했다. 그 결과 코멘트 수는 베이스라인의 67개 대비 75개로 소폭 증가했지만, 실제로 유용한 이슈를 찾아내는 비율은 크게 높아졌다고 평가했다. 코드래빗에 따르면 기존 베이스라인에서 예상 이슈 발견율은 58.3%, 정밀도(Precision) 27.9%인데, GPT-5.5는 79.2%, 40.6%로 훨씬 앞섰다. 대규모 실제 환경 리뷰 역시 기존 베이스라인의 예상 이슈 발견율 55.0%, 정밀도 11.6%, 코멘트 수 558개에 비해 GPT-5.5는 65.0%, 13.2%, 722개로 눈에 띄는 개선을 보였다. 오픈AI의 주장대로 AI 코딩, 특히 에이전틱(자율) 기능이 강화됐으며 수학과 과학 부문에서의 활용도 기대할 수 있는 지표다. 코드래빗은 오픈AI가 주장한 토큰 효율성(Reduced tokens for long-running agents)에 대해서도 테스트했다. 수치로 나타내긴 어렵지만 테스트 전반에서 확연히 드러났다는 설명으로, 동일한 작업을 이전 모델보다 더 적은 토큰으로 수행하는 것으로 나타났다. 토큰 사용은 곧 비용을 의미한다. 장시간 반복 작업을 수행하는 AI 에이전트에서 토큰 경제성은 기업에게 중요한 이슈다. 이전 모델들이 계획, 실행, 검토, 재시도, 개선의 사이클을 여러 번 반복하면서 중간중간 추론을 생성하는 데 토큰을 사용했다면, 이번 최신 5.5 모델은 불필요한 중간 단계를 줄인 셈이다. 또한 프로그램 개발 업무가 아닌, 비즈니스 사용자들의 실무 지원 능력을 테스트하는 GDPval(GDP-valued), OSWorld-Verified, 툴애슬론(Toolathlon) 벤치마크에서도 높은 점수를 기록했다. GDPval은 실제 경제적 가치가 있는 지식 노동 수행 능력을 측정한다. OSWorld-Verified는 실제 데스크톱 환경을 직접 조작하는 능력을 평가하는 지표다. 인간의 평균 수행 능력은 72.4%로, GPT-5.4부터 이를 뛰어넘었다. 툴애슬론은 노션, 슬랙, 데이터베이스 등 여러 소프트웨어 도구(애플리케이션)를 조합해 복잡한 워크플로를 완수하는 능력을 측정한다. 툴(Tool)과 데카슬론(Decathlon, 10종 경기)의 합성어다. 이러한 벤치마트 테스트들은 AI가 챗봇을 넘어 실제 업무를 스스로 처리하는 자율 에이전트로 진화하고 있음을 보여주는 기준이 된다. 오픈AI의 공동 창업자인 샘 알트먼과 그렉 브로크먼에 따르면 챗GPT와 코덱스, AI 브라우저를 하나의 통합 서비스로 결합해 기업 고객을 지원하려 한다. 이미 챗GPT는 정보 검색, 문서나 이메일 작성과 스프레드시트 분석, 코딩을 수행하고 있으며 예약이나 쇼핑 등 에이전트 기능도 가능하다. 오픈AI는 사용자가 세상과 인터페이스 하는 창구로 GPT를 자리매김시킬 것이라는 목표도 밝힌 바 있다.