오픈AI, 에이전트 능력서 '미소스' 꺾은 GPT-5.5 출시...세계 1위 탈환 - AI타임스

[AI] AI 에이전트 | 2026년 4월 24일 07:12 | 📰 뉴스

#ai 모델 #gpt-5 #review #구글 #북한 해커 #위협 동향 #제로데이 공격

요약

SK텔레콤, 장중 ‘10만 텔레콤’ 등극…실적·배당 정상화 기대에 급등 [종목Pick] 헤럴드경제[비즈톡톡] 올해 주가 75% 오른 SK텔레콤, 시총 20조 근접하자 ‘10만텔레콤’ 기대감 - 조선비즈 ChosunbizSKT, 시총 20조 넘어 '십만텔레콤' 등극⋯장중 10만400원 '터치' 네이트

왜 중요한가

개발자 관점

검토중입니다

연구자 관점

검토중입니다

비즈니스 관점

검토중입니다

본문

오픈AI가 플래그십 모델 'GPT-5.5'를 선보였다. 특히 앤트로픽의 비공개 모델이자 압도적 성능을 자랑하던 '클로드 미소스 프리뷰'를 특정 벤치마크에서 처음으로 꺾은 모델이 됐다. 오픈AI는 23일(현지시간) GPT-5.5를 '챗GPT'와 '코덱스'에서 유료 사용자를 대상으로 배포했다. '챗GPT 프로'와 '비즈니스' '엔터프라이즈' 사용자에게는 더 높은 사양인 'GPT-5.5 프로'를 제공한다. 반면, 무료와 '고(Go)' 사용자에 대한 언급은 없다. API로도 조만간 공개할 예정이다. 오픈AI는 "API 배포에는 다양한 보호 조치가 필요하며, 파트너 및 고객과 긴밀히 협력해 대규모 서비스 제공에 필요한 안전 및 보안 요구 사항을 충족하고 있다"라고 설명했다. GPT-5.5는 오픈AI 내부에서 '스퍼드(Spud)'라는 이름으로 개발됐던 모델이다. 이를 두고 "지금까지 개발한 모델 중 가장 똑똑하고 직관적인 모델"이라며 "컴퓨터에서 업무를 처리하는 새로운 방식을 향한 다음 단계"라고 강조했다. 실제로 아티피셜 애널리시스에서는 '클로드 오퍼스 4.7'을 누르고 세계 1위에 복귀했다. 특히 2위와의 점수차는 3점으로 크게 벌어졌다. 이전 모델들이 텍스트 생성에 집중했다면, GPT-5.5는 복잡하고 다단계 임무를 계획하고 도구를 사용하며 처리하는 데 최적화된 에이전트 모델이라는 내용이다. 이를 입증한 것이 벤치마크 결과다. 특히 가장 먼저 코딩 능력을 강조했다. 샌드박스 터미널 환경에서의 작업 수행 능력을 측정하는 '터미널벤치 2.0(Terminal-Bench 2.0)'에서는 82.7%로 1위를 탈환했다. 얼마 전 82%의 압도적인 점수로 선두에 올랐던 클로드 미소스마저 넘어선 것이다. 일반 모델 중 최상위권이었던 '클로드 오퍼스 4.7(69.4%)'과의 격차도 꽤 벌어졌다. 이처럼 미소스와의 직접적인 성능 비교에서 앞선 것은 터미널벤치 하나뿐이다. 그러나 일반 모델이 이런 결과를 거둔 것은 처음이다. 깃허브의 실제 이슈 해결을 평가하는 'SWE-벤치 프로'에서는 58.6%의 정확도를 기록하며, 이전 모델보다 더 많은 작업을 한 번에 완료했다. 평균 인간 작업 완료 시간이 20시간으로 예상되는 장기 코딩 능력 평가 도구인 '엑스퍼트-SWE(Expert-SWE)'에서도 GPT-5.4의 68.5%를 73.1%까지 끌어 올렸다. 이처럼 에이전트 코딩 관련한 세가지 평가 모두에서 더 적은 토큰을 사용하면서도 GPT-5.4보다 향상된 점수를 보였다고 소개했다. 이 밖에도 44개 직종에 걸친 전문 업무 수행 능력을 측정하는 'GDP밸(GDPval)'에서는 84.9%의 승률로 일반 모델 중 1위를 기록했다. 이는 인간 산업 전문가 기준에 근접한 성능이다. 모델이 실제 컴퓨터 환경을 직접 운영할 수 있는지 측정하는 'OS월드-베리파이드(OSWorld-Verified)'에서도 78.7%로, 클로드 오퍼스 4.7(78%)을 앞섰다. 이런 수치를 근거로 오픈AI는 새로운 모델이 에이전트 능력에서 업계 선두를 차지했다고 강조했다. 특히 샘 알트먼 CEO와 그렉 브록먼 사장 등은 출시 직전 열린 화상 간담회를 통해 GPT-5.5를 "새로운 차원의 지능"으로 정의했다. 즉, 인간의 미세한 관리 없이도 복잡한 작업을 자율적으로 완수하도록 설계됐으며, 컴퓨터 운영체제(OS)와 소프트웨어 스택과 상호작용하는 방식이 근본적으로 재설계돼 컴퓨터 사용 능력이 비약적으로 발전했다는 것이다. 여기에 성능은 크게 향상되었지만 지연 시간과 토큰 소비량은 이전 모델인 GPT-5.4 수준을 유지한다는 것이다. 이는 엔비디아와의 하드웨어와 소프트웨어 심층 공동 설계를 통해 달성했다고 소개했다. 이번에도 모델 자체에서 작성한 맞춤형 휴리스틱 알고리즘을 활용, GPU 코어 간에 작업을 분할하고 균형을 맞췄다고 밝혔다. 이 최적화로 토큰 생성 속도가 20% 이상 향상된 것으로 알려졌다. 추론 상황에서 'GPT-5.5 싱킹' 모드는 모델이 응답하기 전에 자체 가정을 검증하는 데 더 많은 계산 시간을 할당, 스마트하고 간결한 답변을 제공한다는 것이다. 특히 브록먼 사장은 "이 모델의 정말 특별한 점은 최소한의 지침으로도 훨씬 더 많은 일을 해낼 수 있다는 것"이라며 "사용법이 훨씬 직관적이다. 모호한 문제를 보고 다음에 무엇을 해야 할지 스스로 파악할 수 있다"라고 밝혔다. 이는 그가 얼마 전 팟캐스트에서 설명했던 '스퍼드'의 내용과 같다. 이제는 사용자들의 프롬프트 엔지니어링 능력이 중요하지 않게 됐다는 의미다. 물론 GPT-5.5가 타사 모델을 모든 면에서 압도한 것은 아니다. 특히 도구 없이 진행된 '인류의 마지막 시험(HLE)'에서 GPT-5.5 프로는 43.1%의 점수로, 오퍼스 4.7(46.9%)과 미소스(56.8%)에 뒤처졌다. 이는 앤트로픽의 출시 전략과 흡사하다. 지난 16일 출시된 오퍼스 4.7도 코딩과 에이전틱 성능에서 타사 모델을 앞섰을 뿐, 모든 분야에서 최고 성능을 기록하지는 못했다. 또 이번 출시는 GPT-5.4 출시 이후 50여일만으로, 최근 모델 출시 주기는 이제는 두달 내외로 좁혀졌다. 성능 향상과 함께 비용도 상승했다. GPT-5.5의 API 가격은 GPT-5.4의 2배 수준인 100만 토큰당 입력 5달러, 출력 30달러로 책정됐다. 한편, GPT-5.5의 출시는 챗봇의 시대가 사실상 끝나고 에이전트 전쟁이 시작됐다는 것을 의미한다. 이를 통해 앤트로픽의 미소스에 대한 반격을 시작한 것으로 볼 수 있다. 벤처비트에 따르면, 이 모델을 초기에 사용해 본 테스터들은 극찬을 남겼다. 엔비디아의 한 엔지니어는 "GPT-5.5에 접근할 수 없게 된 것은 마치 팔다리를 절단당한 것 같은 기분"이라고 밝혔다. 또 잭슨 유전체 의학 연구소의 데리야 우누트마즈 교수는 GPT-5.5 프로를 사용해 2만8000개의 유전자 데이터 세트를 분석했는데, 기존에는 몇달 걸렸을 작업을 몇분 만에 완료했다고 밝혔다. 액시엄 바이오의 브랜든 화이트 CEO는 "오픈AI가 이러한 속도를 유지한다면 연말까지 신약 개발의 근간이 바뀔 것"이라고 말했다. 여기에 야쿠브 파초키 오픈AI 수석 과학자는 "실제로 우리는 이보다 훨씬 더 똑똑한 모델을 훈련시킬 여지가 여전히 남아 있다"라고 말했다. 1. We believe in iterative deployment; although GPT-5.5 is already a smart model, we expect rapid improvements. Iterative deployment is a big part of our safety strategy; we believe the world will be best equipped to win at the team sport of AI resilience this way. 2. We believe… — Sam Altman (@sama) April 23, 2026 특히 오픈AI는 앤트로픽이 미소스를 비공개로 유지한 것과 달리, 미소스보다 일부 성능이 뛰어남에도 새 모델을 공개했다. 오픈AI는 "GPT-5.5에서는 위험도가 높은 활동, 민감한 사이버 요청, 그리고 반복적인 오용에 대한 보호 기능을 강화했다. 모델 안전성, 인증된 사용, 그리고 허용되지 않는 사용에 대한 모니터링에 대한 투자를 통해 광범위한 접근이 가능해졌다"라고 소개했다. 샘 알트먼 CEO는 X를 통해 "우리는 반복적인 배포를 중요하게 생각한다"라며 "이를 통해 AI 복원력이라는 팀 스포츠에서 승리할 수 있는 최적의 환경을 구축할 수 있다고 믿는다"라고 강조했다. 임대준 기자 [email protected]

원문 보기 ([AI] AI 에이전트)

요약

왜 중요한가

본문

관련 저널 읽기