6주 만에 또 새 모델… 오픈AI, 'GPT-5.5' 꺼내든 진짜 이유 - 솔루션뉴스

[AI] gpt-5.5 | 2026년 4월 24일 16:04 | 🤖 AI 모델

#ai 딜 #gpt-5 #gpt-5.3-codex #이미지 분석 #자가평가

요약

오픈AI가 인공지능이 별도의 지시 없이 스스로 판단해 컴퓨터를 조작하는 '에이전트 AI' 기능을 탑재한 신모델 'GPT-5.5'를 공개했습니다. 샘 올트먼 대표는 이번 모델이 가장 똑똑하고 직관적이라며, 모호한 문제도 자체적으로 해결하는 능력을 강조했습니다. 이는 코딩과 사무 등 복잡한 업무를 대신 처리하는 디지털 직원으로서 AI의 역할을 확대하고, 안드로픽 등 경쟁사에 맞서 기업 고객을 확보하기 위한 속도전으로 해석됩니다.

왜 중요한가

개발자 관점

검토중입니다

연구자 관점

검토중입니다

비즈니스 관점

검토중입니다

본문

"이제 AI가 컴퓨터를 쓴다"… 코딩·사무·연구 가리지 않고 치고 들어오는 에이전트의 시대 앤트로픽 추격에 맞선 오픈AI의 속도전, 그리고 기업 고객 쟁탈전의 새 국면 오픈AI가 현지시간 23일 새 인공지능 모델 'GPT-5.5'를 전격 공개했다. 지난 3월 초 GPT-5.4를 내놓은 지 불과 6~7주 만이다. 업계는 숨 돌릴 틈조차 주지 않는 이 속도전의 배경을 주목하고 있다. 단순한 성능 향상이 아니라, 인공지능이 사람 대신 컴퓨터를 직접 조작하는 이른바 '에이전트 AI' 시장을 둘러싼 주도권 다툼이 본격화됐다는 신호로 읽히기 때문이다. 샘 올트먼이 이끄는 오픈AI는 이번 모델을 두고 "지금까지 만든 것 중 가장 똑똑하고, 가장 직관적으로 쓸 수 있는 모델"이라고 설명했다. 그레그 브록먼 사장은 기자들과의 브리핑에서 "이 모델의 진짜 특별함은 별다른 지시 없이도 훨씬 많은 일을 해낼 수 있다는 점"이라며 "모호한 문제를 던져줘도 다음에 무엇을 해야 할지 스스로 판단한다"고 강조했다. GPT-5.5는 유료 가입자를 대상으로 같은 날부터 배포가 시작됐다. 챗GPT의 플러스·프로·비즈니스·엔터프라이즈 이용자와 코딩 전용 도구 '코덱스(Codex)' 사용자가 대상이다. 한 단계 더 강화된 'GPT-5.5 프로' 버전은 프로 이상 등급에만 열렸다. 개발자용 응용프로그래밍인터페이스(API)는 조만간 개방된다. 무엇이 달라졌나… 핵심은 '스스로 일하는 AI' 이번 모델의 방향성은 명확하다. 사람이 단계별로 지시를 내리는 챗봇이 아니라, 복잡한 업무 덩어리를 통째로 맡기면 알아서 처리하는 '디지털 직원'에 가까워지겠다는 것이다. 오픈AI가 내놓은 발표문에는 "지저분하고 복잡한 여러 단계의 과제를 던져주면 계획을 세우고, 도구를 쓰고, 결과를 점검하며, 모호한 상황을 헤치고 끝까지 일을 마무리한다"는 표현이 등장한다. 실제 개선 폭이 가장 두드러진 분야는 네 곳이다. 코드 작성·수정, 컴퓨터 조작, 사무 지식 업무, 그리고 초기 단계의 과학 연구다. 모두 "맥락을 오래 기억하고 시간을 두고 행동해야 하는" 영역이라는 공통점이 있다. 특히 눈에 띄는 대목은 속도다. 통상 더 똑똑한 모델은 연산량이 늘어 반응이 느려지기 마련이지만, 오픈AI는 "토큰 단위 속도에서 이전 모델과 같은 수준을 유지했다"고 밝혔다. 게다가 같은 작업을 처리할 때 소비하는 토큰(처리 단위) 자체가 줄었다. 쉽게 말해 더 똑똑한데 더 빠르고, 덜 비싸게 쓸 수 있다는 얘기다. 코딩 성능을 보여주는 지표에서는 격차가 분명히 드러난다. 복잡한 명령줄 작업을 평가하는 '터미널 벤치 2.0' 점수는 82.7%로, 직전 모델의 75.1%는 물론 경쟁사 앤트로픽의 클로드 오푸스 4.7(69.4%), 구글 제미나이 3.1 프로(68.5%)를 모두 앞질렀다. 실제 깃허브 이슈를 해결하는 능력을 측정한 'SWE-벤치 프로'에서도 58.6%를 기록했다. 엔비디아·커서·NVIDIA… 협력사들이 쏟아낸 '극찬 릴레이' 오픈AI는 이번 발표와 함께 주요 파트너사들의 반응도 대거 공개했다. 표현의 수위가 상당하다. 한 엔비디아 엔지니어는 "GPT-5.5를 못 쓰게 되는 건 팔 하나를 잘린 기분"이라고 말했다. 개발자 도구 기업 커서의 마이클 트루엘 공동창업자 겸 최고경영자는 "이전 모델보다 확실히 더 똑똑하고 끈기 있다"며 "도중에 멈추지 않고 훨씬 오래 과제에 집중한다"고 평가했다. 더 구체적인 사례도 나왔다. 미디어 스타트업 에브리의 댄 시퍼 최고경영자는 앱 출시 후 며칠째 원인을 못 찾던 버그를 놓고 실험을 진행했다. 자사 최고 엔지니어가 일부 시스템을 새로 짜서 해결한 문제였는데, 시계를 되돌려 GPT-5.5에 같은 고장 상태를 보여줬다. 직전 모델인 GPT-5.4는 해내지 못했던 동일한 수준의 재설계 작업을 GPT-5.5는 혼자 해냈다. 디자인 협업 도구 매직패스의 피에트로 시라노 최고경영자는 "수백 개의 프런트엔드 변경과 대대적 구조 수정이 뒤섞인 브랜치를, 역시 크게 바뀐 메인 브랜치에 20분 만에 한 번에 병합했다"고 전했다. 그는 "진짜로 더 높은 지능과 함께 일하는 기분이 든다. 거의 존경심이 느껴질 정도"라고 덧붙였다. 이러한 반응은 그동안 '과장된 마케팅'으로 치부되던 AI 코딩 도구 분야에서 실제 작업 현장의 체감 변화가 시작됐음을 시사한다. 오픈AI 내부에서도 전체 임직원의 85% 이상이 매주 코덱스를 쓰고 있다고 회사 측은 공개했다. 소프트웨어 개발뿐 아니라 재무, 홍보, 마케팅, 데이터 과학, 제품 관리 부서까지 용도가 번졌다는 설명이다. 사무 업무·연구 현장까지 파고드는 에이전트 성능 향상의 무게중심이 '코딩'에서 '실제 사무 업무'로 넘어왔다는 점도 이번 발표의 특징이다. 오픈AI가 내놓은 데이터는 구체적이다. 44개 직종의 실무 과제를 평가하는 'GDP발(val)' 테스트에서 84.9%를 기록해 현업 전문가와 비슷하거나 더 나은 결과를 냈다. 컴퓨터 환경에서 스스로 업무를 수행하는 능력을 보는 'OSWorld-Verified'에서는 78.7%였다. 홍보팀이 반년 치 강연 요청 데이터를 분석해 위험도 평가 체계를 만들고, 저위험 요청은 자동 처리하는 슬랙 봇까지 코덱스로 만들었다는 사례가 소개됐다. 재무팀은 K-1 세무 서식 2만 4771건, 총 7만 1637쪽을 훑어 전년보다 2주 빠르게 작업을 마쳤다. 영업팀 한 직원은 주간 사업 보고서 자동화로 주당 5~10시간을 아낀다고 밝혔다. 과학 연구 영역에서도 변화가 감지된다. 미국 잭슨유전체의학연구소의 면역학자 데르야 우누트마즈 교수는 시료 62개, 유전자 약 2만 8000개 규모의 발현 데이터를 GPT-5.5 프로로 분석했다. 그는 "팀이 몇 달간 매달려야 나올 연구 보고서"를 몇 시간 만에 뽑아냈다고 말했다. 폴란드 아담 미츠키에비치대 바르토시 나스크렝츠키 교수는 단 11분 만에 대수기하학 시각화 앱을 한 줄의 지시만으로 만들어냈다. 오픈AI는 내부에서 개량한 GPT-5.5 버전이 '램지 수'라 불리는 조합론 난제에서 새로운 증명을 찾아냈다고도 밝혔다. 조합론은 네트워크·집합·패턴 같은 이산적 구조를 다루는 수학 분야로, 새 증명이 나오는 일 자체가 드물다. 발견된 결과는 수학 증명 검증 도구 '린(Lean)'으로 정합성까지 확인됐다. 앤트로픽과의 진검승부… '엔터프라이즈'가 전장 이번 발표의 타이밍을 업계는 예사롭게 보지 않는다. 경쟁사 앤트로픽이 이달 초 보안 전문 모델 '미토스(Mythos)'를 공개한 지 불과 3주가량 만에 오픈AI가 새 모델로 응수한 모양새이기 때문이다. 미국 경제지 포춘은 "GPT-5.4가 나온 지 6주 만의 깜짝 공개는 프런티어 AI 연구소들이 기업 고객을 놓고 얼마나 치열하게 싸우고 있는지를 보여준다"고 짚었다. 오픈AI가 이번 발표에서 유독 강조한 숫자가 있다. 코덱스 활성 사용자 400만 명, 챗GPT 유료 기업 이용자 900만 명, 챗GPT 주간 활성 사용자 9억 명 이상, 유료 가입자 5000만 명. 회사는 이 수치를 통해 "오픈AI가 앤트로픽에 기업 시장 주도권을 내줬다"는 최근 온라인의 서사에 선을 긋겠다는 의도를 드러냈다. 가격 정책도 공격적이다. 표준 가격 기준 API에서 GPT-5.5는 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 30달러에 책정됐다. 전작보다 두 배가량 비싸지만, 오픈AI는 "토큰 효율이 크게 개선돼 실제 작업당 비용은 오히려 줄어든다"고 반박했다. 인공지능 분석업체 아티피셜 애널리시스의 코딩 지수에서 "경쟁 최첨단 모델 대비 절반 수준의 비용으로 최고 수준의 지능을 구현한다"는 평가도 인용됐다. 보안·사이버 역량도 높아져… 양날의 검 성능과 함께 짙어진 그늘도 있다. 오픈AI는 GPT-5.5의 사이버보안과 생화학 분야 역량을 자사 '대비 프레임워크(Preparedness Framework)'상 '높음(High)' 단계로 분류했다. 임계 수준인 '결정적(Critical)'에는 이르지 않았지만, 직전 모델보다 확실히 진일보했다는 평가다. 사이버 공격 시나리오를 테스트하는 '사이버짐'에서 81.8%로 경쟁 모델을 모두 앞섰다. 이는 앤트로픽의 미토스가 최근 촉발한 논쟁과도 맞닿아 있다. 미토스는 소프트웨어 취약점을 식별하는 능력이 뛰어나다는 이유로 제한적 배포가 결정됐고, 최근에는 무단 접근 정황까지 보도됐다. 오픈AI는 이번 모델에 역대 가장 강한 안전장치를 적용했다고 설명했다. 200여 곳의 조기 접근 파트너로부터 실제 사용 사례 피드백을 받았고, 사내외 레드팀의 공격 시험을 거쳤다. 대신 신뢰할 수 있는 방어 목적 사용자에게는 별도 검증 절차를 통해 '사이버 허용(Cyber-permissive)' 모델을 제공하는 프로그램도 함께 열었다. "이제 AI가 컴퓨터를 쓰는 시대"… 남은 과제는 업계는 이번 발표가 AI 모델의 성격을 질적으로 바꾸는 분기점일 수 있다고 본다. 지금까지 대형언어모델은 주로 '질문에 답하는 도구'였다. 이번 세대부터는 사용자가 화면에 떠 있는 앱을 쓰듯 AI가 직접 브라우저를 열고, 표를 채우고, 코드를 고치고, 결과를 검증한다. 브록먼 사장이 "컴퓨터를 쓰는 방식의 기초가 바뀌는 순간"이라 표현한 배경이다. 테크크런치는 이번 모델을 두고 "오픈AI가 꿈꾸는 '슈퍼 앱'에 한 걸음 더 다가섰다"고 분석했다. 한 앱 안에서 검색·문서·코드·분석·업무 자동화가 모두 해결되는 거대한 통합 생태계 말이다. 그러나 장밋빛만 있는 것은 아니다. 토큰당 가격이 두 배로 뛴 만큼 기업 도입에는 비용 계산서가 따라붙는다. 사이버 공격 도구로 악용될 위험도 계속 커지고 있다. 국내 업계에서는 한국어 지원과 국내 업무 도구 연동이 실제 생산성으로 이어질지에 대한 실증이 아직 부족하다는 지적도 나온다. 모델이 매달 단위로 바뀌는 상황에서 기업들이 어떤 기준으로 도입을 판단해야 할지도 과제다. 오픈AI는 "이번 모델은 큰 도약이지만, 한 걸음일 뿐이다. 앞으로 더 많은 단계가 이어질 것"이라고 밝혔다. GPT-5.4에서 5.5까지 6주, 5.5 이후의 다음 버전까지는 또 얼마가 걸릴지 모른다. 확실한 건, 업무용 AI 시장의 승부가 지금 이 순간에도 밀리초 단위로 갈리고 있다는 사실이다.

원문 보기 ([AI] gpt-5.5)

요약

왜 중요한가

본문

관련 저널 읽기