뉴스피드 큐레이션 SNS 대시보드 저널

오픈AI, GPT-5.5 공개… 앤트로픽 미토스 출시 2주 만에 맞불 - 더에이아이

[AI] GPT-5.4 | | 🏷️ AI 딜
#ai 모델 #gpt-5 #3k녹화 #ai 딜 #ai안경 #meta #oakley #스마트안경

요약

오클리와 메타가 협업하여 출시한 'HSTN' 스마트 AI 글라스는 3K UHD 비디오 녹화가 가능한 12MP 카메라와 오픈 이어 오디오를 탑재했으며, 완충 시 8시간의 배터리 성능을 자랑합니다. 이 안경은 야외 및 실내 조도에 따라 자동으로 투명해지거나 어두워지는 포토크로믹 '아메시스트 전환 렌즈'를 적용하여 다양한 환경에서의 시야 확보와 자외선 차단 기능을 제공합니다. 또한 사용자는 음성 명령어를 통해 사진이나 영상 촬영은 물론, 메타 AI를 활용해 실시간 정보 검색 및 활동 공유 기능을 손쉽게 이용할 수 있습니다.

왜 중요한가

개발자 관점

검토중입니다

연구자 관점

검토중입니다

비즈니스 관점

검토중입니다

본문

GPT-5.4 출시 6주 만에 출격, 코딩·컴퓨터 사용 능력 향상 에이전틱 코딩 지표 82.7% 기록, 클로드 미토스에 ‘응수’ 가격 인상 및 보안 ‘고위험’ 등급… 기업 도입 시 비용·필터 변수 오픈AI가 23일(현지시각) 최신 인공지능(AI) 모델 ‘GPT-5.5’를 공개했다. 지난 3월 5일 GPT-5.4 출시 이후 약 6주 만이다. 이번 모델은 에이전틱 코딩, 컴퓨터 사용(Computer Use), 지식 업무, 과학 연구 분야에서 전작 대비 성능이 향상됐다. 그레그 브록만 오픈AI 공동창업자 겸 사장은 온라인 사전브리핑에서 “보다 에이전틱하고 직관적인 컴퓨팅을 향한 큰 걸음”이라고 밝혔다. GPT-5.5는 현재 챗GPT 플러스·프로·비즈니스·엔터프라이즈 구독자와 코덱스 사용자에게 제공된다. 애플리케이션 프로그래밍 인터페이스(API)는 추가 보안 요건 검토 후 제공될 예정이다. 이번 출시는 앤트로픽이 고급 사이버보안 기능을 갖춘 ‘클로드 미토스 프리뷰’를 공개한 지 약 2주 만에 이뤄졌다. ◇ 모델이 스스로 계획하고 완수 GPT-5.5의 핵심 설계 방향은 에이전틱 업무 처리 능력 강화다. 사용자가 복잡한 다단계 작업을 지시하면, 모델이 스스로 계획을 수립하고 도구를 활용하며 중간 결과를 검토해 완수하는 방식이다. 오픈AI는 코딩, 온라인 리서치, 데이터 분석, 문서·스프레드시트 작성, 소프트웨어 조작 등을 주요 강점으로 제시했다. 코딩 분야에서는 에이전트 코딩 평가 지표인 터미널-벤치(Terminal-Bench) 2.0에서 82.7%를 기록했다. GPT-5.4(75.1%), 클로드 오퍼스 4.7(69.4%)을 웃도는 수치다. 약 20시간 분량의 인간 작업에 해당하는 내부 평가 지표인 엑스퍼트-SWE(Expert-SWE)에서도 GPT-5.4보다 더 많은 문제를 해결했다. 컴퓨터 사용 능력을 측정하는 OS월드-베리파이드(OSWorld-Verified)에서는 78.7%를 기록했고, 44개 직종의 지식 업무를 평가하는 GDPval에서는 84.9%를 달성했다. 장문 컨텍스트 검색 평가인 MRCR v2(512K~1M 구간)에서는 74.0%로, GPT-5.4(36.6%) 대비 두 배 이상 높았다. 컨텍스트 윈도우는 최대 100만 토큰(API 기준)이며, 코덱스에서는 40만 토큰을 지원한다. 토큰 효율도 개선됐다. 오픈AI에 따르면, GPT-5.5는 코덱스 기준 GPT-5.4보다 적은 토큰으로 동등하거나 높은 수준의 결과를 낸다. 모델 처리 속도(토큰당 지연 시간)는 GPT-5.4와 동일하게 유지된다. ◇ 성능 향상 뒤에 남은 과제들, 기업 도입엔 변수 가격은 GPT-5.4보다 높다. 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 30달러이며, 상위 버전인 GPT-5.5 프로는 각각 30달러, 180달러다. 오픈AI는 이번 모델이 토큰 효율이 개선돼 실질 비용 부담은 줄어들 수 있다고 설명했다. 사이버보안 분야에서는 오픈AI의 준비 태세 프레임워크(Preparedness Framework) 상 ‘고위험(High)’ 등급이 지정됐다. 이에 따라 강화된 분류 필터가 적용됐으며, 오픈AI는 “일부 사용자가 초기에 불편하게 느낄 수 있다”고 밝혔다. 사이버보안 연구자는 별도의 ‘사이버 신뢰 접근(Trusted Access for Cyber)’ 프로그램을 통해 인증을 받아야 관련 기능을 제한 없이 활용할 수 있다. API는 현재 미제공 상태다. 오픈AI는 대규모 서비스 환경에 맞는 보안 요건 정비가 완료된 후 출시할 예정이라고 밝혔다. 일부 벤치마크에서는 한계도 확인된다. MRCR v2의 중간 길이 구간(16K~64K 토큰)에서는 GPT-5.4보다 낮은 수치를 기록했다. 주요 코딩 평가 지표인 SWE-벤치 프로(SWE-Bench Pro)에 대해서는 오픈AI 스스로 “메모리제이션(암기 효과) 가능성이 있다”고 밝혔다. 경쟁사 비교 수치 역시 독립적인 제3자 검증을 거치지 않았다.

관련 저널 읽기

전체 보기 →