"GPT-5.5, 에이전트 코딩 82.7% 기록… 클로드 오퍼스 4.7 압도" - 글로벌이코노믹
[AI] 클로드 오퍼스 4.7
|
|
🔬 연구
#ai 모델
#gpt-5
#논리 해결
#마크 거먼
#머신러닝/연구
#애플
#중국 개발자
#추론 혁신
#하드웨어/반도체
요약
구글코리아 매출은 4076억원으로 전년보다 5.4% 증가했고, 영업익은 412억원으로 15.7% 올랐다. 해당 수익은 약 1964억원으로 전년보다 11.5% 증가했으며, 전체 매출 절반에 가까운 수준이다.
왜 중요한가
개발자 관점
검토중입니다
연구자 관점
검토중입니다
비즈니스 관점
검토중입니다
본문
'터미널벤치 2.0'서 역대급 성능 입증… 인간 개입 최소화한 에이전트 시대 개막 지시 없어도 스스로 목표 완수… 재무·홍보 등 기업 실무 워크플로 혁신 가속화 성능 높이고 토큰 비용은 낮추고… "속도 저하 없는 차세대 AI 인프라의 탄생" "GPT-5.5, 에이전트 코딩 82.7% 기록… 클로드 오퍼스 4.7 압도" 이미지 확대보기 GPT-5.5는 최종 벤치마크 점수 82.7%로 에이전트 코딩에서 클로드 오퍼스 4.7을 압도했다. 이미지=구글 AI 제미나이 생성 오픈AI(OpenAI)가 현존하는 인공지능 모델 중 가장 강력하고 직관적인 'GPT-5.5'를 공식 출시했다. 'GPT-5.5'는 사용자가 일일이 단계를 지시하지 않아도 복잡한 목표를 스스로 이해하고 실행하는 '에이전트형' 시스템에 최적화돼 인공지능과의 상호작용 방식을 근본적으로 바꿀 것으로 전망된다. 23일(현지시각) 과학 기술 전문매체 인터레스팅 엔지니어링에 따르면 GPT-5.5는 특히 코딩과 워크플로 자동화 영역에서 비약적인 발전을 이뤘다. 에이전트 코딩 능력을 측정하는 '터미널벤치(TerminalBench) 2.0'에서 82.7%의 정확도를 기록하며 경쟁 모델인 클로드 오퍼스 4.7(Claude Opus 4.7)을 압도했다. 또한 실제 깃허브(GitHub) 문제를 해결하는 'SWE-벤치 프로(SWE-Bench Pro 0'에서도 58.6%의 성능을 보여주며 이전 세대 모델의 한계를 가볍게 넘어섰다. 인간 개발자 20시간 업무도 척척… '지능' 높이고 '비용' 낮췄다 오픈AI 측은 GPT-5.5가 단순한 벤치마크 점수 향상을 넘어 실제 시스템 아키텍처와 오류 발생 지점을 정확히 파악하는 능력을 갖췄다고 밝혔다. 내부 테스트 결과, 인간 개발자가 완료하는 데 최대 20시간이 소요되는 장기 엔지니어링 작업에서도 탁월한 성과를 거둔 것으로 나타났다. 성능은 높아졌고, 효율성은 더욱 개선됐다. GPT-5.5는 이전 버전인 GPT-5.4와 동일한 지연 시간(Latency)을 유지하면서도, 동일한 작업을 수행하는 데 필요한 토큰 수는 오히려 줄어들었다. 이는 기업 입장에서 더 높은 지능을 더 낮은 계산 비용으로 사용할 수 있음을 의미한다. 재무·홍보·엔지니어링 전방위 확산… "이미 일상의 도구" 실제 활용 사례도 눈부시다. 현재 오픈AI 직원의 85% 이상이 매주 이 모델을 업무에 활용하고 있다. 홍보팀은 6개월 분량의 데이터를 처리해 승인 절차를 자동화했으며, 재무팀은 2만 4,000여 건의 세금 신고서를 검토하는 시간을 2주나 단축했다. 오픈AI는 "GPT-5.5가 속도 저하 없이 지능을 한 단계 끌어올린 모델"이라며, "사용자가 하려는 작업을 더 빠르게 이해하고 더 많은 업무를 스스로 처리할 수 있도록 설계됐다"고 강조했다. 이인수 글로벌이코노믹 기자 [email protected]