앤트로픽, '클로드 오퍼스 4.7' 출시…"GPT·제미나이 압도" - 이데일리

[AI] 제미나이 3.1 프로 | | 🔬 연구
#ai 모델 #mr 기기 #review #디자인 개편 #맥북 프로 #애플
원문 출처: [AI] 제미나이 3.1 프로 · Genesis Park에서 요약 및 분석

요약

앤트로픽이 클로드 오퍼스 4.7을 출시했다. 에이전트 코딩 성능을 측정하는 SWE-bench Pro에서 64.3%를 기록하며 GPT-5.4(57.7%)와 제미나이 3.1 프로(54.2%)를 능가했고, 깃허브 테스트에서 해결률이 13% 향상됐다. 라쿠텐은 실제 생산 환경의 과제 해결 능력이 전작 대비 3배 높아졌다고 평가했으며, 시각 정보 처리 능력도 대폭 개선되어 최대 375만 화소까지 지원한다. 법률 분야 벤치마크에서도 90.9%의 정확도를 보이는 등 종합적 성능이 강화되었으며, 이용 가격은 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러로 동일하게 유지된다.

본문

| 이번 모델은 전작인 오퍼스 4.6을 직접적으로 업그레이드한 버전으로, 특히 고난도 소프트웨어 엔지니어링과 비전 기능, 전문 업무 수행 능력에서 비약적인 발전을 이뤄냈다고 앤트로픽은 설명했다. 가장 눈에 띄는 변화는 자율적인 코딩 능력의 강화다. 오퍼스 4.7은 스스로 논리적 결함을 파악하고 실행을 가속화하며, 복잡하고 긴 시간이 소요되는 작업을 일관성 있게 처리한다. 벤치마크 결과, 에이전트 코딩 성능을 측정하는 ‘SWE-bench Pro’에서 64.3%를 기록해 GPT-5.4(57.7%)와 제미나이 3.1 프로(54.2%) 등 비교군 모델들을 앞질렀다. 깃허브(GitHub) 테스트에서는 오퍼스 4.6이나 소네트 4.6이 해결하지 못한 과제를 포함해 해결률이 13% 향상됐다. 라쿠텐(Rakuten)은 실제 생산 환경의 과제 해결 능력이 오퍼스 4.6 대비 3배 높아졌다고 평가했다. 시각 정보 처리 능력인 비전(Vision) 기능도 대폭 개선됐다. 이전 모델보다 3배 이상 높은 최대 375만 화소(2,576 픽셀)의 고해상도 이미지를 지원하며, 이를 통해 복잡한 기술 도표 해석이나 정밀한 스크린샷 분석이 가능해졌다. | 법률 분야에서는 하비(Harvey)의 대형 로펌 벤치마크(BigLaw Bench)에서 90.9%의 정확도를 보였고, 데이터브릭스(Databricks)의 문서 질의응답 테스트인 ‘OfficeQA Pro’에서는 오퍼스 4.6 대비 오류를 21% 줄였다. 노션(Notion)은 오퍼스 4.7이 도구 오류를 3분의 1로 줄이며 팀원과 같은 신뢰도를 보여준다고 평가했다. 안전성 면에서는 ‘프로젝트 글래스윙(Project Glasswing)’의 원칙이 처음으로 적용됐다. 앤트로픽은 모델의 사이버 보안 공격 역량을 의도적으로 낮추는 실험을 진행했으며, 고위험 사이버 보안 요청을 감지하고 차단하는 자동 안전장치를 도입했다. 다만 오퍼스 4.7은 일반 공개 모델 중 최고 성능일 뿐, 사이버 역량과 정렬성 면에서 가장 뛰어난 최상위 모델인 ‘클로드 미토스 프리뷰(Claude Mythos Preview)’와는 별개로 운영된다. 미토스 프리뷰는 현재 사이버 보안 전문가 및 핵심 파트너들에게만 제한적으로 제공되고 있다. 앤트로픽의 공동 창립자이자 최고기술책임자(CTO)인 이고르 오스트로브스키(Igor Ostrovsky)는 “앤트로픽은 이미 코딩 모델의 표준을 세웠으며, 클로드 오퍼스 4.7은 시장에서 가장 최첨단 모델로서 그 표준을 한 단계 더 의미 있게 밀어붙였다”고 강조했다. 이어 “이 모델은 단순히 원시적인 성능만 뛰어난 것이 아니라 자동화, CI/CD, 장기 실행 작업 등 실제 환경의 비동기 워크플로우를 매우 잘 처리한다”며 “단순히 사용자의 의견에 동의하기보다 문제에 대해 더 깊이 고민하고 주관 있는 관점을 제시한다”고 밝혔다. 이용 가격은 기존과 동일하게 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 25달러로 유지된다. 다만 새로운 토크나이저 도입으로 동일 입력에 대해 토큰 사용량이 1.0~1.35배 늘어날 수 있다는 점은 주의가 필요하다. 현재 클로드 API, 아마존 베드록(Amazon Bedrock), 구글 클라우드 버텍스 AI(Vertex AI), 마이크로소프트 파운드리(Foundry)를 통해 즉시 이용 가능하다.

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

공유

관련 저널 읽기

전체 보기 →