앤트로픽 '클로드' 성능 하향 조정 의혹...“AI 슈링크플레이션” 논란 - AI타임스

[AI] 클로드 | | {'이벤트': '📰', '머신러닝/연구': '📰', '하드웨어/반도체': '📰', '취약점/보안': '📰', '기타 AI': '📰', 'AI 딜': '📰', 'AI 모델': '📰', 'AI 서비스': '📰', 'discount': '📰', 'news': '📰', 'review': '📰', 'tip': '📰'} review
#ai 슈링크플레이션 #논란 #성능 하향 #앤트로픽 #클로드 #anthropic #claude #review #성능 저하 #앤트로플 #클로드 오퍼스 4.6

요약

앤트로픽의 ‘클로드 오퍼스 4.6’이 최근 모델 성능이 저하되었다는 의혹으로 논란이 일고 있습니다. AMD 관계자의 데이터 분석과 외부 벤치마크 테스트를 근거로, 앤트로픽이 수요 폭증에 대응해 의도적으로 모델 지능을 낮췄다는 주장이 제기되었습니다. 이에 앤트로픽은 성능을 낮춘 적은 없으며, 비용과 속도의 균형을 위해 추론 방식과 UI 등 일부 설정을 변경했을 뿐이라고 반박했습니다.

왜 중요한가

본문

최근 개발자 커뮤니티를 중심으로 앤트로픽의 ‘클로드 오퍼스 4.6(Claude Opus 4.6)’ 성능 저하 논란이 빠르게 확산하고 있다. 일부 사용자들은 모델이 과거보다 덜 똑똑하고 불안정하며 더 많은 연산 자원을 소모한다며, 앤트로픽이 수요 폭증에 따라 고의적으로 모델 성능을 낮춘 것이 아니냐는 의혹을 제기했다. 논란의 불씨는 지난 2일(현지시간) AMD AI 부문 시니어 디렉터로 알려진 스텔라 로렌조가 깃허브에 올린 분석 글에서 시작됐다. 로렌조는 단순한 체감이 아닌 데이터 분석을 근거로 제시했다. 그는 6852개의 '클로드 코드(Claude Code)' 세션, 1만7871개의 추론 블록, 23만건이 넘는 툴 호출을 분석한 결과, 2월 이후 앤트로픽 모델의 추론 깊이가 눈에 띄게 감소했다고 밝혔다. 또 ▲작업 중 조기 종료 증가 ▲‘가장 단순한 해결책’으로 치우치는 경향 ▲추론 루프 반복 ▲탐색 중심에서 수정 중심으로의 행동 변화 등 성능 저하 징후가 나타났다고 지적했다. 이 게시글은 SNS를 통해 빠르게 퍼져 나갔다. 이에 따라 불만 수준이던 논쟁은 데이터 기반 문제 제기로 확대됐다. “클로드 성능이 실제로 나빠졌다”라는 주장에 근거를 부여한 결과가 됐다. 이 때문에 ‘슈링크플레이션(shrinkflation)'이라는 말까지 나왔다. 가격은 그대로 두거나 올리면서, 제품의 크기나 용량을 줄여 사실상 가격 인상 효과를 노리는 전략을 말한다. SOMEONE ACTUALLY MEASURED HOW MUCH DUMBER CLAUDE GOT. THE ANSWER IS 67%. the data shows Opus 4.6 is thinking 67% less than it used to. anthropic said nothing until the numbers went public. then suddenly Boris Cherny (creator of Claude Code) shows up on the GitHub issue. users… pic.twitter.com/P8dEQ09k81 — Om Patel (@om_patel5) April 8, 2026 여기에 벤치마크 결과까지 더해지며 논란은 증폭됐다. 브리지마인드가 운영하는 브리지벤치(BridgeBench) 테스트에서는 클로드 오퍼스 4.6의 정확도가 기존 83.3%(2위)에서 68.3%(10위)로 하락했다는 결과가 나았다. “앤트로픽이 모델을 의도적으로 약화했다”라는 주장에 힘이 실렸다. 그러나 이 벤치마크 결과에 대해서도 반론이 제기됐다. 외부 연구자인 폴 칼크래프트는 두 테스트가 각각 6개와 30개 작업으로 구성된 “서로 다른 기준”이었다고 지적하며, 동일 작업 기준에서는 성능 변화가 미미했다고 설명했다. 공통 작업에서는 87.6%에서 85.4%로 소폭 하락에 그쳤다는 것이다. 즉 일부 ‘성능 하락’ 증거는 과장됐을 가능성이 있다는 설명이다. 앤트로픽은 “수요 증가에 대응하기 위해 모델 성능을 의도적으로 낮추는 일은 없다”라며, 모델 성능 저하 의혹을 전면 부인했다. 다만 최근 몇가지 제품 변경이 있었던 것은 사실이라고 인정했다. ▲기본 추론 방식이 ‘적응형(adaptive thinking)’으로 변경된 점 ▲기본 추론 강도(effort)가 중간 수준으로 설정된 점 ▲UI에서 일부 추론 과정이 표시되지 않도록 바뀐 점 등을 들었다. 앤트로픽은 이러한 변화가 성능 저하가 아닌, 비용과 속도, 사용성의 균형을 맞추기 위한 조정이라고 설명했다. 또 사용자가 명령어를 통해 더 높은 추론 강도를 직접 설정할 수 있다고 밝혔다. 이번 논란은 최근 수요 급증에 대응하기 위해 앤트로픽이 사용량 제한 정책을 일부 조정된 것도 한몫했다. 피크 시간대에 세션 한도 소진 속도가 빨라지면서, 일부 사용자들이 ‘토큰 소모 증가’와 ‘작업 효율 저하’를 동시에 체감했을 가능성이 있다는 것이다. 결국 이번 논쟁의 핵심은 “실제 성능 저하냐, 아니면 제품 설정 변화로 인한 체감 차이냐”로 요약된다. 사용자들은 더 많은 실패와 불편을 경험하고 있다고 주장하지만, 앤트로픽은 이는 모델 자체가 아닌 설정과 인터페이스 변화에서 비롯된 것이라고 설명하고 있다. 박찬 기자 [email protected]