클로드 ‘몰래 성능 낮췄다’ 논란 – 개발자들 집단 반발… 성능 너프 실제로 밝혀져 - AI 매터스

[AI] anthropic claude | | {'이벤트': '📰', '머신러닝/연구': '📰', '하드웨어/반도체': '📰', '취약점/보안': '📰', '기타 AI': '📰', 'AI 딜': '📰', 'AI 모델': '📰', 'AI 서비스': '📰', 'discount': '📰', 'news': '📰', 'review': '📰', 'tip': '📰'} AI 모델
#ai 메모리 #sk하이닉스 #반도체 #엔비디아 #자율형 팹 #ai 위성 #머신러닝/연구 #우주 ai #인터베스트 #클로드 파트너 네트워크

요약

앤트로픽이 클로드 AI 모델의 기본 노력 수준을 사전 공지 없이 '중간'으로 낮춘 것으로 드러났다. 개발자들이 6,852개 세션 데이터를 분석한 결과 복잡한 엔지니어링 작업에서 신뢰성이 크게 저하됐고, 클로드 오퍼스 4.6의 정확도가 83.3%에서 68.3%로 약 15%p 하락한 것으로 나타났다. 앤트로픽은 비용 최적화를 위한 조치라며 해명했지만, 투명성 부재를 둘러싼 비판이 이어지고 있으며 AI 서비스 품질 변경 시 사전 고지의무에 대한 업계 전반의 논의가 촉발되고 있다.

왜 중요한가

본문

앤트로픽의 AI 모델 클로드가 사용자에게 알리지 않고 성능을 낮췄다는 의혹이 제기되며 개발자 커뮤니티의 거센 반발을 사고 있다. 포천(Fortune)과 벤처비트(VentureBeat)에 따르면, 클로드가 복잡한 워크플로우에서 지시를 따르지 않거나 부적절한 지름길을 택하고 실수가 잦아졌다는 불만이 각종 소셜미디어와 개발자 포럼에 쏟아지고 있다. 논란의 핵심은 앤트로픽이 클로드의 기본 ‘노력 수준(effort level)’을 사전 공지 없이 ‘중간(medium)’으로 낮췄다는 점이다. 회사 측은 이전 버전이 요청당 너무 많은 토큰(token)을 소모한다는 사용자 피드백에 따른 조치라고 해명했다. 그러나 많은 사용자들은 변경 사항을 공개하지 않은 데 대해 강하게 비판했다. 기즈모도(Gizmodo)에 따르면 앤트로픽은 이와 동시에 파워 유저를 위한 가격을 인상하는 방안도 검토 중인 것으로 알려졌다. AMD AI 그룹 시니어 디렉터(Senior Director)인 스텔라 로렌조(Stella Laurenzo)는 깃허브(GitHub)에 상세한 분석 보고서를 공개했다. 6,852개의 클로드 코드(Claude Code) 세션 파일, 17만 8,711개의 사고 블록(thinking block), 23만 4,760개의 툴 호출(tool call) 데이터를 분석한 끝에, 클로드 코드가 복잡한 엔지니어링 작업에서 신뢰하기 어려운 수준으로 퇴보했다고 주장했다. 한 AI 벤치마킹 업체는 클로드 오퍼스(Claude Opus) 4.6의 정확도가 83.3%에서 68.3%로 약 15%p 하락했다는 재평가 데이터를 발표하기도 했다. 앤트로픽 클로드 코드 책임자 보리스 체르니(Boris Cherny)는 SNS를 통해 이번 변경이 사용자의 요청에 따른 것이라고 해명했으나, 다수의 사용자들은 투명성 부재를 이유로 앤트로픽에 대한 신뢰가 흔들렸다고 말했다. 이번 논란은 AI 서비스 제공업체들이 모델 성능이나 설정을 변경할 때 사용자에게 사전 고지해야 한다는 의무에 대한 업계 전반의 논의를 촉발시키고 있다. AI 업계 일각에서는 이번 사태가 단순한 설정 변경 문제를 넘어, 상업적 압박과 서비스 품질 유지 사이에서 균형을 잡아야 하는 AI 기업들의 근본적인 딜레마를 드러낸다고 분석한다. 컴퓨팅 비용을 절감하면서도 사용자 만족도를 유지해야 한다는 이중 과제는 앤트로픽만의 문제가 아니라 산업 전체의 숙제다. 전문가들은 AI 서비스 품질 기준을 공개적으로 정의하고 변경 사항을 투명하게 공지하는 업계 관행이 자리 잡아야 한다고 강조한다. 자세한 내용은 포천(Fortune)에서 확인할 수 있다. 이미지 출처: 이디오그램 생성

관련 저널 읽기

전체 보기 →