앤트로픽의 핵심 제품 ‘클로드코드’ 소스 코드 전체 유출 - byline.network
[AI] claude
|
|
🔬 연구
#anthropic
#review
#클로드
#ai
#보안
#소스코드유출
#앤트로픽
#클로드코드
원문 출처: [AI] claude · Genesis Park에서 요약 및 분석
요약
AI 개발사 앤트로픽의 주요 제품인 '클로드코드(Claude Code)'의 전체 소스 코드가 외부로 유출된 사건이 발생했습니다. 이번 사태는 해당 기업의 핵심 기술 내역이 고스란히 노출되었다는 점에서 업계에 큰 충격을 주었습니다. 전문가들은 소스 코드 전체가 유출됨에 따라 보안 취약점 악용은 물론 기술 경쟁력 하락 등 심각한 후유증이 우려된다고 지적하고 있습니다.
본문
앤트로픽의 ‘클로드코드’ CLI의 전체 소스 코드가 내부 오류로 외부에 유출됐다. 사용자와 경쟁사가 클로드코드의 작동 방식과 상세한 설계도를 들여다볼 수 있게 됐다. 지난달 31일(현지시간) 벤처비트 등 외신에 따르면, 보안 연구원 차오판 쇼우는 X에 앤트로픽 클로드코드의 소스코드가 npm 레지스트리의 맵 파일을 통해 유출됐다고 알렸다. 앤트로픽은 이날 클로드코드 npm 패키지 버전 2.1.88을 배포했는데, 여기에 포함된 소스 맵 파일을 통해 클로드코드의 전체 소스 코드를 확인할 수 있다는 게 알려진 것이다. 클로드 모델을 포함하진 않았지만, 51만2000줄 이상의 코드로 구성된 약 1900개의 타입스크립트 파일, 슬래시 명령어 라이브러리 전체, 내장 도구 등이 외부에 공개됐다. 차오판 쇼우는 관련 파일의 아카이브 링크를 공유했고, 이후 깃허브의 공개 저장소에 게시됐다. 깃허브의 해당 저장소는 수만회 포크됐다. 앤트로픽은 “클로드코드 릴리스에 내부 소스 코드가 포함되는 오류가 발생했다”며 “고객의 민감 데이터나 자격증명은 유출되지 않았다”고 밝혔다. 이어 “이는 보안 침해가 아닌, 인적 오류로 인한 릴리스 패키징 문제였다”며 “재발하지 않도록 조치를 취하고 있다”고 덧붙였다. 커뮤니티의 개발자들은 빠르게 클로드코드 역설계에 돌입했다. 클로드코드의 비밀을 파해치기 위한 웹사이트(CCLeaks)도 만들어졌다. X의 @himanshustwts는 클로드코드의 메모리 아키텍처에 대한 기술적 구성을 분석해 공유했다. 그에 따르면, 클로드코드의 메모리 시스템이 제약을 갖고 구조화돼 있으며, 스스로 복구되는 시스템이다. 메모리는 저장소가 아니라 인덱스이며, 지식은 외부에 있고, 메모리 마크다운 파일의 내용은 포인터만 있다. 클로드코드는 인덱스, 주제별 파일, 트랜스크립트 등 3계층 구조로 설계됐으며, 엄격한 글쓰기 원칙을 갖고 있다. 몬타의 선임 소프트웨어 엔지니어인 가브리엘 안하이아는 클로드코드의 전체 소스코드의 내용을 해설했다. 그에 의하면, 클로드코드는 실제 운영 환경에서 사용할 수 있도록 정교하게 설계된 시스템이다. 노드JS가 아니라 Bun으로 실행되며, 리액트와 Ink를 활용해 터미널 UI를 렌더링하고, 모듈식 도구 기반아키텍처를 갖고 있다. 플러그인 방식의 툴 아키텍처를 사용해 파일 읽기, 배시 실행, 웹 가져오기, LSP 통합 등의 각 툴은 권한을 부여받는다. 기본 툴 저의에 2만9000줄이 타입스크립트 코드로 이뤄졌다. 클로드코드의 핵심인 쿼리 엔진은 4만6000줄의 단일 모듈로 이뤄졌으며, 모든 LLM API 호출, 스트리밍, 캐싱, 오케스트레이션 등을 처리한다. 복잡하고 병렬처리 가능한 작업 처리를 위해 하위 에이전트(스윔)를 생성할 수 있고, 각 에이전트는 특정 도구 권한을 갖고 자체 컨텍스트에서 실행된다. IDE 브릿지 시스템인 양방향 통신 계층은 JWT 인증 채널을 통해 IDE 확장(VS코드, 젯브레인스)과 CLI를 연결한다. 클로드는 세션 간에 사용자, 프로젝트, 기본 설정 등에 대한 컨텍스트를 저장하는 파일 기반 메모리 디렉토리를 가졌다. 이 사건은 앤트로픽에 큰 타격을 입힐 것으로 전망된다. 앤트로픽은 미국 국방부와 AI 안전 해제를 두고 갈등하면서 대중의 호응을 얻어 앱 사용자 수를 비약적으로 증가시켰고, 클로드코드는 기업과 개발자 사이에서 높은 인기를 구가해왔다. 앤트로픽의 성공을 뒷받침하는 핵심 서비스의 내부 설계가 공개되면서 경쟁사와 커뮤니티의 추격이 용이해졌기 때문이다. 사이버공격자는 앤트로픽의 안전장치를 우회해 클로드코드를 공격할 다양한 방법을 알게 됐다. 일단 사람의 실수로 공개되는 코드에 맵 파일을 남겨뒀다는 게 운영 신뢰성을 우려하게 한다. 맵 파일은 난독화나 번들링된 코드를 디버깅하기 위한 용도로 사용된다. 일반적으로 현업 시스템 환경에 필요하지 않아 외부에 공개되는 소스에서 제외되는 게 권장된다. 현재 클로드코드의 소스코드를 깃허브에 올린 사용자는 지적재산권 침해 시비를 우려해 소스코드 공개 대신 파이썬 기능 포트를 제공하는 저장소로 용도를 변경했다. 하지만 이미 많은 포크와 미러 서버가 등장한 뒤였다. 안하이아는 “모든 엔지니얼이 팀은 빌드 파이프라인을 점검하고, 게시 구성에서 제외해야 할 피일이 있는지 확인하라”며 “단 하나의 잘못된 구성이나 파일 필드로 패키지의 모든 게 노출될 수 있다”고 조언했다. 그는 “아이러니하게도 엔지니어가 더 나은 코드를 작성하도록 돕기 위해 설계된 도구가 빌드 구성 오류 때문에 무용지물이 됐다”고 지적했다. 글. 바이라인네트워크 [email protected]
Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.
공유