AI코딩 도구 “한 가지보단 여러 도구 병렬·계층화” 추세 - 애플경제

[AI] ai coding tools | | {'이벤트': '📰', '머신러닝/연구': '📰', '하드웨어/반도체': '📰', '취약점/보안': '📰', '기타 AI': '📰', 'AI 딜': '📰', 'AI 모델': '📰', 'AI 서비스': '📰', 'discount': '📰', 'news': '📰', 'review': '📰', 'tip': '📰'} review
#claude #review

요약

최근 각종 개발자 사이트(디벨로퍼 인사이더 등)나 레딧, 코드 레빗, 더뉴스택 등 많은 SW개발 사이트에선 이같은 현상을 체험하며 공감한다는 댓글과 후기가 쏟아지고 있다. 이에 따르며 커서, 대표적인 ‘빅3’ 코딩 도구인 커서, 클로드 코드, 코덱스가 개별 선택지가 아닌, 계층화 내지 병렬화된 AI 코딩 스택으로 구축되고 있다.

왜 중요한가

본문

‘커서’, ‘클로드 코드’, ‘코덱스’ 함께 사용, 조립된 스택의 레이어 최근엔 각사가 서로 조합 가능한 방식으로 출시, 다양한 에이전트 병렬 ‘오케스트레이션, 실행, 리뷰’ 계층화, “상호운용과 모델 종속성 탈피” 에디터 불필요, 적대적 방식 리뷰로 AI개발 과정 ‘아첨’ 문제 등 방지 [애플경제 전윤미 기자] 대표적인 AI코딩 도구인 커서(Cursor), 클로드 코드(Claude Code), 그리고 코덱스(Codex)는 치열한 경쟁을 벌여, 그 중 누군가 시장을 장악해 최종 승자가 될 것으로 예상되었다. 그러나 미처 예상하지 못했던 현상이 최근 생겨나고 있다. ‘제로섬’의 경쟁이 아닌, 하나의 계층화된 AI 코딩 스택으로 함께 활용되고 있는 것이다. 최근 각종 개발자 사이트(디벨로퍼 인사이더 등)나 레딧, 코드 레빗, 더뉴스택 등 많은 SW개발 사이트에선 이같은 현상을 체험하며 공감한다는 댓글과 후기가 쏟아지고 있다. 이에 따르며 커서, 대표적인 ‘빅3’ 코딩 도구인 커서, 클로드 코드, 코덱스가 개별 선택지가 아닌, 계층화 내지 병렬화된 AI 코딩 스택으로 구축되고 있다. 이를 통한 오케스트레이션, 실행, 검토 레이어 등이 구성되고 있다. 이를 반영하듯, 이달 첫째 주에 ‘커서’는 (타사 경쟁 도구와의) 병렬 에이전트 오케스트레이션을 위한 재구축된 인터페이스를 출시했다. 오픈AI(의 ‘코덱스’)는 앤트로픽의 ‘클로드 코드’ 내에서 실행되는 공식 플러그인을 발표했다. 사용자들은 이 세 가지 도구를 모두 함께 사용하기 시작했다. 경쟁 도구로서가 아니라, (누가 의도하지도 않은) 조립된 스택의 레이어로 활용되고 있다. 이들 도구는 각기 따로 출시되었지만, 서로 조합 가능한 방식으로 출시되었다는 점이 중요한다. ‘커서’는 어떤 모델이든 사용할 수 있는 에이전트를 오케스트레이션한다. ‘클로드 코드’는 경쟁사 제공업체의 플러그인을 허용한다. ‘코덱스’는 다른 회사의 (도구) 터미널 내에서 서브 에이전트로 실행되기도 한다. 다만 “이 도구들은 각기 하나로 수렴하는 것이 아니라 계층화되고 있다”는 것이다. 즉 “단일 제품이 선택되는 대신 전문화된 계층으로 분리, 병행되고 있다.”는 얘기다. 경쟁사마다 출시하지만, 패턴은 ‘병렬 실행’ 염두 지난 2일, ‘커서’는 코드명 ‘Glass’로 불리는 버전 3을 출시했다. 이번 릴리스에서는 ‘커서’의 ‘Composer’ 패널이 “여러 AI 에이전트를 동시에 관리할 수 있도록 새롭게 설계된 독립형 인터페이스”(에이전트 윈도우)로 대체되었다. 이제 개발자는 ‘단일 사이드바’에서 로컬 머신, 워크트리, 클라우드 샌드박스 등 다양한 환경에서 에이전트를 병렬로 실행할 수 있다. ‘커서’의 변경 로그에 따르면 이번 릴리스에는 여러 대화를 나란히 볼 수 있는 ▲에이전트 탭을 비롯, ▲비교를 위해 격리된 작업 트리에 있는 여러 모델에 동일한 프롬프트를 보내는 ‘/best-of-n’ 명령, 그리고 ▲내장 브라우저에서 UI 요소에 주석을 달 수 있는 디자인 모드가 추가되었다. 또한 ‘세션’은 로컬에서 클라우드로 넘겨 밤새 실행되도록 한 다음, 아침에 로컬로 다시 가져와 반복 작업을 수행할 수 있다. 사흘 전, 오픈AI도 깃허브에 ‘codex-plugin-cc’를 게시했다. 이 플러그인은 앤트로픽의 터미널 기반 코딩 에이전트인 ‘클로드 코드’에 직접 설치되었다. 이 플러그인은 6개의 슬래시 명령을 제공한다. 그 중 ‘/codex:review’는 표준 코드 검토를 실행하고, /codex:adversarial-review는 인증, 데이터 손실 및 경쟁 조건과 관련된 구현 결정을 압력 테스트한다. /codex:rescue는 작업을 Codex에 완전히 넘겨 버그를 조사하거나 문제를 다시 시도할 수 있는 하위 에이전트로 실행한다. 또한 선택적 ‘검토 게이트’ 기능을 통해 ‘코덱스’는 ‘클로드’의 최종 출력 전에 자동으로 검토하며, 문제가 발견되면 완료를 차단한다. 이 플러그인은 ‘Apache 2.0’ 라이선스가 적용되었다. 로컬 ‘코덱스 CLI’를 통해 실행되므로 개발자의 기존 인증이나 구성을 활용하는게 특징이다. 새로운 런타임도, 폐쇄적인 생태계도 없다. ‘클로드 코드’ 내부에서 호출되는 ‘코덱스’만 있으면 된다. 코드 레빗은 인사이트에서 “이런 계층화된 (병렬) 스택은 특정 도구를 선택하기보단, 이를 모두 엮은 ‘툴 체인’에 가깝다”며 “이를 통해 각기 다른 역할을 수행하는 세 가지 계층이 작동하고 있다.”고 소개했다. 대표적인 3가지 병렬 계층화 이에 따르면 오케스트레이션 계층은 ‘커서 3’가 여기에 위치한다. ‘커서’의 에이전트 창은 AI가 추가된 에디터가 아니라, 코딩 에이전트들을 관리하는 제어판인 셈이다. 인터페이스는 데스크톱, 모바일, 슬랙, 깃허브, 리니어(Linear) 등을 망라하며, 모든 활성 에이전트를 사이드바에 표시한다. 에이전트 탭을 통해 개발자는 여러 대화를 그리드 형태로 나란히 볼 수 있다. 디자인 모드에서는 내장 브라우저를 사용, UI 요소에 주석을 달고 특정 인터페이스 문제를 에이전트에게 지정할 수 있다. 앞서 ‘커서’는 배포 확대를 위해 2023년에 VS Code를 포크했다. 그러나 이젠 VS Code에서 벗어나 차별화를 꾀하고 있다. 오케스트레이션 레이어가 핵심이 된다면, 텍스트 에디터는 부차적인 기능이 될 것이기 때문이다. ‘커서’는 “파일 편집보다 에이전트 관리가 더 중요하다”고 판단한 것이다. 또 클로드 코드와 오픈AI 코덱스가 이 계층에 있다. 이들은 실제로 코드를 작성하고, 검토하고, 디버깅하는 에이전트다. 터미널, 클라우드 샌드박스 또는 둘 다에서 작동한다. 전체 코드베이스를 읽고, 테스트를 실행하고, 변경 사항을 커밋하고, 풀 리퀘스트를 관리한다. 적어도 개발자들 의견대로라면, 클로드 코드가 실행 계층에서 가장 강력한 경쟁자로 떠올랐다. 실제로 ‘Pragmatic Engineer’가 설문조사에서 ‘클로드 코드’는 가장 많은 응답자들이 “가장 좋아하는 AI 코딩 도구”로 선정되었다. 또 최근의 전체 공개 깃허브 커밋의 상당부분을 클로드 코드가 차지하고 있으며, 연말까지 더욱 늘어날 것으로 추정하고 있다. 또한 코덱스 역시 최근 주간 활성 사용자 수가 300만 명을 돌파했는데, 이는 한 달 전 200만 명에서 크게 증가한 수치다. 해당 클라우드 샌드박스 모델은 개발자의 개입 없이도 실행될 수 있는 비동기적이고 장기적인 작업을 위해 설계되었다. 코드를 작성한 모델에게 코드 검토를 요청하는 것은 마치 자신의 숙제를 스스로 채점해 달라고 하는 것과 같다. 그 때문에 실행 계층에선 (상호 검증이 가능한) ‘모델 간 차이’가 가장 중요한 부분이다. 흔히 실무자들은 “‘클로드’가 긴 컨텍스트 창에서 미묘한 추론을 처리하는 데 더 뛰어나고, ‘코덱스’는 병렬 처리가 가능한 처리량 작업을 더 효율적으로 처리한다”고 평가한다. 객관적인 벤치마크를 통해 이러한 구분이 명확하게 확인된 적은 없다. 하지만, 이런 인식이 널리 퍼져 있다보니, 이들 도구를 모두 함께 사용하는 추세다. 어느 하나가 모든 기능에서 우위를 점하는 것은 아니기 때문에 더욱 그렇다. 이 계층에선 코덱스 플러그인이 특별히 활성화된다. ‘클로드’가 코드를 작성하고 ‘코덱스’가 이를 리뷰할 때, 리뷰어(코덱스)는 코드 작성에 참여하지 않았다. 따라서 동일한 내부 가정을 공유하지 않으며, 서로 다른 오류를 포착한다. 특히 ‘공격적’인 리뷰 명령을 통해 인증이나, 데이터 손실, 롤백, 경쟁 조건에 대한 압력 테스트를 함으로써 더욱 심층적인 검토를 할 수 있다. 이같은 (모델 간의) 교차 리뷰는 장점이 크다. 단일 모델 워크플로로는 해결할 수 없는 문제를 해결한다. 다시 말해 코드를 작성한 모델에게 다시 리뷰를 요청하는 것은 마치 자신의 숙제를 채점해 달라고 하는 것과 같다. 다른 AI기업이 다른 데이터와 최적화 목표를 사용하여 학습시킨 또 다른 모델이 제대로 된 독립적인 검증을 할 수 있다. ‘검토 게이트’ 기능도 이 과정을 자동화한다. 이 기능을 활성화하면 ‘코덱스’는 ‘클로드’의 모든 출력물을 최종 확정하기 전에 검토한다. 문제가 발견되면 ‘클로드’는 다음 단계로 진행하기 전에 문제를 해결한다. 오픈AI는 제품 안내 문서에서 “이 기능이 장시간 실행되는 루프를 생성해 사용량 제한을 빠르게 소진시킬 수 있다”고 경고할 정도로 개발자들에게 이 기능을 가장 중요함을 강조하고 있다. 상호 운용성 노력, 벤더 종속 지양 오픈AI가 앤트로픽의 제품용 플러그인을 개발하는 것은 매우 중요한 전략적 신호라고 할 수 있다. 기존 전략은 사용자들을 자사 제품에 종속시키고, 폐쇄적인 생태계를 구축하고, 다른 플랫폼으로의 전환을 어렵게 만드는 것이었다. 하지만 오픈AI는 정반대의 전략을 펼치고 있다. 그 이유는 경제적인 측면에서도 설명 가눙하다. ‘클로드 코드’ 역시 모델 간의 상호 운영성 내지 脫‘락인’ 측면에서 개발자들로부터 폭넓은 호응을 얻고 있다. 애초 오픈AI의 경우 개발자들이 다른 플랫폼으로 전환하기를 기다리는 대신, 개발자들이 이미 작업하는 환경에 자사의 ‘코덱스’를 통합했다. 이는 앤트로픽의 개방형 플러그인 아키텍처 덕분에 가능했다. 즉, ‘클로드 코드’의 MCP(콘텍스트 연결 프로토콜) 기반 플러그인 시스템은 경쟁사를 포함한 타사 통합을 지원하도록 설계되었다. 흔히 기업 간 갈등을 야기하기 십상인 ‘플랫폼’ 대 ‘앱’의 구도는 양측 모두에게 이익이 되는 구도로 대체되었다. 이에 앤트로픽은 더욱 풍부한 플러그인 생태계를 확보하고, 오픈AI는 경쟁사의 기존 사용자 기반 내에서 배포 기회를 얻게 된 것이다. 이는 개발자들에게도 영향이 크다. 우선 모델 선택 자체가 인프라가 된다. 예를 들어 ‘Cursor 3’의 ‘/best-of-n’ 명령어는 병렬 처리가 가능한 작업에서, 동일한 작업을 여러 모델에 전송한다. ‘커서’ 자체 모델인 ‘Composer 2’는 오픈 소스 ‘Kimi K2.5’를 기반으로 구축되었다. 개발업계에 미치는 영향 지난 수 십 년 동안 코드 에디터는 소프트웨어 개발의 중심이었다. 즉, 개발자는 코드를 작성하고 도구는 보조하는 역할을 한다는게 불변의 원칙이었다. 그러나 ‘커서 3’의 에이전트 창은 이런 가정에 정면으로 도전한다. 오케스트레이션 계층이 주요 인터페이스로서 에디터와 경쟁하기 시작했다. 에디터는 여전히 유용하지만, 더 이상 유일무이한 존재는 아니다. 단일 모델 기반 리뷰는 항상 구조적으로 한계가 있었다. 그러나 이젠 특정 모델이 코드를 작성하고, 다른 모델이 이의를 제기하는 방식의 ‘교차 제공자 검토’는 AI 기반 개발에서 발생하는 ‘아첨’ 문제를 해결하는, 가장 유망한 전략이다. 이처럼 코딩 에이전트 스택은 빠르게 발전하고 있다. ‘커서’는 오케스트레이션 계층에서 주도권을 잡고 있으며, ‘클로드 코드’와 ‘코덱스’는 실행 계층에서 경쟁과 협력을 동시에 진행하고 있다. (이들 서로 다른 모델 간의) ‘교차 제공자 검토’는 6개월 전에는 존재하지 않았던 검증 계층을 열어주고 있다. 그래서 모든 코딩 작업에 하나의 도구를 사용하는 대신, AI 코딩에서도 통합보다는 조합이 새로운 패턴으로 떠오르고 있다. 하지만 “이러한 스택이 안정화될지, 아니면 계속해서 분열될지는 미지수”라는 지직도 있다. ‘더 뉴스택’은 “깃허브 코파일럿은 자체 에이전트 기능을 발전시키고 있으며, AWS ‘Kiro’는 에이전트 중심의 IDE를 출시했다”면서 “이제 모든 주요 클라우드 제공업체가 이 시장에서 자리를 잡고 있다. 다음 단계는 어떤 계층이 상품화되고 어떤 계층이 새로운 제어 지점이 될지에 따라 결정될 것”으로 내다봤다.

관련 저널 읽기

전체 보기 →