에이전트 최적화라는 새로운 전장 [이승현의 AI 네이티브] - IT조선
[AI] gpt-5.4
|
|
{'이벤트': '📰', '머신러닝/연구': '📰', '하드웨어/반도체': '📰', '취약점/보안': '📰', '기타 AI': '📰', 'AI 딜': '📰', 'AI 모델': '📰', 'AI 서비스': '📰', 'discount': '📰', 'news': '📰', 'review': '📰', 'tip': '📰'} review
#ai 네이티브
#ai 전장
#it조선
#에이전트 최적화
#이승현의 ai 네이티브
#anthropic
#claude
#gpt-5
#review
요약
2026년 3월 26일, 앤트로픽(Anthropic)의 콘텐츠 관리 시스템에서 기본값 공개설정 오류로 약 3000건의 비공개 자산이 외부에 노출됐다. ‘클로드 미토스(Claude Mythos), 공개 라인업 최상단인 오푸스(Opus)’를 뛰어넘는 4번째 티어 모델이었다.
왜 중요한가
본문
2026년 3월 26일, 앤트로픽(Anthropic)의 콘텐츠 관리 시스템에서 기본값 공개설정 오류로 약 3000건의 비공개 자산이 외부에 노출됐다. 그 더미 속에 묻혀 있던 이름 하나가 업계에 파장을 일으켰다. ‘클로드 미토스(Claude Mythos), 공개 라인업 최상단인 오푸스(Opus)’를 뛰어넘는 4번째 티어 모델이었다. 거의 같은 시기, 중국의 제타이(Z.ai, 구 Zhipu AI)는 7540억 파라미터 규모의 MoE모델 GLM-5.1을 MIT 라이선스로 공개했다. 폐쇄형 진영의 은밀한 도약과 오픈소스 진영의 전면 개방이다. 방향은 정반대지만, 두 사건이 겨냥하는 지점은 같다. '말하는 AI'에서 '일하는 AI'다. 즉 에이전트 최적화로 업계의 무게중심이 옮겨가고 있다는 것이었다. 말하는 기계에서 일하는 기계로 지난 몇 년간 프런티어 경쟁은 파라미터 크기와 대화 품질의 경연이었다. 그러나 2025년 하반기부터 흐름이 바뀌기 시작했다. 앤트로픽이 2025년 9월 29일 'Claude Code SDK'를 'Claude Agent SDK'로 개명한 것은 상징적이다. 회사는 “개발자들이 이 도구로 코딩뿐 아니라 심층 리서치·영상 제작·법률 분석까지 수행하고 있었다"고 밝혔다. 같은 시기 클로드 소넷(Claude Sonnet) 4.5는 30시간 넘게 자율 코딩을 이어가며 슬랙 유사 채팅 앱 1만 1천 줄을 스스로 완성했다. 직전 세대 오푸스 4가 기록한 7시간을 네 배 이상 앞지른 수치였다. 2026년 3월 5일 공개된 오픈AI의 GPT-5.4 역시 '범용 모델 최초의 네이티브 컴퓨터 조작 기능'을 전면에 내세웠다. 도구를 쥐여주는 단계를 지나, 도구 사용 자체가 모델의 일부가 된 것이다. 평가기관 METR의 지표는 이 흐름이 일시적 유행이 아님을 보여준다. 프런티어 모델이 절반의 확률로 자율 완수할 수 있는 과업 길이는 지난 6년간 약 7개월마다 두 배씩 늘어왔고, 2024~2025년 구간에서는 그 주기가 4개월로 단축됐다. 에이전트 경제는 '언젠가 올 미래'가 아니라, 1년 뒤면 오늘의 네 배로 커져 있을 것이다. 클로드 미토스: 사고하는 기계가 아니라 행동하는 기계 아이러니한 보안 사고 이후, 앤트로픽이 뒤늦게 공개한 레드팀(보안 점검팀) 문서는 두개의 오래된 문제점을 들췄다. 오픈BSD 커널에 27년간 잠복해 있던 TCP SACK 원격 서비스 거부 취약점, 그리고 프리BSD에 17년간 묻혀 있던 NFS 서버 원격 코드 실행 취약점이다. 미토스는 이 두 건을 포함해 주요 운영체제와 브라우저 전반에서 수천 건의 제로데이(사전 패치가 없는 보안 결함)를 자율 식별했다. 앤트로픽 문서의 한 문장을 그대로 옮기면, "이 취약점의 발견과 공격 어느 쪽에도 인간이 개입하지 않았다." 미토스는 여섯 개 패킷에 걸친 공격 시퀀스를 스스로 설계해내기도 했다. 주목할 것은 배포 방식이다. 앤트로픽은 2026년 4월 7일 AWS·애플·시스코·구글·마이크로소프트·엔비디아·JP모건·리눅스 재단 등 13개 기관과 프로젝트 글래스윙(Project Glasswing) 이라는 방어적 사이버보안 컨소시엄을 출범했다. 1억 달러 규모 크레딧과 400만 달러 오픈소스 기부를 얹어, 방어 측 연구자에게만 미토스 프리뷰를 선별 제공한다. 모델 자체는 공개하지 않고 자격을 갖춘 방어자에게만 여는 선별 접근 모델의 등장이다. 같은 시기에 개정된 앤트로픽의 책임 있는 확장 정책이 최고 위험 등급 ASL-4의 기준을 "아직 정의 불가"로 남겨둔 것과 맞물린다. 에이전트 최적화가 도달한 임계치에서는 공개 여부 자체가 안보 의사결정인 것이다. GLM-5.1: 제약을 설계로 바꾼 반격 제타이의 GLM-5.1은 오픈소스 진영의 답이다. 이전 모델 GLM-5는 2026년 2월 11일 공개됐는데 이 모델은 화웨이의 어센드 910B AI 칩 10만 개로 구성된 자국산 클러스터에서 28.5조 토큰 학습을 완료한 최초의 프런티어급 모델이었다. 엔비디아 GPU 없이, 화웨이의 자체 AI 프레임워크 마인드스포어와 어센드 칩 최적화 조합만으로 달성한 결과다. 4월 7일 공개된 GLM-5.1은 그 계보 위에 얹힌 업데이트다. 총 7540억 파라미터 MoE 구조, 실제 추론 시 활성화되는 파라미터는 400억, 컨텍스트 길이 20만 토큰이다. 소프트웨어 버그 수정 능력을 측정하는 벤치마크 SWE-Bench Pro에서 GLM-5.1은 58.4%를 기록하며 GPT-5.4(57.7%)와 클로드 오푸스 4.6(57.3%)을 앞질렀다. 오픈 가중치 모델이 상용 최고 수준을 추월한 첫 사례다. 자율 실행 지속 시간은 최대 8시간, 한 세션에서 수백 라운드의 추론과 수천 번의 툴 호출을 견딘다. 가격은 더 인상적이다. 출력 토큰 기준 GPT-5.4 대비 약 4~5배, 클로드 오푸스 4.6 대비로는 7배 이상 저렴하다. 제타이가 스스로를 "바이브 코딩을 넘어선 에이전틱 엔지니어링"으로 규정한 것은 시사하는 바가 크다. GPU 제재가 모델 크기 경쟁의 문을 닫아버리자, 중국은 추론과 실행을 반복하는 구조로 새 문을 열었다. 문샷(Moonshot)의 키미 K2.5는 한 과업에 최대 100개의 에이전트 분신을 병렬 투입해 처리 효율을 3~10배 끌어올린다. 단 하나의 천재 모델이 아니라, 다수의 효율적 에이전트를 오케스트레이션하는 설계 철학이다. 하드웨어의 약점을 소프트웨어 아키텍처로 바꿔버린 것이 제재 3년 차 중국이 내놓은 해답이다. 에이전트 최적화의 5각 구조 에이전트 최적화에서 기존에 강조하던 점들, 에이전틱 강화학습, 도구 사용의 내재화, 장기 계획 등 이 부분은 지금도 유효하다. 그런데, 2025년 9월 공개된 ‘에이전틱 RL의 지형’ 논문이 500편 이상의 연구를 종합하며 내린 결론은 한 걸음 더 나아간다. LLM은 더 이상 수동적 문장 생성기가 아니라, 불완전한 정보 속에서 스스로 판단을 내리는 의사결정 에이전트로 재정의되어야 한다는 것이다. 자율적으로 판단하는 존재라면, 그 판단이 맞는지 확인하는 장치와 필요한 순간 더 깊이 사고해야 한다. 그래서 2가지가 더 중요해진다. '검증자·자기교정' -모델이 자기 출력을 스스로 점검하고 고치는 구조, 그리고 '테스트 시점 연산 확장(test-time compute scaling)' - 추론 단계에서 연산 자원을 더 투입해 답의 품질을 끌어올리는 방식이다. 검증의 구체적 구현은 이중 보상 구조다. 최종 결과만 평가하는 결과 보상 모델(ORM)과 추론 과정 전체를 평가하는 과정 보상 모델(PRM)을 나란히 두고, 그 위에 '생성자 → 비평자 → 순위자 → 융합자 → 검증자'로 이어지는 계층형 아키텍처를 얹는 것이다. 이러한 설계는 이제 프런티어 랩의 기본값이 되어가고 있다. 여기서 중요한 건 에이전트 최적화는 단일 기법이 아니라 일종의 스택(stack)이라는 점이다. 그리고 스택이라는 말은 성능이 모델 하나에서 결정되지 않는다는 뜻이기도 하다. 점수는 모델을 둘러싼 실행 환경 전체, 이른바 에이전트 하네스(agent harness)에서 매겨져야 한다. 같은 오푸스 4.5 모델도 스캐폴딩(모델을 감싸는 작업 구조) 설계만 바꾸면 SWE-Bench Pro 점수가 50.2%에서 55.4%로 5%p 넘게 출렁인다. 모델이 바뀌지 않아도 숫자는 바뀐다. 그렇기 때문에 “우리 모델이 벤치마크 X%”라는 홍보 문구는 그대로 믿기는 어렵다. 절반만 참이고, 나머지 절반은 그 점수가 어떤 조건에서 나왔는지에 달려 있기 때문이다. 그래서 우리가 고민해야할 지점은 크게 3가지다. 첫째, 어느 벤치마크인가 ‘Verified인지, Pro인지, Live인지’ 같은 SWE-Bench라는 이름이어도 난이도가 전혀 다르다. Verified는 정제된 표준 문제로 상위 모델이 70%대를 찍는 쉬운 시험지, Pro는 실제 프로덕션 코드의 복잡한 버그를 다뤄 최상위권도 50%대 후반에 머문다. Live는 최신 오픈소스 이슈를 실시간 갱신해 학습 데이터 오염을 차단한 버전이다. 어느 시험지인지 모르고 점수만 보는 것은 당연히 문제가 있다. 둘째, 어떤 스캐폴딩 조건에서 나온 점수인가. 스캐폴딩이란 모델을 감싸고 실제로 일하게 만드는 작업 구조다. 어떤 프롬프트로 지시할지, 어떤 도구를 어떤 순서로 쥐여줄지, 실패했을 때 몇 번 재시도할지, 긴 맥락을 어떻게 잘라 기억시킬지 같은 설계 전부가 여기 포함된다. 같은 모델이라도 이 구조를 어떻게 짜느냐에 따라 점수가 5%p 넘게 흔들린다. 벤더가 공개하는 점수는 대부분 자사가 최적화한 스캐폴딩 위에서 측정한 값이다. 그런데 모델이 고객사에 이식되는 순간 그 구조는 사라지고, 고객사의 환경이 그 자리를 대신한다. 벤더 페이지의 55%가 현장에선 48%가 되는 일이 드물지 않은 이유다. 셋째, 실행 로그와 과정 보상 증빙을 받을 수 있는가. 에이전트는 한 번의 출력이 아니라 수백~수천 번의 의사결정 연쇄로 작동한다. 최종 답이 맞았다고 과정까지 건강했다는 뜻은 아니다. 위험한 권한을 시도하다 운 좋게 실패했거나, 엉뚱한 경로를 돌다 우연히 정답에 도달해도 결과만 보면 성공이다. 과정 로그가 없으면 감사도, 사고 원인 분석도, AI 기본법·EU AI Act가 요구하는 설명 가능성도 문서상으로조차 성립하지 않는다. 로그를 내주지 않는 벤더는 규제 리스크를 고객사에 떠넘기고 있는 셈이다. 질문의 시대에서 위임의 시대로 과거 AI 전략의 화두는 어떻게 더 좋은 질문(프롬프트)을 던질까였다면, 이제 에이전트AI 시대의 원년으로 볼 수 있는 2026년의 화두는 어느 권한을, 어디까지 위임할까로 봐야한다. 위임은 생산성의 원천이지만 동시에 책임도 수반될 수 밖에 없다. 자율 연속 실행 시간이 8시간에서 30시간으로 넘어가는 구간에서 기업은 새로운 위험 범주, 로그가 추적되지 않고, 스스로에게 프롬프트를 주입하며, 자동화된 권한 남용을 일으키는 존재인 그림자 에이전트(Shadow Agent)를 마주할 수도 있다. 과기정통부의 '독자 AI 파운데이션 모델 프로젝트' 2단계에는 LG AI연구원·SKT·업스테이지 3팀이 올랐고, 네이버클라우드와 NC AI는 1단계에서 탈락했다. 6월 2단계 평가, 12월 최종 평가가 남아 있다. 소버린 AI 컨소시엄이라는 이름으로 정부 예산이 처음 투입되는 이 시험대에서, 평가 기준이 '벤치마크 점수'에 머문다면 설계 자체가 한 세대 뒤처질 수 있다. 그래서, 에이전트 기반의 자율 연속 과업 시간과 검증 가능성 등이 평가에 포함되어야 할 것이다. 신뢰할 수 있는 에이전트는 누구의 손에 쥐어지는가 정리하면 이렇다. 미토스와 GLM-5.1은 같은 질문에 내놓은 두 개의 상반된 답이다. 한쪽은 "선별 접근과 컨소시엄 거버넌스로 강력한 에이전트를 검증된 소수의 손에만 쥐여준다"는 길을, 다른 쪽은 "오픈 가중치와 하드웨어 자립으로 그 능력을 누구나 쥘 수 있게 풀어놓는다"는 길을 택했다. 방향은 정반대지만, 두 진영이 전제하는 지점은 똑같다. 이제 승부는 파라미터 크기가 아니라, 믿고 일을 맡길 수 있는 실행자를 누가 먼저 확보하느냐에서 갈린다는 것이다. 모델이 얼마나 큰가가 아니라, 모델이 얼마나 오래, 안전하게, 검증 가능하게 일하는가가 경쟁의 중심이 된 것이다. ※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다. 이승현 포티투마루 부사장은 스타트업 창업가 출신의 AI 전문가다. 디지털플랫폼정부위원회 인공지능플랫폼혁신국장으로서 재직하면서 대한민국 공공 AI의 초석을 닦았으며, 현재는 법무법인 린의 공공AX 고문을 겸하며 기술과 정책의 가교 역할을 하고 있다. 이론에 머물지 않는 현장형 전략가로서 국가 전반의 AI 네이티브 전환을 이끌고 있다.