2026년 중반, AI 도구들을 3개월 써보니 벌어진 일

요즘 AI 도구를 안 쓰는 사람이 오히려 소수다. 나도 올해 초부터 개발 워크플로우, 이미지 작업, 차량 인포테인먼트까지 일상 곳곳에 AI를 밀어 넣었다. "이거 안 쓰면 뒤처지는 거 아닌가" 하는 불안감이 시작점이었다면, 3개월이 지난 지금의 감상은 좀 다르다.

2026년 중반, AI 도구들을 3개월 써보니 벌어진 일

요즘 AI 도구를 안 쓰는 사람이 오히려 소수다. 나도 올해 초부터 개발 워크플로우, 이미지 작업, 차량 인포테인먼트까지 일상 곳곳에 AI를 밀어 넣었다. "이거 안 쓰면 뒤처지는 거 아닌가" 하는 불안감이 시작점이었다면, 3개월이 지난 지금의 감상은 좀 다르다. 좋은 점은 분명 있지만, 기대했던 것과 실제 경험 사이에는 생각보다 넓은 간극이 있었다.

이 글에서는 2026년 상반기에 실제로 써본 AI 도구들—코딩 어시스턴트, 이미지 생성, 산업용 멀티모달 모델, 차량용 AI 어댑터—에 대한 경험을 솔직하게 정리한다. 결론부터 말하면, "AI가 다 해줄 줄 알았는데"라는 환상은 빠르게 깨졌고, 대신 "어디에 쓰면 진짜 효율이 나오는가"라는 감각이 생겼다. 각 도구의 가능성을 확인한 동시에, 그 한계 역시 피부로 체감한 90일간의 기록이다.

코딩 도우미: Claude Code의 가능성과 한계

올해 가장 기대했던 건 AI 코딩 어시스턴트였다. Claude Code는 코드 완성, 리팩토링, 디버깅, 코드베이스 설명 등 광범위한 작업을 처리할 수 있다고 알려져 있다. 실제로 써보니 솔직히 "이 정도까지 가능하구나" 싶은 순간이 여러 번 있었다.

가장 인상적이었던 건 기존 코드베이스를 읽고 맥락을 파악하는 능력이었다. 복잡한 레거시 코드를 붙여넣으면 "이 부분은 이런 의도로 작성된 것 같은데, 이런 방식으로 리팩토링하면 어떻겠습니까"라고 제안하는 흐름이 자연스러웠다. 단순히 문법을 맞춰주는 수준이 아니라, 코드의 구조적 의도를 이해하려는 시도가 보였다. 함수 간 의존 관계를 파악해 사이드 이펙트를 경고해 주거나, 테스트 커버리지가 부족한 영역을 짚어주는 식의 활용도 가능했다. 한 프로젝트에서는 레이어드 아키텍처 위반 패턴을 스스로 발견해 "이 서비스 계층이 직접 데이터 접근 계층을 호출하고 있는데, 인터페이스를 통해 분리하는 것이 유지보수에 유리합니다"라고 제안한 적도 있다. 코드 리뷰어 한 명이 붙은 것 같은 경험이었다.

하지만 비용 문제가 현실적으로 다가왔다. API 토큰 과금이 쌓이면 월 수십만 원은 금방 넘어간다. 집중적으로 사용한 달에는 API 비용만 40만 원을 넘긴 적도 있다. 이 지점에서 로컬 모델을 병행하는 전략이 유효했다. KDnuggets의 분석에서도 확인된 바와 같이, 잘 선택된 양자화된 로컬 모델은 토큰당 비용이 없고 속도 제한 없이 대부분의 실제 사용 사례를 커버할 수 있다. 간단한 코드 완성이나 반복적인 리팩토링 작업은 로컬 모델로 처리하고, 복잡한 아키텍처 설계나 대규모 코드베이스 분석만 Claude Code에 맡기는 식이다.

실제로 이렇게 이중 구조로 운영한 결과, 월 API 비용을 약 70% 줄이면서 작업 품질의 눈에 띄는 저하는 없었다. 예를 들어 단순한 보일러플레이트 코드 생성이나 변수명 리네이밍 같은 반복 작업은 로컬 모델이 충분히 해냈다. 복잡한 알고리즘 설계나 멀티 파일에 걸친 리팩토링이 필요한 순간에만 클라우드 모델을 호출하는 방식으로, 일종의 "게이트키핑" 역할을 직접 설정한 셈이다. 다만 로컬 모델의 한계도 분명하다. 한국어 주석이 섞인 코드를 처리하거나, 프로젝트의 전체 맥락을 한 번에 이해해야 하는 경우에는 여전히 클라우드 모델이 앞선다.

추가로 하나 더 짚고 싶은 건, 로컬 모델을 고를 때의 시행착오다. 처음에는 파라미터 수가 큰 모델을 무조건 좋다고 생각했다. 그런데 막상 써보니 양자화 수준에 따라 같은 모델이라도 품질 차이가 크게 났다. 4비트 양자화와 5비트 양자화 사이에서 체감되는 코드 완성 품질 차이는, 벤치마크에서는 미미해 보여도 실제 작업에서는 꽤 민감하게 느껴졌다. 변수 추론 같은 미묘한 부분에서 4비트 모델은 종종 엉뚱한 이름을 제안했고, 5비트 이상에서는 그런 빈도가 현저히 줄었다. 결국 로컬 모델 전략은 "어떤 모델을 쓸 것인가"보다 "어떤 양자화 수준에서 품질이 허용 가능한가"를 먼저 결정하는 게 핵심이었다.

최근에는 Claude가 작업에 맞춰 자체 하네스를 즉석에서 작성하는 기능도 등장했다. Towards Data Science의 분석에 따르면, 이 하네스 시스템은 복잡한 소프트웨어 설계 과제에서 여러 에이전트가 역할을 분담하는 구조로 작동한다. 여러 Claude 인스턴스를 하나의 작업에 배치해 체계적으로 문제를 풀게 하는 방식인데, 개념은 흥미롭지만 실무에서 체감할 수 있는 수준의 완성도까지는 아직 시간이 필요해 보인다. 실제 프로젝트에 적용했을 때, 인스턴스 간 커뮤니케이션 오버헤드가 예상보다 크다는 점이 체감되었다. 단일 작업을 여러 개로 쪼개는 것 자체가 엔지니어링 감각을 요구하기 때문이다. 작업 분해 전략을 사람이 직접 설계해야 하므로, "AI가 자동으로 팀을 구성해 해결해 준다"는 프레젠테이션 영상의 인상과 실제 경험 사이에는 꽤 큰 차이가 존재했다.

내가 직접 시도한 하네스 활용 사례를 구체적으로 설명하면 이렇다. 하나의 백엔드 서비스에서 캐싱 로직을 리팩토링하는 작업을 세 개의 인스턴스에 분배했다. 첫 번째 인스턴스는 기존 캐싱 구조의 분석을, 두 번째는 새 설계안 제시를, 세 번째는 마이그레이션 코드 작성을 맡겼다. 분업 자체는 잘 돌아갔지만, 첫 번째와 두 번째 인스턴스가 내놓은 분석과 설계안 사이에 개념적 불일치가 발생했다. 두 인스턴스가 "캐시 무효화 전략"을 서로 다르게 해석한 것이다. 결국 내가 직접 조율하고 중간에서 맥락을 맞춰줘야 했다. 결국 하네스의 진짜 노동은 "작업을 쪼개고 조율하는 사람"에게 집중된다는 점을 뼈저리게 느꼈다.

평가 항목	Claude Code (클라우드)	로컬 양자화 모델
코드 완성 정확도	높음	중간~높음
대규모 코드베이스 이해	우수	제한적
토큰당 비용	유료 (API 과금)	무료
한국어 처리	양호	불안정
응답 속도	네트워크 의존	로컬 하드웨어 의존
복잡한 추론	우수	중간

이미지 생성: ChatGPT 2.0의 업그레이드는 체감됐지만

OpenAI가 ChatGPT의 이미지 생성 모델을 2.0으로 업그레이드했다는 소식을 듣고 바로 테스트해 봤다. 텍스트 렌더링 능력이 개선되었다는 점은 직접 확인할 수 있었다. 이전 버전에서 이미지 안에 한글이나 영문 텍스트를 넣으면 글자가 깨지거나 의미 없는 문자열로 나오는 경우가 잦았는데, 2.0에서는 상당히 안정적으로 텍스트를 이미지에 삽입할 수 있게 됐다.

구체적으로, "카페 메뉴판" 같은 프롬프트를 주면 실제 읽을 수 있는 메뉴 텍스트가 포함된 이미지가 나왔다. 이건 실제로 디자인 초안 작업에서 시간을 꽤 절약해 줬다. SNS용 배너 이미지를 만들 때도, 이전에는 텍스트 레이어를 별도로 합성해야 했던 과정이 한 번의 프롬프트로 해결되는 경우가 늘었다. 프로토타입 수준의 시각 자료가 필요할 때, 디자이너에게 의뢰하기 전에 "대충 이런 느낌"을 시각적으로 전달하는 용도로는 확실히 유용했다.

텍스트 렌더링 외에도, 스타일 지정 능력이 눈에 띄게 향상되었다. "수채화 느낌으로", "네온사인 톤으로", "미니멀리스트 포스터 스타일로" 같은 구체적인 스타일 지시를 줬을 때 이전보다 훨씬 일관된 결과물이 나왔다. 이전 버전에서는 "수채화"를 요청하면 일부 영역만 수채화 처리되고 나머지는 사실적으로 렌더링되는 불일치가 잦았는데, 2.0에서는 전체 이미지가 동일한 미감으로 통일되는 경우가 많아졌다. 이 점은 프로토타이핑 작업에서 꽤 큰 차이를 만들었다. 디자이너에게 전달할 레퍼런스를 빠르게 생성하기에 적합해진 것이다.

반면, 영어 외 언어 처리는 여전히 아쉽다. 한국어 문장을 이미지에 넣으려고 하면 글자 조합이 어긋나는 현상이 아직 사라지지 않았다. 영어 중심의 학습 데이터 때문이겠지만, 한국어 사용자 입장에서는 체감상 꽤 큰 불편이다. 가령 "서울특별시 관광안내" 같은 문구를 넣으면, 일부 글자가 뒤바뀌거나 획이 빠지는 오류가 관찰되었다. 비주얼 퀄리티 자체는 좋아졌지만, 다국어 텍스트 렌더링이라는 실용적 과제는 여전히 풀리지 않은 셈이다.

나아가서, 한국어 텍스트의 경우 자모 결합이 깨지는 문제가 특히 심했다. 받침이 있는 글자와 없는 글자가 혼재하면, 받침이 다른 글자로 대체되거나 아예 사라지는 현상이 빈번했다. "한국전통"을 넣으면 "한국전동"으로 렌더링되거나, "맛집"이 "맛집" 대신 "맛집"에서 받침이 빠진 형태로 나오는 식이었다. 영어 알파벳과 달리 한글의 자모 조합 구조를 모델이 완벽히 학습하지 못한 것으로 보인다. 이 문제는 단순한 불편을 넘어, 실제 프로덕션에서 이미지 생성 AI를 한국어 중심 작업에 사용하기 어렵게 만드는 핵심 병목이다.

내가 이미지 생성 AI를 평가하는 기준은 "첫 결과물에서 몇 번의 수정 프롬프트를 거쳐야 쓸 만한가"다. 2.0은 이전보다 확실히 프롬프트 이해력이 좋아져서, 평균 수정 횟수가 3~4회에서 1~2회로 줄었다. 하지만 완벽한 결과물을 한 번에 뽑아내는 수준은 아니다. "거의 다 왔는데 거슬리는 부분 하나"가 여전히 남는다. 손가락 개수가 틀리거나, 조명 방향이 앞뒤 장면에서 어긋나는 디테일 문제가 특히 잦았다. 한 번은 "야경 배경의 도시 풍경"을 요청했는데, 건물 창문 일부가 물리적으로 불가능한 각도로 렌더링되어 전체 이미지를 다시 생성해야 했다. 빠른 프로토타이핑에는 충분하지만, 최종 결과물을 바로 쓸 수 있는 수준은 아니라는 판단이다.

산업용 AI: LG 엑사원 4.5의 실용적 접근

LG AI연구원이 공개한 엑사원 4.5는 멀티모달 모델로서 시각·청각 등 다양한 데이터를 동시에 처리하는 능력을 갖추고 있다. 특히 산업 현장 데이터를 효율적으로 분석하고 실제 업무에 즉각적으로 활용할 수 있는 실용성에 초점을 맞추고 있다는 점이 인상적이었다.

솔직히 말하면, 벤치마크 수치만 보면 "GPT를 넘어서는 수준"이라는 표현이 과장처럼 느껴질 수 있다. 실제로 써보니, 수치 이상으로 와닿았던 건 한국어·한국 산업 데이터에 대한 이해도였다. 영어 중심으로 학습된 글로벌 모델과 달리, 국내 제조업 데이터나 한국어 기술 문서를 처리할 때의 정확도가 확실히 차이가 났다. 예를 들어 반도체 공정 관련 보고서를 요약할 때, 엑사원은 국내 업계에서 통용되는 약어와 표기법을 정확하게 인식한 반면, 글로벌 모델은 이를 잘못 해석하거나 영어로 번역해 버리는 경우가 있었다. 한국어 기술 용어의 미묘한 뉘앙스까지 잡아내는 능력은, 아무래도 국내 데이터로 학습된 모델이 가지는 본연의 강점으로 보인다.

구체적으로 드는 예시가 있다. 반도체 패키징 관련 기술 문서에서 "칩온와이어"와 "칩온필름"이라는 용어를 구분해야 하는 상황이 있었다. 국내 업계에서는 이 두 개념을 엄밀히 구분해서 사용하지만, 영어로 번역하면 둘 다 "chip-on-film" 계열로 묶이는 경우가 많다. 엑사원은 이 차이를 정확하게 잡아내고 각각의 특성에 맞는 분석을 제공한 반면, 동일한 문서를 글로벌 모델에 넣었을 때는 두 용어가 혼동되어 요약 내용 자체가 부정확해지는 결과가 나왔다. 이런 도메인 특화 정확도는, 산업 현장에서는 단순한 편의를 넘어 신뢰성의 문제다.

다만, 벤치마크가 실사용 경험과 항상 일치하는 건 아니다. 복잡한 추론 능력이 "대폭 향상되었다"고 하지만, 실제 업무 시나리오에서 그 차이를 체감하려면 상당히 구체적인 프롬프트 설계가 필요했다. 범용적인 질문에는 글로벌 모델과 큰 차이를 못 느꼈고, 특정 산업 도메인의 데이터를 집어넣었을 때 비로소 엑사원의 강점이 드러났다. 이 점은 도입을 고려하는 기업이 반드시 염두에 두어야 할 부분이다. 단순히 "국산 모델이니까 한국어에 더 낫겠지"라는 막연한 기대만으로는 만족스러운 결과를 얻기 어렵고, 실제 업무 데이터를 넣어 직접 비교 평가하는 과정이 반드시 선행되어야 한다.

한국 기업 입장에서는 의미 있는 선택지다. 데이터 보안 문제 때문에 해외 클라우드 AI 서비스를 쓰기 어려운 경우가 많고, 국내 데이터에 대한 미세 조정이 필요할 때 국산 모델의 강점이 분명하다. 금융권이나 공공기관처럼 개인정보 보호 규제가 엄격한 분야에서는 해외 서버를 거치지 않는다는 점 자체가 결정적인 장점으로 작용한다. 하지만 "글로벌 모델을 완전히 대체할 수 있는가"라는 질문에는 아직 "특정 분야에서 그렇다"가 정확한 답변이다. 범용 지식 추론이나 영어 중심 작업에서는 여전히 글로벌 모델이 앞서는 상황이다.

덧붙이자면, 엑사원을 평가하면서 느낀 또 하나의 포인트는 "미세 조정의 중요성"이다. 아무리 좋은 범용 모델이라도, 실제 업무에 투입하려면 해당 기업의 데이터로 미세 조정하는 과정이 필수적이다. 엑사원의 경우 국내 데이터로 학습된 베이스가 있지만, 특정 기업의 고유한 데이터 포맷이나 업무 프로세스에 맞추려면 추가적인 튜닝이 필요하다. 이 과정의 난이도와 비용이 도입 결정에 큰 영향을 미칠 수밖에 없다. 모델 자체의 성능만으로 판단할 문제가 아니라, 도입 이후의 커스터마이징 비용까지 포함한 총소유비용 관점에서 평가해야 한다는 뜻이다.

할리우드의 교훈: AI가 콘텐츠를 "만들 수 있는가"와 "팔 수 있는가"의 간극

이건 직접 써본 경험은 아니지만, 주변에서 AI 영상 생성 도구를 활용하려는 시도를 가까이서 지켜본 이야기다.

올해 트라이베카 영화제에서 AI 영화 제작이 주요 화제로 떠올랐지만, 결론은 실망에 가까웠다. The Verge의 현장 보도에 따르면, 현재 생성형 AI 모델들은 짧고 시각적으로 불안정한 영상만 만들어낼 뿐이다. 대중이 돈을 내고 볼 만한 수준의 콘텐츠를 AI가 독립적으로 만들어내는 시대는 아직 오지 않았다. 트라이베카에서 상영된 AI 생성 단편들은 관객 반응에서 "기술적으로는 놀랍지만, 감정적으로는 공허하다"는 평가가 지배적이었다. 화면 속 인물의 표정이 장면 전환 후 미묘하게 달라지거나, 배경의 물리 법칙이 어긋나는 장면이 반복되면서 몰입이 끊긴다는 지적이 많았다.

이 지점에서 한 가지 더 생각해 볼 건, "감정적 공허함"이 기술적 한계 때문인지, 아니면 AI가 아직 인간의 서사 구조를 이해하지 못하기 때문인가 하는 점이다. 트라이베카 현장에서 만난 한 단편영화 감독은 "AI는 장면은 만들 수 있어도, 장면 사이의 의미를 연결하지 못한다"고 말했다. 영화가 영화인 이유는 개별 컷의 화질이 아니라 컷과 컷 사이에 존재하는 감정의 리듬에 있는데, AI는 아직 그 리듬을 만들어내지 못한다는 것이다. 이건 단순히 영상 품질의 문제가 아니라, AI 콘텐츠 생성이 근본적으로 직면한 구조적 한계로 보인다.

더 중요한 건 기술의 수준이 아니라 신뢰의 문제다. 할리우드에서 주요 AI 제휴가 파기되고 있다는 보도는, 기술이 아무리 좋아져도 산업 현장에서 "이걸 실제로 프로덕션에 넣겠다"는 의사결정은 별개의 문제라는 걸 보여준다. 메이저 제작사들이 아주 짧은 형태의 저급 영상을 제외하면 범용 생성형 AI 모델에 의존하기 어려운 상황이라는 분석은, AI 도구를 도입하려는 모든 산업에 적용할 수 있는 교훈이다. 기술 자체의 완성도가 높아지더라도, 산업 생태계 전체가 이를 신뢰하고 워크플로우에 편입시키는 데는 훨씬 더 오랜 시간이 소요된다는 점이 확인된다.

나도 영상 편집 보조로 AI를 써본 적이 있는데, 5초 이내의 짧은 클립에서는 꽤 쓸 만했지만, 1분 이상의 영상을 일관된 톤과 품질로 만들어내는 건 불가능에 가까웠다. 씬과 씬 사이의 인물 외형이 달라지거나, 카메라 앵글이 갑자기 바뀌는 문제가 반복되었다. "AI가 만들었다"고 하면 사람들이 감탄할 수 있지만, "유료로 팔겠다"고 하면 아무도 돈을 내지 않을 수준이다. 그 간극이 현재 AI 콘텐츠의 현실이다. 단편 영상에서의 가능성을 확인한 것과, 상업적 프로덕션에 투입할 수 있는 수준에 도달한 것은 완전히 다른 차원의 문제라는 점을 이번 기회에 실감했다.

차량용 AI: 69달러짜리 어댑터가 보여주는 AI의 "일상 침투"

마지막으로, 가장 의외의 경험담이다. LAMTTO의 4-in-1 무선 카플레이·안드로이드 오토 어댑터에 Gemini AI와 스트리밍 앱이 내장된 제품을 69달러 미만 가격에 구매했다.

기대치를 낮추고 샀다. "AI가 뭐 얼마나 되겠어" 싶었다. 그런데 실제 차에서 써보니, 음성으로 길 안내를 받으면서 동시에 음악을 추천받고, 간단한 질문에 답을 듣는 경험이 생각보다 자연스러웠다. 별도의 거치대나 케이블 없이 무선으로 연결되는 것도 편리했다. 특히 장거리 운전 중 "근처 맛집 추천해 줘"라고 말하면 목적지 경로를 고려해 적절한 식당을 제안해 주는 기능은, 스마트폰을 따로 조작할 필요 없이 안전하게 사용할 수 있다는 점에서 실용적이었다. 운전 중 시선을 도로에서 떼지 않아도 된다는 것만으로도, 기존 스마트폰 내비게이션 대비 확실한 개선이었다.

사용 빈도가 늘어나면서 발견한 또 다른 장점은, AI가 학습하는 패턴이 있었다. 출퇴근 시간에 주로 사용하다 보니, 몇 주가 지나자 내가 자주 가는 경로의 교통 상황을 먼저 알려주거나, 평소에 즐겨 듣는 음악 장르에 기반한 추천이 점점 정교해지는 느낌이었다. 물론 이건 단순히 기존 내비게이션 앱의 추천 알고리즘과 다른 건 아닐 수 있다. 하지만 "AI가 붙어 있다"는 인식 자체가 사용자의 기대치와 만족도에 영향을 미친다는 점은 흥미로운 관찰이었다. 기술적으로는 비슷한 기능이라도, "AI 추천"이라는 프레이밍이 주는 심리적 효과가 존재하는 것이다.

아쉬운 점은 분명하다. 한국어 음성 인식 정확도가 아직 불안정하고, Gemini AI의 기능이 차 안에서 실제로 유용한 수준까지 도달하려면 더 많은 차량 관련 데이터와 맥락 이해가 필요하다. 차량 소음이 심한 환경에서 음성 명령 인식률이 크게 떨어진다는 점도 불편 요소였다. 고속도로 위에서 창문을 조금만 열어도 인식 오류가 급증했고, 에어컨 바람 소리가 섞이면 명령을 제대로 전달하기 어려웠다. 그리고 정가 대비 할인가라는 점을 감안하면, 정가 대비 가치는 좀 더 고민해 봐야 한다.

한 가지 더 짚고 싶은 건, 이 어댑터가 보여주는 "AI 탑재" 제품의 확산 추세다. 69달러짜리 기기에 AI가 내장되어 있다는 건, AI 칩셋의 가격이 충분히 하락했다는 신호이기도 하다. 반도체 업계에서는 엣지 AI 추론을 위한 저전력 칩이 이미 대량 생산 단계에 진입한 상태다. 이 추세가 계속되면, 자동차뿐 아니라 가전제품, 장난감, 사무용품 등 온갖 생활용품에 AI가 기본 탑재되는 시대가 머지않아 보인다. 그때가 되면 "AI를 쓸 것인가 말 것인가"가 아니라, "어떤 AI를 선택할 것인가"가 소비자의 고민이 될 것이다.

재평가: 속도보다 신뢰를 보게 된 3개월

3개월 전 나는 AI 도구를 "더 빠르게, 더 많이"의 관점에서 평가했다. 벤치마크 수치, 처리 속도, 출력 품질에 집중했다.

지금은 다르게 본다. 나는 이 제품들을 작업 흐름을 망치는지 아닌지로 평가하게 됐다. 화려한 기능이 있어도, 결과물이 불안정해서 매번 확인·수정해야 한다면 오히려 수동 작업보다 느리다. 반대로 평범한 기능이라도 예측 가능하고 일관된 결과를 내면, 시간이 지날수록 그 가치가 커진다.

코딩 도우미는 후자에 가깝다. 로컬 모델과 클라우드 모델을 적절히 섞으면 비용 효율과 품질의 균형을 맞출 수 있다. 이미지 생성은 전자에 가깝다. 결과물이 좋아졌지만, "한 번에 원하는 결과가 나올지 아닐지"를 예측하기 어렵다. 산업용 모델은 도메인에 따라 완전히 갈린다. 특정 분야에서는 확실한 강점을 보이지만, 범용 상황에서는 글로벌 모델과의 차이가 체감되지 않는다.

이 평가 기준의 전환은, 솔직히 말해 실망에서 출발했다. AI 도구에 처음 접근할 때의 기대는 "내가 하던 일을 대폭 줄여줄 것"이었다. 하지만 3개월을 써보니, AI가 줄여주는 건 "노동의 양"이 아니라 "노동의 종류"라는 걸 깨달았다. 예를 들어 이미지 생성 AI를 쓰면, 포토샵에서 레이어를 조작하는 노동은 줄어든다. 대신 프롬프트를 설계하고 결과물을 검수하며 수정하는 새로운 노동이 생긴다. 총노동시간이 줄었는지는 경우에 따라 다르다. 확실한 건, 노동의 성격이 바뀌었다는 점이다. 이 사실을 인정해야 AI 도구를 현실적으로 배치할 수 있다.

이 리뷰를 읽고 있을 당신에게

이런 사람에게 추천한다:

개발자로서 반복적인 코드 작업을 줄이고 싶고, 로컬 모델 병용에 거부감이 없는 사람
특정 산업 도메인에서 국산 AI 모델의 장점을 활용할 수 있는 한국 기업 실무자
AI 도구의 현재 수준을 냉정하게 파악하고 싶은 기술 의사결정권자

이런 사람은 기대를 낮추는 게 좋다:

"AI가 알아서 다 해주겠지"라는 기대로 접근하는 사람
한국어 중심 작업이 많고, 영어 처리 품질에 크게 의존할 수 없는 사람
프로덕션 수준의 AI 콘텐츠 생성을 기대하는 크리에이터

2026년 중반 현재, AI 도구는 "완성된 제품"이 아니라 "계속 진화 중인 베타"에 가깝다. 그 사실을 받아들이고 어디에 배치할지를 현명하게 선택하는 사용자에게는 분명 강력한 무기다. 하지만 "모든 걸 해결해 줄 만능 도구"로 접근하면 실망할 확률이 높다. 3개월간의 경험에서 내가 얻은 가장 중요한 교훈이다.

참고 출처

[1] The Verge, "할리우드의 미래는 바닐라 세대 AI 모델에 프롬프트를 제공하지 않습니다" - https://www.theverge.com/ai-artificial-intelligence/948425/tribeca-2026-dear-upstairs-neighbors-google-deepmind-openai
[2] Towards Data Science, "A Harness for Every Task: Putting a Team of Claudes on One Job" - https://towardsdatascience.com/a-harness-for-every-task-putting-a-team-of-claudes-on-one-job/
[3] KDnuggets, "Claude Code를 로컬 모델과 페어링" - https://www.kdnuggets.com/pairing-claude-code-with-local-models
[4] Singularity Hub, "Is Richard Dawkins Right About Claude? No. But It's Not Surprising AI Chatbots Feel Conscious to Us." - https://singularityhub.com/2026/06/12/is-richard-dawkins-right-about-claude-no-but-its-not-surprising-ai-chatbots-feel-conscious-to-us/
[5] LG AI연구원, "엑사원 4.5 공개"
[6] slickdeals, "LAMTTO 4-in-1 무선 카플레이 어댑터"

2026년 중반, AI 도구들을 3개월 써보니 벌어진 일

2026년 중반, AI 도구들을 3개월 써보니 벌어진 일

2026년 중반, AI 도구들을 3개월 써보니 벌어진 일

코딩 도우미: Claude Code의 가능성과 한계

이미지 생성: ChatGPT 2.0의 업그레이드는 체감됐지만

산업용 AI: LG 엑사원 4.5의 실용적 접근

할리우드의 교훈: AI가 콘텐츠를 "만들 수 있는가"와 "팔 수 있는가"의 간극

차량용 AI: 69달러짜리 어댑터가 보여주는 AI의 "일상 침투"

재평가: 속도보다 신뢰를 보게 된 3개월

이 리뷰를 읽고 있을 당신에게

참고 출처

출처 기사

할리우드의 미래는 바닐라 세대 AI 모델에 프롬프트를 제공하지 않습니다.

모든 작업을 위한 하네스: Claudes 팀을 하나의 작업에 투입

Claude Code를 로컬 모델과 페어링

Is Richard Dawkins Right About Claude? No. But It’s Not Surprising AI Chatbots Feel Conscious to Us.

관련 저널

AI가 채팅창을 벗어나는 2026년, 진짜 전쟁은 '심기'의 영역에서 벌어진다

혁신의 대가는 '비싼 아이폰'인가, 시리 AI와 애플의 비용 딜레마

MiniMax M3가 오픈 가중치로 풀렸다. 비용은 GPT-5.5의 5~10% 수준이다

앤트로픽 AI 모델 멈춘 진짜 이유, 탈옥이 아니라 수출 통제였다

SpaceX IPO와 포켓몬 고의 이중 얼굴: 기술 권력은 어디로 향하는가

관련 저널

Unsloth와 NVIDIA 최적화, 소규모 개발자에게 진짜 필요한 솔루션인가