"그리는 것이 곧 이해하는 것"…구글, 생성 AI로 비전 AI 역할까지 하는 '비전 바나나' 공개 - AI타임스
[AI] ai
|
|
🔬 연구
#공급 부족
#무어의 법칙
#부조종사
#빨간색 녹색 쇼
#수십억 달러
#ai 모델
#claude
#ms
#review
#글래스윙
#앤트로픽
#프로젝트 글래스윙
원문 출처: [AI] ai · Genesis Park에서 요약 및 분석
요약
화려한 시각적 출력물을 만들어내는 Claude Design과 달리, NotebookLM은 사용자가 직접 수집한 자료와 사유의 파편을 기반으로 작업한다. 결국 AI는 입력된 데이터를 최적화할 뿐이며, 현장에서 발로 뛰며 얻은 투박한 경험과 기록만이 AI를 통해 개인을 증명하는 유일한 근거가 된다.
본문
이미지 생성 모델이 단순히 ‘그림을 잘 만드는 AI’를 넘어, 시각 정보를 이해하는 범용 모델로 진화하고 있다는 연구 결과가 나왔다. 비전 AI와 생성 AI가 통합되는 신호로 해석된다. 구글 딥마인드 연구진은 24일(현지시간) 이미지 생성 능력을 유지하면서도 의미론적 분할, 객체 분할, 단안 깊이 추정, 표면 법선 추정 등 다양한 시각 이해 작업을 수행하는 통합 모델 ‘비전 바나나(Vision Banana)’를 온라인 아카이브를 통해 공개했다. 연구진은 비전 바나나를 통해 이미지 생성 학습이 대형언어모델(LLM)의 사전 학습과 동일한 역할을 수행한다는 점을 입증했다. 그동안 컴퓨터 비전 분야에서는 이미지를 생성하는 모델과 이를 분석하는 모델이 별도로 발전해 왔지만, 이번 연구는 생성 과정 자체가 이미 시각적 이해를 포함하고 있음을 보여준다. 핵심 아이디어는 간단하지만 강력하다. LLM이 방대한 텍스트 생성 학습을 통해 다양한 작업에 활용되는 것처럼, 이미지 생성 학습 역시 시각적 세계에 대한 풍부한 내부 표현을 형성한다는 것이다. 연구진은 이미지 생성 모델 ‘나노 바나나 프로’를 기반으로, 소량의 시각 과제 데이터를 추가한 경량 ‘지시 튜닝(instruction-tuning)’을 수행해 비전 바나나를 완성했다. 이 모델은 별도의 구조를 바꾸지 않아도, 입력하는 프롬프트만 바꾸면 다양한 작업을 수행할 수 있다. 또 모든 결과를 하나의 방식으로 통일해, RGB 이미지 형태로 출력한다. 이를 위해 'V-토큰(Visual Tokens)'을 적용, 모든 출력을 그림으로 변환했다. 예를 들어, 사진 속 객체를 구분할 때는 고양이는 빨간색, 배경은 노란색처럼 서로 다른 색으로 표시된 이미지를 만들어낸다. 이때 색상은 단순한 시각적 표현이 아니라 각각 의미가 정해진 규칙이기 때문에, 해당 이미지를 다시 분석하면 어떤 부분이 어떤 객체인지 수치 데이터로 정확하게 변환할 수 있다. 즉, 결과를 직관적인 이미지로 보여주면서도 필요할 때는 정량적인 정보로 되돌릴 수 있는 방식이다. 실제로 비전 바나나는 벤치마크에서도 원래와 비슷한 성능을 유지, 기능 확장이 성능 저하로 이어지지 않음을 보여줬다. 사전 학습 데이터 없이 제로샷 환경에서 의미론적 분할, 깊이 추정, 객체 분할 등 주요 벤치마크에서 기존 최고 수준 모델들을 능가하거나 대등한 성능을 기록했다. 특히 'SAM(Segment Anything Model) 3'와 '뎁스 애니싱(Depth Anything)' 같은 최신 특화 모델들과 비교해도 뒤지지 않는 성과를 보였다. 이는 비전 분야에서도 특정 기능만 수행하던 모델에서, 범용 모델로의 전환이 이뤄질 수 있다는 것을 보여 준다. 이 연구는 이미지 생성 과정 자체가 이미 이해를 포함하고 있다는 점을 강조한다. 현실적인 이미지를 만들기 위해서는 물체의 구조, 거리, 관계, 의미를 파악해야 하기 때문에, 생성 모델은 본질적으로 시각적 세계를 학습하고 있다는 것이다. 비전 바나나는 이러한 잠재 지식을 외부로 끌어내 측정 가능한 형태로 변환한 사례다. 연구진은 "우리는 컴퓨터 비전의 중대한 패러다임 전환을 목격하고 있을지도 모른다"라며 "생성 비전 사전학습(generative vision pretraining)이 '생성'과 '이해' 모두를 아우르는 파운데이션 모델 구축의 핵심 역할을 맡게 되는 시점"이라고 강조했다. 박찬 기자 [email protected]
Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.
공유