제미나이 3: 새로운 AI 시대의 개막 - blog.google
[AI] multimodal ai technology
|
|
🔬 연구
#ai overviews
#ai 혁신
#gemini
#gemini 3
#review
#구글
#순다 피차이
원문 출처: [AI] multimodal ai technology · Genesis Park에서 요약 및 분석
요약
제미나이 3: 새로운 AI 시대의 개막 구글의 최신 AI 모델 제미나이 3가 공개되었습니다. 이 모델은 다음 단계의 인공지능 시대를 여는 중요한 발전으로 평가됩니다.
본문
제미나이 3: 새로운 AI 시대의 개막 순다 피차이 구글 및 알파벳 CEO가 전하는 메시지 약 2년 전, 우리는 구글 역사상 가장 야심찬 과학적 도전과 제품 혁신 중 하나인 제미나이(Gemini) 시대의 서막을 열었습니다. 그 이후 제미나이에 대한 뜨거운 호응은 놀라울 정도였습니다. 현재 매달 20억 명이 'AI 개요(AI Overviews)'를 이용하고 있으며, 제미나이 앱의 월간 활성 이용자는 6억 5천만 명을 넘어섰습니다. 또한 구글 클라우드 고객의 70% 이상이 구글의 AI를 활용하고 있고, 1천 3백만 명의 개발자가 구글의 생성형 AI 모델을 기반으로 개발을 진행하고 있습니다. 그리고 이는 지금 우리가 목격하고 있는 변화의 일면에 불과합니다. 세계 최고 수준의 인프라부터 연구, 모델, 툴, 그리고 전 세계 수십억 명에 도달하는 제품을 모두 포괄하는, AI 혁신을 위한 구글만의 차별화된 '풀 스택(full stack)' 접근 방식 덕분에 구글은 그 어느 때보다 빠르게 첨단 기능을 전 세계에 제공할 수 있게 되었습니다. 제미나이는 세대를 거듭할수록 이전 모델의 강점을 토대로 발전하며 이용자에게 더 많은 가능성을 열어 주었습니다. 제미나이 1은 네이티브 멀티모달(Native Multimodal) 기능과 장문의 정보를 이해할 수 있는 긴 컨텍스트 윈도우(long context window)의 진보를 통해 처리할 수 있는 정보의 범위와 형태를 획기적으로 확장했고, 제미나이 2는 에이전트 기능(Agentic capabilities)의 기반을 마련하고 복잡한 사고와 추론 능력의 한계를 넓혔습니다. 그 결과 제미나이 2.5 프로는 6개월 넘게 LMArena 벤치마크 순위 1위를 지킬 수 있었습니다. 그리고 이제, 모든 제미나이의 역량을 집대성해 어떤 아이디어든 실현할 수 있도록 돕는 가장 똑똑한 모델, 제미나이 3(Gemini 3)를 소개합니다. 제미나이 3는 창의적인 아이디어 속 미묘한 단서를 포착하거나, 복잡한 문제를 여러 겹의 층위로 나눠 풀어낼 수 있는 등 전례 없는 수준의 깊이와 뉘앙스를 이해할 수 있도록 설계된 최첨단 추론 능력을 갖췄습니다. 또 요청의 컨텍스트와 의도를 보다 정확하게 파악해 최소한의 프롬프트로도 원하는 결과를 얻을 수 있습니다. 불과 2년 만에 AI가 단순히 텍스트와 이미지를 읽는 데서 나아가 '분위기를 파악하는(reading the room)' 수준으로 진화한 것입니다. 그리고 오늘부터 구글 전반에 걸쳐 제미나이를 전면 적용합니다. 이는 더 복잡한 추론 기능과 새로운 동적 경험을 갖춘 구글 검색의 AI 모드(AI Mode in Search)에 있는 제미나이 3를 포함합니다. 서비스 출시 첫날부터 제미나이 모델을 검색에 적용하는 경우는 이번이 처음입니다. 제미나이 3는 오늘부터 제미나이 앱, AI 스튜디오(AI Studio) 및 버텍스 AI(Vertex AI)의 개발자 툴, 그리고 새로운 에이전트 개발 플랫폼인 '구글 안티그래비티(Google Antigravity)'에도 적용됩니다(자세한 내용은 아래 참조). 제미나이 3는 이전 세대 모델들과 마찬가지로 다시 한 번 기술의 한계를 넘어서고 있습니다. 이번에도 구글은 새로운 챕터를 열어 지능, 에이전트, 개인화의 한계를 지속적으로 확장해 나가며 모든 사람에게 진정으로 유용한 AI를 만들 것입니다. 새로운 제미나이 3는 앞으로도 계속 발전해 나갈 예정이며, 여러분이 제미나이 3와 함께 어떤 것들을 만들어 나갈지 기대하겠습니다. 제미나이 3: 아이디어의 실현을 돕는 가장 똑똑한 모델 데미스 허사비스(Demis Hassabis) 구글 딥마인드 CEO, 코라이 카바쿨루(Koray Kavukcuoglu) 구글 딥마인드 CTO 겸 구글 수석 AI 아키텍트 오늘 구글은 AGI(범용 인공지능)을 향한 여정에서 또 하나의 큰 도약을 이루며 제미나이 3를 공개합니다. 제미나이 3은 멀티모달 이해 능력에 있어 세계 최고 수준의 성능을 자랑하며, 지금까지 구글이 선보인 모델 중 가장 강력한 에이전트이자 '바이브 코딩(vibe coding)' 기능을 갖춘 모델입니다. 최첨단 추론 능력을 기반으로 더 풍부한 시각적 결과물과 심화된 상호작용을 구현합니다. 구글은 오늘부터 제미나이 3 시대의 본격적인 시작을 알리며 제미나이 3 프로(Gemini 3 Pro) 프리뷰(preview) 버전을 공개합니다. 이 모델은 구글의 다양한 제품 전반에 걸쳐 제공되며, 여러분은 제미나이 3 프로를 통해 일상 속에서 배우고, 만들고, 계획하는 다양한 활동에 활용할 수 있습니다. 또한 제미나이 3의 성능을 한 단계 더 끌어올린 강화된 추론 모드인 '제미나이 3 딥 씽크(Gemini 3 Deep Think)'도 함께 선보입니다. 이 기능은 구글 AI 울트라(Google AI Ultra) 구독자에게 제공하기 전 안전성 테스터(safety testers)에 사전 제공됩니다. 전례 없는 깊이와 뉘앙스를 갖춘 최첨단 추론 능력 제미나이 3 프로는 최첨단 추론 및 멀티모달 기능을 통해 어떤 아이디어든 현실로 구현해 냅니다. 이 모델은 모든 주요 AI 벤치마크에서 제미나이 2.5 프로를 현저히 능가합니다. 이 모델은 LMArena 리더보드에서 1501점이라는 놀라운 점수를 기록하며 기존 1위였던 제미나이 2.5 프로를 제치고 정상을 차지했습니다. 툴을 전혀 사용하지 않고 치른 Humanity’s Last Exam에서 최고 점수(37.5%)를, GPQA Diamond에서 91.9%를 기록하며 박사급 추론 능력을 입증했습니다. 또한 수학 분야 프런티어 모델의 새로운 기준을 제시하며 MathArena Apex에서 23.4%라는 신기록(SOTA)을 달성했습니다. 텍스트를 넘어, 제미나이 3 프로는 MMMU-Pro에서 81%, Video-MMMU에서 87.6%을 기록하며 멀티모달 추론 능력을 재정의했습니다. 또한 사실적 정확성을 보여주는 SimpleQA Verified에서 72.1%로 최고 기록을 세우며 큰 진전을 이뤘습니다. 이는 제미나이 3 프로가 과학, 수학 등 방대한 주제에 걸친 복잡한 문제들을 높은 신뢰도로 해결할 수 있음을 의미합니다. 제미나이 3 프로는 모든 상호작용에 새로운 수준의 깊이와 뉘앙스를 더합니다. 답변은 똑똑하고 간결하며 직설적입니다. 상투적인 문구와 아첨을 지양하고 진정한 통찰을 제공하며, 단순히 이용자가 듣고 싶어 하는 말이 아니라 꼭 필요한 조언을 해줍니다. 복잡한 과학적 개념을 고해상도 시각화 코드로 변환하는 것부터 창의적인 브레인스토밍에 이르기까지, 정보를 이해하고 자신을 표현하는 새로운 방식을 제시하는 진정한 '사고의 파트너(thought partner)'가 되어줍니다. 제미나이 3 딥 씽크(Deep Think) 제미나이 3 딥 씽크 모드는 지능의 한계를 더욱 확장해 제미나이 3의 추론 및 멀티모달 이해 능력을 비약적으로 끌어올려 이용자가 훨씬 더 복잡한 문제를 해결하도록 돕습니다. 테스트 결과, 제미나이 3 딥 씽크는 이미 인상적인 제미나이 3 프로의 성능을 뛰어넘어 Humanity’s Last Exam에서 우수한 점수를 기록했으며(툴 없이 사용 시 41.0%), GPQA Diamond에서 93.8%를 기록했습니다. 또 새로운 유형의 문제 해결 능력을 평가하는 ARC-AGI-2(코드 실행 포함, ARC Prize 인증)에서는 전례 없는 45.1%의 점수를 기록하며 혁신적인 추론 역량을 보여주었습니다. 무엇이든 배우고, 개발하고, 계획하도록 돕는 제미나이 3 무엇이든 배워보세요 (Learn anything) 제미나이는 설계 초기부터 텍스트, 이미지, 비디오, 오디오, 코드 등 다양한 양식(modality)을 넘나들며 모든 주제의 정보를 유기적으로 종합하도록 만들어졌습니다. 제미나이 3는 멀티모달 추론의 최전선을 넓혀, 최첨단 추론 능력, 시각 및 공간 이해력, 뛰어난 다국어 성능, 그리고 100만 토큰 컨텍스트 윈도우를 결합해 이용자에게 가장 효율적인 학습 방식을 제공합니다. 예를 들어, 집안 대대로 내려오는 요리법을 배우고 싶다면 제미나이 3가 다양한 언어로 된 손글씨 레시피를 해독하고 번역해, 공유 가능한 가족 요리책으로 만들어 줄 수 있습니다. 새로운 분야를 공부하고 싶다면 학술 논문이나 긴 동영상 강의, 튜토리얼을 입력해 보세요. 내용을 완벽히 숙지하는 데 도움을 주는 코드를 생성해 줍니다. 심지어 피클볼 경기 영상을 분석해 개선점을 찾아내고, 전반적인 자세 교정을 위한 맞춤형 훈련 계획을 짜줄 수도 있습니다. 웹 상의 정보를 더 잘 이해할 수 있도록, 구글 검색(Search)의 AI 모드는 이제 제미나이 3를 활용해 이용자의 검색 의도에 맞춰 즉석에서 생성되는 몰입형 시각 레이아웃, 대화형 도구, 시뮬레이션 같은 새로운 '생성형 UI'(generative UI) 경험을 제공합니다. 무엇이든 만드세요 (Build anything) 제미나이 3는 2.5 프로의 성공을 발판 삼아, 개발자가 어떤 아이디어든 현실로 구현할 수 있도록 돕겠다는 약속을 실현합니다. 제로 샷(zero-shot) 생성 능력이 탁월하며, 복잡한 프롬프트와 지침도 척척 처리해 더욱 풍성하고 상호작용이 뛰어난 웹 UI를 구현해 냅니다. 제미나이 3는 지금까지 개발된 모델 중 최고의 '바이브 코딩(vibe coding)' 및 '에이전트 코딩' 성능을 자랑하며, 구글 제품을 더욱 자율적으로 만들고 개발자의 생산성을 극대화합니다. WebDev Arena 리더보드에서 1,487 Elo를 기록했고, 터미널을 통해 컴퓨터를 조작하는 도구 사용 능력을 테스트하는 Terminal-Bench 2.0에서는 54.2%를 기록했습니다. 또한 코딩 에이전트 성능 벤치마크인 SWE-bench Verified(76.2%)에서도 제미나이 2.5 프로를 크게 앞섰습니다. 이제 구글 AI Studio, Vertex AI, Gemini CLI, 그리고 구글의 새로운 에이전트 개발 플랫폼인 구글 안티그래비티(Google Antigravity)에서도 제미나이 3를 이용해 개발할 수 있습니다. 또한 커서(Cursor), 깃허브(GitHub), 젯브레인스(JetBrains), 마누스(Manus), 레플릿(Replit)과 같은 서드 파티 플랫폼에서도 활용할 수 있습니다. 새로운 '에이전트 우선(agent-firs
Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.
공유