구글 Gemini Robotics-ER 1.6 모델: 피지컬 AI with 보스톤 다이나믹스 로봇 - 네이버 프리미엄콘텐츠
[AI] robotics ai
|
|
🧠 기타 AI
#adaup
#gemini
#strong sell
#암호화폐 신호
#트렌딩
요약
구글 딥마인드의 ‘Gemini Robotics-ER 1.6’ 모델은 인지, 계획, 제어 기능을 통합하여 로봇이 주변 환경을 이해하고 스스로 판단하는 ‘임베디드 리즈닝’ 능력을 갖췄습니다. 이 모델은 복합적인 시각 정보를 분석하고 실시간 코딩을 통해 상황에 맞춰 스스로 행동하는 지능을 구현했습니다. 이 기술이 물리적 역량이 뛰어난 보스톤 다이나믹스의 아틀라스 로봇과 결합되면서, 움직임과 지능을 동시에 갖춘 차세대 로봇으로 발전할 것으로 기대됩니다.
왜 중요한가
개발자 관점
검토중입니다
연구자 관점
검토중입니다
비즈니스 관점
검토중입니다
본문
구글 딥마인드가 최근 공개한 ‘Gemini Robotics-ER 1.6’ 모델은 단순히 로봇이 사물을 보는 수준을 넘어, 실제 환경을 이해하고 스스로 판단하여 행동까지 이어지도록 만드는 데 초점이 맞춰진 기술입니다. 기존의 로봇은 카메라로 물체를 인식하는 인지 기능과, 무엇을 할지 결정하는 계획 기능, 그리고 실제로 움직이는 제어 기능이 각각 따로 작동하는 구조였지만, 이번 모델은 이러한 과정을 하나의 통합된 시스템으로 묶어 상황을 전체적으로 이해하는 능력을 강화했습니다. 예를 들어 로봇이 바나나를 집으라는 명령을 받으면 단순히 물체를 찾는 것을 넘어 위치와 주변 환경을 고려해 어떻게 접근하고 집을지까지 스스로 판단하는데, 이러한 능력을 ‘임베디드 리즈닝(embodied reasoning)’이라고 부릅니다. 특히 여러 카메라에서 들어오는 서로 다른 시점을 하나로 합쳐 이해하거나, 계기판의 눈금과 바늘 위치를 해석하는 등 현실 세계의 복잡한 정보를 종합적으로 분석하는 능력이 크게 향상되었습니다. 여기에 실시간 코딩 능력을 통해 스스로 이미지를 확대하거나 특정 영역을 집중적으로 분석하고 계산까지 수행하는 ‘에이전틱 비전’ 기능까지 더해진 점이 특징입니다. 이러한 구글의 모델은 보스톤 다이나믹스(Boston Dynamics)의 로봇과 결합되면서 의미가 더욱 커집니다. 기존 아틀라스(Atlas) 로봇은 원래 점프나 균형 유지 같은 물리적 동작에서는 세계 최고 수준이었지만, 상황을 이해하고 판단하는 능력은 제한적이었습니다. 여기에 Gemini Robotics-ER은 뛰어난 판단과 추론 능력을 가지고 있기 때문에, 두 기술이 결합되면서 움직임과 지능이 동시에 갖춰진 로봇이 됩니다. 이번 포스팅에서는 이러한 구글의 Gemini Robotics-ER 1.6 모델과 보스톤 다이나믹스 로봇과의 결합 내용에 대해 자세히 살펴보겠습니다. (지난 구글 Gemini Robotics-ER 1.5 모델에 대한 포스팅은 아래 링크) Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning 구글 딥마인드가 공개한 이번 Gemini Robotics-ER 1.6은 로봇이 주변 환경을 훨씬 더 정밀하게 이해하도록 만든 리즈닝(reasoning) 중심 모델입니다. 여기서 리즈닝은 상황을 해석하고 판단까지 이어지는 능력을 의미합니다. 이번 모델은 특히 ‘공간을 이해하는 능력과 여러 시점의 정보를 하나로 통합하는 능력이 크게 강화’되어, 로봇이 물체의 위치나 관계를 더 정확하게 파악할 수 있게 되었고, 그 결과 실제 환경에서 더 높은 수준의 자율성을 가지게 되었습니다. 이 모델은 로봇 내부에서 일종의 상위 두뇌 역할을 수행합니다. 즉 직접 움직이는 모델이 아니라 무엇을 해야 하는지를 결정하는 역할입니다. 예를 들어 Gemini Robotics-ER 1.6은 작업을 수행할 때 필요한 정보를 찾기 위해 구글 검색 같은 외부 도구를 호출하거나, 실제로 물체 조작을 담당하는 VLA 모델 또는 사용자 정의 함수들을 연결해서 사용합니다. 이런 구조는 하나의 모델이 모든 것을 처리하는 것이 아니라, 중심이 되는 모델이 다른 모델 및 여러 도구들을 오케스트레이트하는 방식으로 동작한다는 점에서 중요합니다. 성능 측면에서도 Gemini Robotics-ER 1.6은 이전 버전인 1.5와 Gemini 3.0 Flash 대비 뚜렷한 개선을 보입니다. 특히 포인팅(pointing)이나 카운팅(counting)처럼 물체를 가리키거나 개수를 세는 작업, 그리고 작업이 제대로 완료되었는지를 판단하는 물리적 추론 능력이 크게 향상되었고, 여기에 로봇이 복잡한 계기판 같은 장비를 읽을 수 있도록 하는 능력도 새로 추가되었습니다. 전주 월요일 00시부터 일요일 24시까지 집계한 결과입니다.