구글, ‘제미나이 로보틱스-ER 1.6’ 공개..."물리적 세계 추론 가능" - AI타임스
[AI] ai 추론
|
|
{'이벤트': '📰', '머신러닝/연구': '📰', '하드웨어/반도체': '📰', '취약점/보안': '📰', '기타 AI': '📰', 'AI 딜': '📰', 'AI 모델': '📰', 'AI 서비스': '📰', 'discount': '📰', 'news': '📰', 'review': '📰', 'tip': '📰'} AI 모델
#ai 모델
#gemini 2.5 flash
#gemini 3.1 pro
#google
#하이브리드 추론
#3d 나노 구조
#나노 소재
#머신러닝
#머신러닝/연구
#스마트 소재
요약
구글 딥마인드는 로봇의 물리적 세계를 이해하고 판단하는 능력을 강화한 새로운 모델 ‘제미나이 로보틱스-ER 1.6’을 공개했습니다. 이 모델은 전작 대비 공간 추론 능력이 크게 향상되어 복잡한 환경에서도 포인팅 기반 추론을 통해 작업을 계획하고 성공 여부를 스스로 판단합니다. 또한 계측기 판독과 멀티뷰 추론 등 다양한 기능이 추가되었으며, 물리적 제약을 준수하는 안전성도 개선되었습니다.
왜 중요한가
본문
구글이 로봇의 ‘물리적 추론(embodied reasoning)’ 기능을 강화한 새 모델을 내놓았다. 로봇이 단순한 명령 수행을 넘어, 실제 환경을 이해하고 판단하도록 기능을 강화했다. 구글 딥마인드는 14일(현지시간) 로봇의 공간과 시각 이해 능력을 크게 향상한 모델 ‘제미나이 로보틱스-ER 1.6(Gemini Robotics-ER 1.6)’을 공개했다. 이 모델은 로봇이 복잡한 환경을 더 정밀하게 인식하고 스스로 판단해 행동할 수 있도록 설계된 것이 특징이다. 로봇의 상위 추론 모델로서 시각 및 공간 이해, 작업 계획 수립, 작업 완료 여부 판단(성공 감지) 등 핵심 기능을 수행한다. 또 구글 검색이나 비전-언어-행동(VLA) 모델 등 다양한 도구를 직접 호출해 실제 작업을 수행할 수 있다. 이전 버전인 '제미나이 로보틱스-ER 1.5'와 '제미나이 3.0 플래시'에 비해 포인팅(pointing)이나 카운팅(counting) 등 공간 추론 능력이 크게 향상됐다. 새로운 기능인 ‘계측기 판독(instrument reading)’도 추가됐다. 이번 모델의 핵심은 ‘포인팅(pointing)’ 기반 추론이다. 이는 단순한 좌표 지정이 아니라, 복잡한 문제를 해결하기 위한 중간 사고 과정으로 활용된다. 예를 들어 특정 물체를 정확히 식별하고 개수를 세기, 가장 작은 물체 찾기, 물체를 특정 위치로 이동시키기, “컵에 들어갈 수 있는 물체만 선택” 같은 조건 이해 등 다양한 작업에서 활용된다. 이러한 포인팅은 로봇이 경로를 계산하거나 물체를 잡을 최적 지점을 찾는 데에도 중요한 역할을 한다. 또 로봇이 자율적으로 행동하기 위해서는 작업을 시작하는 것뿐 아니라 언제 완료됐는지 판단하는 능력도 중요하다. 제미나이 로보틱스-ER 1.6은 작업 결과를 스스로 평가해 실패 시 재시도, 성공 시 다음 단계 진행 등 의사결정을 내릴 수 있다. 이는 장기적인 작업 수행에서 필수적인 기능으로 꼽힌다. 최근 로봇은 상단뿐만 아니라, 손목 등 다양한 부위에 장착된 카메라를 활용하는데, 이 모델은 여러 시점의 정보를 통합해 하나의 상황으로 이해하는 멀티뷰 추론 능력도 강화했다. 조명 문제나 시야 가림(occlusion) 같은 현실적인 제약 속에서도 안정적인 판단이 가능하다는 설명이다. 주목되는 기능은 ‘계측기 판독’이다. 이는 보스턴 다이내믹스와의 협업을 통해 개발된 산업용 활용 사례다. 공장이나 설비에는 압력 게이지, 온도계, 액체 수위 표시 장치 등 다양한 계측기가 존재하는 데, 로봇이 이를 정확히 읽고 해석하는 능력이다. 제미나이 로보틱스-ER 1.6은 바늘 위치, 눈금, 액체 높이, 단위 정보 등을 종합적으로 분석해 정확한 값을 도출한다. 이를 위해 이미지 확대, 포인팅, 코드 실행 등을 결합한 ‘에이전틱 비전(agentic vision)’ 방식을 활용한다. We’re rolling out an upgrade designed to help robots reason about the physical world. Gemini Robotics-ER 1.6 has significantly better visual and spatial understanding in order to plan and complete more useful tasks. Here’s why this is important pic.twitter.com/rxT1lkYZZB — Google DeepMind (@GoogleDeepMind) April 14, 2026 안전성도 크게 개선됐다. 모델은 “액체는 다루지 말 것”, “20kg 이상 물체는 들지 말 것”과 같은 물리적 제약을 이해하고 준수할 수 있다. 실제 사고 사례를 기반으로 한 테스트에서 위험 요소 인식 능력이 기존 모델보다 향상한 것으로 나타났다. 구글은 "로봇이 우리의 일상생활과 산업 현장에서 진정으로 도움이 되려면 단순히 지시를 따르는 것을 넘어 물리적 세계에 대해 추론할 수 있어야 한다"라며 "이번 업그레이드를 통해 로봇은 전례 없는 정밀도로 주변 환경을 이해할 수 있게 됐다"라고 강조했다. 모델은 제미나이 API와 구글 AI 스튜디오를 통해 개발자에게 공개됐으며, 로봇 개발을 위한 예제 코드도 제공된다. 박찬 기자 [email protected]