제미나이 로보틱스-ER 1.6: 강화된 체화된 추론을 통한 실세계 로봇 작업의 혁신 - blog.google

[AI] robotics ai | | {'이벤트': '📰', '머신러닝/연구': '📰', '하드웨어/반도체': '📰', '취약점/보안': '📰', '기타 AI': '📰', 'AI 딜': '📰', 'AI 모델': '📰', 'AI 서비스': '📰', 'discount': '📰', 'news': '📰', 'review': '📰', 'tip': '📰'} news
#ai 꿀팁 #구글 #구글 블로그 #대학생 앰배서더 #활용 사례 #ai #갤럭시 xr #기타 ai #휴머노이드

요약

오늘부터 제미나이 로보틱스-ER 1.6은 제미나이 API(Gemini API)와 구글 AI 스튜디오(Google AI Studio)를 통해 개발자에 제공됩니다. 제미나이 로보틱스-ER 1.6: 강화된 체화된 추론을 통한 실세계 로봇 작업의 혁신 로봇이 우리의 일상 생활과 산업 현장에서 실질적인 도움을 제공하기 위해서는 단순히 지시를 따르는 것을 넘어, 물리적 세계를 이해하고 추론할 수 있어야 합니다.

왜 중요한가

본문

제미나이 로보틱스-ER 1.6: 강화된 체화된 추론을 통한 실세계 로봇 작업의 혁신 로봇이 우리의 일상 생활과 산업 현장에서 실질적인 도움을 제공하기 위해서는 단순히 지시를 따르는 것을 넘어, 물리적 세계를 이해하고 추론할 수 있어야 합니다. 복잡한 시설을 탐색하는 것부터 압력계의 바늘을 해석하는 것까지, 로봇의 '체화된 추론(Embodied Reasoning)'은 디지털 지능과 물리적 행동 사이의 간극을 메워주는 핵심 요소입니다. 오늘 구글은 로봇이 전례 없는 정밀도로 주변 환경을 이해할 수 있도록 지원하는 추론 우선 모델의 대규모 업그레이드 버전인 ‘제미나이 로보틱스-ER 1.6(Gemini Robotics-ER 1.6)’을 소개합니다. 공간 추론 및 다중 시점(multi-view) 이해 능력을 강화함으로써, 차세대 물리적 에이전트의 자율성을 한층 더 확장합니다. 이 모델은 시각 및 공간 이해, 작업 계획, 성공 감지 등 로봇 공학에 필수적인 핵심 추론 기능에 특화되어 있습니다. 로봇의 고차원 추론 모델 역할을 수행하며, 정보를 찾기 위한 구글 검색(Google Search), 시각-언어-행동 모델(VLA) 또는 기타 외부 사용자 정의 함수(third-party user-defined functions)를 직접 호출하여 작업을 수행할 수 있습니다. 제미나이 로보틱스-ER 1.6은 제미나이 로보틱스-ER 1.5(Gemini Robotics-ER 1.5) 및 제미나이 3.0 플래시(Gemini 3.0 Flash) 대비 뚜렷한 성능 향상을 보이며, 특히 포인팅(pointing), 개수 세기, 성공 감지와 같은 공간 및 물리적 추론 능력에서 크게 향상되었습니다. 또한 파트너사인 보스턴 다이내믹스(Boston Dynamics)와의 긴밀한 협업을 통해 계기판 판독(instrument reading) 기능을 새롭게 지원합니다. 이를 통해 로봇은 복잡한 게이지와 사이트 글라스(sight glasses)를 보다 정확하게 읽을 수 있게 되었습니다. 오늘부터 제미나이 로보틱스-ER 1.6은 제미나이 API(Gemini API)와 구글 AI 스튜디오(Google AI Studio)를 통해 개발자에 제공됩니다. 시작을 돕기 위해 모델 설정 방법과 구체화된 추론 작업을 위한 프롬프트 예시가 포함된 개발자용 코랩(Colab)도 함께 제공됩니다. 그림 1: 제미나이 로보틱스-ER 1.6과 제미나이 로보틱스-ER 1.5 및 제미나이 3.0 플래시 모델의 벤치마크 비교 결과. 계기판 판독 평가는 에이전틱 비전(agentic vision)을 활성화한 상태에서 진행됐으며 (제미나이 로보틱스-ER 1.5는 해당 기능 미지원), 그 외 평가는 모두 에이전틱 비전을 비활성화한 상태에서 진행되었습니다. 단일 시점 및 다중 시점 성공 감지 평가는 서로 다른 예시를 기반으로 하므로 직접적인 비교는 불가능합니다. 포인팅(Pointing): 공간 추론의 기초 포인팅은 구체화된 추론 모델의 핵심 능력으로, 모델 세대가 발전함에 따라 지속적으로 고도화되고 있습니다. 포인트(points)는 다음과 같은 다양한 개념을 표현하는 데 사용됩니다. - 공간 추론: 정밀한 객체 탐지 및 개수 세기 - 관계적 논리: 세트 내에서 가장 작은 항목 식별, "A에서 B로"와 같은 관계 정의(예: X를 Y 위치로 이동) - 동작 추론: 궤적(trajectories) 매핑 및 최적의 파지점(grasp points) 식별 - 제약 사항 준수: "파란 컵 안에 들어갈 정도로 작은 모든 물체를 가리키시오"와 같은 복잡한 프롬프트에 대한 추론 제미나이 로보틱스-ER 1.6은 더 복잡한 작업을 추론하기 위한 중간 단계로 포인트를 활용할 수 있습니다. 예를 들어, 이미지 내의 항목을 세거나, 주요 지점을 식별해 모델이 거리나 크기와 같은 정량적 추정의 정확도를 높이도록 지원합니다. 아래 예시는 여러 요소를 정확히 가리키는 능력과 함께 포인팅이 필요한 상황과 그렇지 않은 상황을 구분하는 제미나이 로보틱스-ER 1.6의 특징을 보여줍니다. 제미나이 로보틱스-ER 1.6은 망치(2개), 가위(1개), 페인트 붓(1개), 펜치(6개)의 개수를 정확히 식별하며, 정원 도구 모음을 단일 그룹 또는 여러 포인트로 인식할 수 있습니다. 또한 이미지에 없는 항목(손수레와 Ryobi 드릴)에 대해서는 포인팅을 하지 않습니다. 반면, 제미나이 로보틱스-ER 1.5는 망치나 페인트 붓의 개수를 정확히 식별하지 못하고, 가위를 놓치는 한편, 존재하지 않는 손수레를 환각(hallucination)하며 펜치 감지에서도 정밀도가 떨어지는 모습을 보입니다. 제미나이 3.0 플래시는 1.6에 근접한 성능을 보이지만 펜치를 감지하는 데 있어 상대적으로 정확도가 낮습니다. 성공 감지(Success Detection): 자율성의 엔진 로봇 공학에서 작업이 언제 완료되었는지를 판단하는 것은 작업을 시작하는 방법만큼이나 중요합니다. 성공 감지는 자율성을 가능케 하는 핵심 요소로, 에이전트가 실패한 시도를 다시 할지, 아니면 다음 단계로 넘어갈지를 판단하는 중요한 의사결정 기준이 됩니다. 로봇 공학에서 시각적으로 상황을 이해하는 것은 쉽지 않습니다. 가려짐(occlusion), 열악한 조명, 모호한 지시와 같은 다양한 변수에 대응하기 위해서는 정교한 지각 및 추론 능력과 함께 광범위한 실세계 지식이 필요합니다. 또한, 대부분의 최신 로봇 시스템은 천장 카메라(overhead)와 손목 장착형(wrist-mounted) 카메라 등 여러 시점의 영상을 함께 사용합니다. 이로 인해 시스템은 서로 다른 시점의 정보를 통합해, 시간의 흐름에 따라 일관된 상황 인식을 유지할 수 있습니다. 제미나이 로보틱스-ER 1.6은 다중 시점 추론 능력을 한층 발전시켰습니다. 이를 통해 동적인 환경이나 일부가 가려진 상황에서도 여러 카메라 스트림과 그 관계를 보다 정확하게 이해할 수 있습니다. 아래 예시는 이러한 다중 시점 환경에서의 성능을 보여줍니다 제미나이 로보틱스-ER 1.6은 여러 카메라 시점의 정보를 종합하여 "파란색 펜을 검은색 펜꽂이에 넣으시오"라는 작업이 완료되는 시점을 판단합니다. 계기판 판독(Instrument Reading): 실제 세계의 시각적 추론 제미나이 로보틱스-ER 1.6의 핵심 강점을 이해하려면 공간 추론과 실세계 지식을 결합해 복잡한 문제를 해결하는 방식을 살펴볼 필요가 있습니다. 계기판 판독은 이러한 능력을 잘 보여주는 대표적인 사례입니다. 이 작업은 파트너사인 보스턴 다이내믹스의 주요 관심 분야인 시설 점검 수요에서 비롯되었습니다. 산업 시설에는 온도계, 압력계, 화학 물질 사이트 글라스(sight glasses) 등 지속적인 모니터링이 필요한 수많은 계기판이 있습니다. 보스턴 다이내믹스의 로봇 제품인 스팟(Spot)은 시설 전반을 이동하며 이러한 계기판의 이미지를 캡처할 수 있습니다. 제미나이 로보틱스-ER 1.6은 원형 압력계, 수직 레벨 표시기, 디지털 디스플레이 등 다양한 계기판을 해석할 수 있도록 지원합니다. 계기판 판독에는 복잡한 시각적 추론이 필요합니다. 바늘, 액체 레벨, 용기 경계, 눈금(tick mark) 등 다양한 요소를 정밀하게 인식하고, 이들 간의 관계를 종합적으로 이해해야 합니다. 예를 들어 사이트 글라스의 경우, 카메라 시점에 따른 왜곡을 고려해 액체가 얼마나 채워져 있는지 추정해야 합니다. 또한 게이지에 표시된 단위를 읽고 해석해야 하며, 일부 게이지는 서로 다른 소수점 자리를 나타내는 여러 개의 바늘을 함께 고려해야 합니다. 제미나이 로보틱스-ER 1.6은 시각적 추론과 코드 실행을 결합한 에이전틱 비전(agentic vision)을 활용해 높은 정확도의 계기판 판독을 수행합니다. 모델은 먼저 이미지를 확대해 게이지의 세부 사항을 정밀하게 파악하고, 이어 포인팅과 코드 실행을 통해 비율과 간격을 추정해 정확한 수치를 계산합니다. 이후 실세계 지식을 적용해 해당 측정값의 의미를 해석합니다. 그림 2: 제미나이 로보틱스-ER 1.6의 각 요소가 계기판 판독 작업에서 높은 수준의 성능을 달성하는 데 기여하는 방식. 아날로그 게이지 정확히 읽기 위 예시는 모델이 포인팅과 코드 실행, 이미지 확대를 결합해 게이지의 값을 눈금 단위 이하의 정밀도(sub-tick accuracy)로 도출하는 과정을 보여줍니다. 역대 가장 안전한 로봇 모델 안전은 구글의 체화된 추론 모델의 모든 단계에 걸쳐 통합되어 있습니다. 제미나이 로보틱스-ER 1.6은 현재까지 구글이 개발한 모델 중 가장 높은 수준의 안전성을 갖추었으며, 이전의 모든 세대와 비교했을 때 적대적 공간 추론 작업(adversarial spatial reasoning tasks)에서 제미나이 안전 정책(Gemini safety policies)을 높은 수준으로 준수하는 성능을 보입니다. 또한 해당 모델은 물리적 안전 제약 조건을 준수하는 능력 역시 대폭 향상되었습니다. 예를 들어, 그리퍼의 한계나 재질상의 제약(예: "액체를 다루지 마시오", "20kg보다 무거운 물체는 들지 마시오") 하에서 어떤 물체를 안전하게 조작할 수 있는지 포인팅과 같은 공간적 출력으로 제시하여 더욱 안전한 의사 결정을 내립니다. 더불어 실제 사고 보고서를 기반으로 구성된 텍스트 및 영상 시나리오에서 모델이 안전 위험 요소를 얼마나 정확하게 식별하는지 테스트했습니다. 해당 평가에서 제미나이 로보틱스-ER 모델은 기준 모델인 제미나이 3.0 플래시 대비 위험 인식 정확도가 향상된 결과(텍스트 +6%, 비디오 +10%)를 보였습니다. 그림 3: 제미나이 로보틱스-ER 1.6은 물리적 안전 제약 준수 능력을 평가하는 '안전 지침 준수' 항목에서 제미나이 로보틱스-ER 1.5 대비 크게 향상되었습니다. 포인팅 성능은 제미나이 3.0 플래시보다 우수하며, 두 모델 모두 텍스트 정확도는 매우 높은 수준을 보입니다. 한편 경계 상자(Bounding boxes) 작업에서는 제미나이 3.0 플래시가 더 나은 성능을 보입니다. 로보틱스를 위한 체화된 추론(embodied reasoning) 개선에 동참해 주세요 구글은 제미나이 로보틱스-ER이 로봇 공학 커뮤니티에 의미 있는 가치를 제공할 수 있도록 최선을 다하고 있습니다. 특정 응용 분야에서 현재 기능에 한계가 있다면, 주요 실패 사례를 보여주는 10~50개의 라벨링된 이미지를 포함해 해당 양식을 제출해 주시기 바랍니다. 이러한 피드백은 구글이 더 강력한 추론 기능을 개발하는 데 중요한 기반이 됩니다. 구글은 앞으로의 업데이트를 통해 이러한 역량을 더 확장해 나갈 예정이며 이를 위해 여러분과 협력하기를 기대합니다.

관련 저널 읽기

전체 보기 →