Spot usa Google Gemini Robotics-ER 1.5 em casa

Introdução

Spot usa Google Gemini Robotics-ER 1.5 para interpretar uma lista de afazeres, entender o ambiente, planejar e executar tarefas de limpeza em uma casa real, tudo a partir de comandos simples. A demonstração, detalhada pela Boston Dynamics, mostra como modelos de raciocínio incorporado conseguem transformar instruções em sequências de navegação, visão e manipulação com o próprio braço do robô.

A importância vai além do espetáculo. Gemini Robotics-ER 1.5 foi projetado para raciocínio espacial, planejamento de múltiplas etapas e tomada de decisão no mundo físico, enquanto o modelo complementar Gemini Robotics 1.5 atua como VLA, ligando visão, linguagem e ação. Em conjunto, esses sistemas elevam a automação de tarefas do nível de scripts rígidos para fluxos dinâmicos baseados em linguagem natural.

Como o Spot e o Gemini Robotics-ER 1.5 se entendem

A integração começou com um hackathon em 2025. Engenheiros da Boston Dynamics criaram uma camada entre o Gemini Robotics e a API do Spot, expondo um conjunto limitado de ferramentas, por exemplo, ir a um ponto, tirar foto, identificar objetos, pegar e colocar. Em vez de codificar um state machine detalhado, bastaram prompts cuidadosos para definir como e quando acionar cada ferramenta, do tipo TakePicture e GoTo, com regras claras sobre qual câmera usar e como reagir quando a garra está ocupada.

Esse design em “ferramentas” é o que torna o Gemini Robotics-ER 1.5 útil em robótica. O ER recebe o contexto multimodal, decide o próximo passo, e a ferramenta traduz esse passo em chamadas da API do Spot. A autonomia de locomoção, navegação e preensão continua no stack do próprio robô, que fecha o loop com mensagens de feedback, como “objeto pego” ou “não posso pegar com a mão cheia”. Assim, o modelo não inventa capacidades, apenas orquestra as que já existem no robô, com previsibilidade.

O que é, afinal, o Gemini Robotics-ER 1.5

O Gemini Robotics-ER 1.5 é um modelo de raciocínio incorporado, voltado a compreender espaços físicos, planejar e tomar decisões com base em percepções do ambiente. É multimodal, entende linguagem e vídeo, reconhece objetos e suas relações, e gera planos para alcançar metas dadas pelo usuário. Não controla diretamente atuadores, funciona como um sistema de alto nível que decide qual ferramenta invocar e quando, deixando a execução física para camadas especializadas.

Benchmarks internos do ER destacam ganhos em tarefas que exigem compreensão espacial e instruções longas. A cobertura técnica independente descreve o par Gemini Robotics 1.5 e ER 1.5 como um salto para tarefas de longo horizonte, em que o robô precisa decompor instruções vagas em sequências confiáveis de visão, linguagem e ação.

Da sala de estar à fábrica, o que muda na prática

A cena doméstica foi didática. O Spot recebeu a instrução escrita no quadro branco, identificou sapatos e latas, navegou até eles, agarrou e organizou. Isso espelha o que já acontece em inspeção industrial, porém com uma interface mais natural. O operador passa do papel de programador para o de gestor de objetivos, ditando metas em linguagem comum e deixando a execução para a dupla Gemini e Spot.

Em ambientes reais de fábrica, a Boston Dynamics já oferece o Orbit, software de gestão de frota e análise de dados. As páginas de produto mostram funções como agendamento de missões, visualização térmica, acústica e visual, além de visão-linguagem para detecção de condições de housekeeping, como derramamentos ou acúmulo de detritos. Esse arsenal cria a infraestrutura perfeita para que modelos como o ER 1.5 orquestrem inspeções e intervenções de forma mais contextualizada.

Parceria e próximos passos, do ER 1.5 ao ER 1.6

A Boston Dynamics confirmou parceria com Google DeepMind e Google Cloud para levar o Gemini ao ecossistema do Spot e do Orbit. O anúncio mais recente destaca o AIVI-Learning, recurso de inspeção visual do Orbit, agora alimentado pelo Gemini Robotics ER 1.6, que promete raciocínio mais robusto e análise visual mais complexa, com atualizações acontecendo nos bastidores para usuários existentes.

Do lado do modelo, o ER 1.6 melhora métricas de segurança e seguimento de instruções em benchmarks como ASIMOV, mantendo o foco em raciocínio espacial e tomada de decisão em cenários físicos. Esse avanço incremental importa para a adoção em escala, porque reduz violações de instrução e aumenta confiabilidade em pipelines industriais.

O papel do VLA e do ER, uma dupla complementar

A literatura de produto do Google separa bem as funções. O Gemini Robotics 1.5, um VLA, aprende a conectar percepção e ação, otimizando políticas de interação. O Gemini Robotics-ER 1.5, por sua vez, especializa-se em entendimento de espaços físicos e raciocínio multimodal para planejar e tomar decisões, inclusive chamando ferramentas externas quando necessário. Em conjunto, cobrem o espectro entre ver, decidir e agir.

O resultado é um sistema capaz de receber metas amplas, como “organizar a área da entrada”, extrair sub-tarefas, checar o estado atual com imagens, agir, aferir resultados e iterar. Em operações industriais, a mesma receita se traduz em varreduras visuais, leitura de manômetros, análise térmica e acústica, e checagem de segurança perimetral, com a frota coordenada pelo Orbit.

Casos reais e dados para quem quer ir além

Há um corpo crescente de estudos com o Spot em ambientes desafiadores. Pesquisa recente validou navegação autônoma em minas subterrâneas inteiramente on edge, sem GPU e sem rede, com 700 metros percorridos e 100 por cento de sucesso em 20 ensaios. Esse tipo de capacidade de locomoção robusta é a base ideal para plugar modelos como o ER 1.5 por cima, elevando o que já funciona de forma confiável.

Para equipes de desenvolvimento, a documentação aberta do SDK do Spot e ferramentas como o Choreographer mostram o quanto a plataforma é extensível. A integração com o ER 1.5 aproveita exatamente isso, expondo comportamentos de alto nível via API enquanto preserva o motor de estabilidade de locomoção, navegação e preensão que a Boston Dynamics amadureceu ao longo de anos.

Limites, segurança e maturidade do stack

A Boston Dynamics foi explícita, nada de “poderes mágicos”. O Gemini Robotics-ER 1.5 não inventa capacidades, respeita o que a API do Spot permite. Isso mantém o comportamento previsível, um ponto crítico quando se sai do laboratório para o chão de fábrica. O roadmap público da DeepMind também enfatiza segurança e obediência a instruções, reforçando que cada iteração melhora taxas de acerto e reduz violações.

Cobertura técnica e jornalística independente alerta para não antropomorfizar o termo “pensante”. Ainda que a DeepMind descreva a família como um marco de raciocínio, a nomenclatura pode confundir. O que importa é o desempenho consistente em tarefas compostas, e nisso ER 1.5 e VLA 1.5 mostram avanços relevantes sobre versões anteriores.

Por que isso interessa a times de produto e operações

Times de inspeção visual e manutenção preditiva já dependem de dados consistentes. Com o Orbit, é possível consolidar imagens, leituras térmicas e acústicas, e configurar alertas. Injetar Gemini Robotics-ER 1.5 nesse fluxo não elimina procedimentos existentes, adiciona uma camada de entendimento que interpreta o contexto e prioriza ações, reduzindo tempo entre detecção e resposta.

Na prática, a adoção começa pequena. Um núcleo de ferramentas, bem definidas, com prompts testados e versionados, foca em tarefas de alto valor, como checar vazamentos, identificar obstruções, confirmar estados de válvulas e ler indicadores analógicos. À medida que a equipe coleta dados de desempenho, ficam claros os pontos onde faz sentido ampliar o repertório de ferramentas e metas.

Estratégia de implementação, passo a passo

Escolher uma área piloto e metas mensuráveis, por exemplo, reduzir em 30 por cento o tempo para detectar derramamentos ou pontos quentes. Mapear pontos de interesse no Orbit e configurar rotas do Spot.
Definir o conjunto mínimo de ferramentas que o ER 1.5 poderá acionar. Começar com GoTo, TakePicture, IdentifyObject, Pickup e PutDown. Especificar nuances, como prioridades de câmera e condições de erro, inspirando-se nos exemplos públicos.
Criar prompts de sistema para cada ferramenta, com políticas claras de segurança. Versionar esses prompts e testá-los com cenários reais e adversariais.
Medir acurácia por tarefa, tempo por missão, taxas de reexecução e incidentes. Ajustar prompts e thresholds de confiança.
Integrar resultados ao pipeline de alertas do Orbit e aos sistemas corporativos, garantindo rastreabilidade e auditoria.

Impacto competitivo e tendências do setor

A corrida por robôs mais gerais está acelerando. A DeepMind posiciona a linha Gemini Robotics para operar com planejamento de longo horizonte, e publicações técnicas descrevem ganhos substanciais em raciocínio multimodal. No ecossistema Boston Dynamics, a materialização disso aparece tanto na demo doméstica com o ER 1.5 quanto no produto Orbit com AIVI-Learning já rodando com ER 1.6. É a ponte clara entre P&D e resultados de campo.

Em paralelo, a própria Boston Dynamics avança outros produtos, como o Atlas em direção a casos industriais, reforçando uma visão em que quadrúpedes, humanoides e software de orquestração compartilham fundamentos de percepção, controle e agora raciocínio incorporado. Para quem planeja a automação dos próximos anos, esse empilhamento de capacidades deve orientar roadmaps e investimentos.

![Spot em ambiente natural, imagem ilustrativa]

O que observar nos próximos 12 a 24 meses

Convergência de stacks: modelos ER e VLA devem se integrar a plataformas de gestão de frota, com menos fricção entre planejamento, execução e análise pós-missão.
Segurança e conformidade: métricas como violação de instruções e robustez a prompts ambíguos devem subir a patamares aceitáveis para auditorias. Relatórios recentes já sinalizam evolução do ER 1.5 ao ER 1.6.
Adoção em inspeção visual: com o AIVI-Learning no Orbit, a expectativa é ver bibliotecas de prompts e ferramentas setoriais reutilizáveis, acelerando rollout multi site.

![Logo do Google DeepMind]

Conclusão

A demonstração do Spot arrumando a casa com o Gemini Robotics-ER 1.5 prova que a combinação de visão, linguagem e ação já produz valor fora do laboratório. O truque não é fazer o robô “pensar” no sentido humano, é dar a ele uma forma de entender a meta, decompor o problema e escolher, com confiabilidade, entre ferramentas que já dominamos em produção.

O próximo capítulo está acontecendo agora, com a integração oficial ao Orbit e o salto de ER 1.5 para ER 1.6. Quem liderar a criação de toolboxes bem projetadas, com prompts versionados e KPIs operacionais, vai transformar demos virais em produtividade mensurável, mais segurança e decisões mais rápidas na linha de frente.