Google apresenta o Computer Use no Gemini 3.5 Flash
O Google integrou o recurso de Computer Use diretamente no Gemini 3.5 Flash, aproximando a era dos agentes que veem, entendem e agem em navegadores, desktops e celulares.
Danilo Gato
Autor
Introdução
Computer Use no Gemini 3.5 Flash foi anunciado oficialmente em 24 de junho de 2026 como um recurso nativo do modelo, permitindo que agentes vejam a tela, tomem decisões e executem ações em navegadores, ambientes desktop e mobile. A integração elimina a dependência de um modelo separado e coloca a capacidade de agir no centro da estratégia de agentes do Google.
A mudança é significativa para quem busca automação avançada com segurança corporativa. Segundo o Google, o acesso ao Computer Use no 3.5 Flash já pode ser feito pela Gemini API e pela Gemini Enterprise Agent Platform, com salvaguardas para reduzir riscos como prompt injection indireto e ações sensíveis sem confirmação.
Por que o Computer Use no Gemini 3.5 Flash importa agora
Agentes que apenas respondem não bastam para processos reais de trabalho. O 3.5 Flash foi desenhado para agir, não só conversar, e se tornou o padrão no app Gemini e em experiências de busca com modo de IA, um indicativo claro de foco em agentes práticos. Coberturas independentes destacaram que o Google está apostando na automação como próxima onda, substituindo o paradigma de chatbots por workflows que executam tarefas ponta a ponta.
O anúncio de 24 de junho coloca o Computer Use como ferramenta embutida no 3.5 Flash. Antes, essa habilidade estava vinculada a um modelo separado da família 2.5, criando fricção entre protótipos e produção. Com a integração, desenvolvedores passam a orquestrar visão da tela, raciocínio e ação a partir de um único ponto, reduzindo latência e simplificando arquitetura.
O que exatamente o 3.5 Flash consegue fazer com Computer Use
- Ver e entender a tela, identificar elementos de UI e seguir sequências de passos em apps web e desktop.
- Executar cliques, digitação e navegação, respeitando confirmações para ações sensíveis quando habilitadas pelas políticas de segurança.
- Combinar Computer Use com outras ferramentas nativas do ecossistema, como Search e Maps grounding, além de function calling para integrações de negócio.
Materiais de produto recentes destacam o 3.5 Flash como motor para agentes colaborativos, com disponibilidade por meio da Gemini API, Google Antigravity, Android Studio e a Gemini Enterprise Agent Platform. Em eventos e análises, a proposta central tem sido unir velocidade e capacidade de ação em cenários de alta demanda, como QA contínuo, extração de dados, assistência a desenvolvedores e suporte corporativo.
![Logo Gemini 3.5 em fundo azul]
Diferença entre anúncio e documentação técnica, o que observar
Quem acompanha documentação notou que páginas técnicas podem levar algumas horas ou dias para acompanhar anúncios. Uma página de “What’s new” do Gemini chegou a listar que o 3.5 Flash não suportava Computer Use. O post oficial do Google de 24 de junho afirma o oposto, que o recurso agora é parte nativa do 3.5 Flash. Diante do conflito, a fonte primária de produto é o anúncio oficial, que detalha disponibilidade via API e plataforma corporativa e descreve salvaguardas. Em casos assim, o caminho recomendado é validar no console e no endpoint da API em sua região, já que ativações podem ser graduais.
Impacto para equipes de Produto, Dados e TI
- Produtividade e tempo de ciclo: análises de mercado têm apontado que o 3.5 Flash foi pensado para reagir rapidamente e operar com baixo custo, tornando-se o modelo padrão em diversas superfícies do Google. Em equipes ágeis, isso se traduz em testes automatizados de regressão, verificação de acessibilidade e triagem de bugs com menor esforço manual.
- Custos operacionais: relatos de imprensa sugerem que a estratégia do Google com o 3.5 Flash é romper a ideia de que os modelos mais capazes precisam ser os mais caros e lentos. Em escala corporativa, o efeito combinado de velocidade, contexto multimodal e ação pode gerar reduções substanciais de custo em fluxos antes dependentes de humanos.
- Segurança por padrão: o anúncio de 24 de junho enfatiza defesa em profundidade, com confirmação obrigatória para ações críticas e bloqueio automático quando há sinais de prompt injection indireto, além de recomendações de sandbox, verificação humana e controles de acesso. Isso atende requisitos de TI em setores regulados e oferece trilhas para auditoria.
Como começar, caminhos práticos para adoção
- Gemini API: habilitar o 3.5 Flash com Computer Use, testar cenários de navegação autenticada, leitura de telas dinâmicas e preenchimento de formulários, sempre com ambientes de sandbox e chaves com escopo mínimo.
- Gemini Enterprise Agent Platform: criar agentes com políticas de aprovação para ações de alto impacto, logs detalhados e monitoramento de falhas, integrando com sistemas de ticketing e CI.
- Workspace Studio e ecossistema Workspace: há relatos práticos de automações no Workspace, como sumarização automática de e-mails e arquivamento de anexos. Com Computer Use, fluxos complexos no navegador podem ser ampliados sem exigir integrações de API para cada app legado.
Exemplo de roteiro inicial para um time de produto:
- Definir 3 tarefas com ganho mensurável, por exemplo, preparar relatórios semanais a partir de ferramentas web, verificar acessibilidade em páginas internas e executar testes ponta a ponta de login e checkout.
- Criar um agente 3.5 Flash com Computer Use e políticas de confirmação ligadas para ações de escrita e exclusão.
- Conectar a dados contextuais via URL context ou file search quando aplicável, e combinar com function calling para acionar APIs internas.
- Executar pilotos de 2 semanas e comparar tempo, erros, retrabalho e custo de computação.
Benchmarks e sinais de maturidade
Cartas de modelo e materiais técnicos listam indicadores de habilidade do 3.5 Flash em tarefas de UI control e cenários agentic, com foco em desempenho prático em ambientes reais. Embora números específicos variem por conjunto de testes, o destaque do Google está no ganho de confiabilidade para long-horizon tasks e na verificação de agentes em suites como OSWorld. Para equipes, isso significa maior previsibilidade ao desenhar sequências longas de ações.
Coberturas independentes também apontam que o 3.5 Flash virou o modelo principal em produtos do Google, acelerando respostas e reduzindo custo total de propriedade para workloads comuns de atendimento, suporte e engenharia. Essa convergência de sinais sugere maturidade do stack de agentes e preparação do terreno para casos corporativos robustos.
![Gráfico com referência a benchmarks do 3.5 Flash]
Segurança, riscos e governança que não podem ser ignorados
A capacidade de ler e operar uma interface amplia a superfície de risco. O Google destaca três camadas operacionais para mitigar problemas: treinamento adversarial voltado a ataques de prompt injection, confirmação explícita para ações sensíveis e interrupção automática quando há suspeita de instruções maliciosas provenientes do conteúdo exibido. Boas práticas incluem rodar em sandbox, revisar permissões e manter um humano na tomada de decisão em etapas críticas.
Para programar com responsabilidade, políticas de aprovação e trilhas de auditoria devem ficar ativadas em produção. Times de segurança precisam validar como o agente trata cookies, tokens e credenciais, e como registra eventuais exceções. A literatura recente e a experiência do mercado recomendam dividir a execução em microtarefas, reduzindo blast radius e facilitando rollback quando necessário. A governança é parte do design do agente, não um acessório de última hora.
Exemplos práticos de uso em empresas
- Testes de acessibilidade e conformidade: o agente percorre páginas internas, captura evidências e compila um relatório com recomendações, além de abrir tickets automaticamente quando encontra problemas. O próprio Google demonstra auditoria de documentação com o 3.5 Flash.
- Suporte de nível 1 e 2: abertura, atualização e encerramento de tickets em ferramentas web legadas, cruzando dados com repositórios internos através de function calling. A velocidade do 3.5 Flash, agora com ação embutida, reduz filas e melhora o SLA.
- QA contínuo em apps web: execução de roteiros de login, carrinho e checkout, com verificação de regressões visuais e funcionais. O ganho está em autonomia do agente para lidar com mudanças sutis na UI sem quebrar o fluxo.
- Operações de dados: extração de tabelas de sistemas sem API, consolidação em planilhas e disparo de análises, respeitando trilhas de auditoria e aprovações para ações de escrita. Relatos de automações no ecossistema Workspace mostram o potencial de produtividade quando se combina visão, contexto e ação.
Limitações, roadmap e como se preparar
Em lançamentos rápidos, documentação técnica pode ficar defasada por algumas horas ou dias. Há páginas que ainda indicam ausência de suporte a Computer Use no 3.5 Flash. Para equipes que planejam adotar, o passo prático é validar o recurso no seu projeto da Gemini API e na Gemini Enterprise Agent Platform, checando disponibilidade regional e quotas. Revisar changelogs e a página de novidades do Gemini periodicamente evita surpresas em produção.
Na governança, defina limites claros para o que o agente pode ou não fazer, e crie mecanismos de pausa emergencial. Em ambientes regulados, comprove que ações sensíveis exigem confirmação do usuário e que logs preservam integridade e cadeia de custódia. O pacote de salvaguardas anunciado pelo Google facilita essa jornada, mas a responsabilidade final é do time que constrói e opera o agente.
Como medir ROI em 90 dias
- Métrica de tempo de ciclo: meça o tempo do início ao fim da tarefa antes e depois do agente, incluindo revisões humanas e tempo de espera em filas.
- Precisão operacional: acompanhe taxa de acertos por etapa do fluxo e causas de falha, diferenciando erros de compreensão de UI e falhas de sistema.
- Custo total por caso: inclua computação, armazenamento, licenças e, quando aplicável, tempo humano de supervisão.
- Risco residual: documente eventos bloqueados por salvaguardas e revise políticas para reduzir tentativas de ações inseguras.
Em relatos de mercado, a combinação de velocidade, menor custo de execução e automação confiável é o que sustenta o argumento de ROI. Times que medem com rigor os ganhos de throughput e a queda de retrabalho costumam capturar benefícios nos primeiros ciclos.
Reflexões finais
A integração do Computer Use no Gemini 3.5 Flash marca um ponto de virada. Modelos conversacionais deram lugar a agentes que percebem contexto, raciocinam e executam. Para empresas, isso significa projetar trabalho com uma peça nova, a capacidade do software de operar outro software, com políticas de segurança embutidas e governança explícita.
Do lado prático, quem começar pequeno, medir direito e codificar salvaguardas desde o primeiro sprint vai transformar rotinas demoradas em fluxos automatizados e auditáveis. O ecossistema do Google vem costurando essa visão, do app Gemini ao stack corporativo, com o 3.5 Flash como motor central. A oportunidade está em converter essa promessa em entregas semanais que mostram valor, com segurança e controle.
