NVIDIA permite configurar o OpenClaw de graça em GeForce RTX, NVIDIA RTX e DGX Spark
Guia prático e atualizado para rodar o agente OpenClaw localmente, sem custo de uso em nuvem, aproveitando GPUs GeForce RTX, NVIDIA RTX e o novo DGX Spark com 128 GB de memória unificada.
Danilo Gato
Autor
Introdução
NVIDIA liberou um guia oficial explicando como rodar o agente OpenClaw de graça, totalmente local, em GPUs GeForce RTX, NVIDIA RTX e no DGX Spark, com instruções publicadas em 13 de fevereiro de 2026. O foco é eliminar custo de uso contínuo em nuvem e manter dados pessoais sob seu controle.
A abordagem usa aceleração CUDA e Tensor Cores para executar modelos de linguagem grandes localmente, com ferramentas populares como Llama.cpp e Ollama, além de mostrar como configurar WSL no Windows e como aproveitar o hardware do DGX Spark. O texto destaca que o DGX Spark traz 128 GB de memória unificada e foi desenhado para ficar sempre ligado, ideal para agentes rodando 24 por 7.
O que este artigo cobre
- Contexto do anúncio e por que isso importa para times de IA e devs
- Passo a passo prático para começar no Windows com WSL
- Como escolher backend local, LM Studio ou Ollama, e quais modelos usar
- Recomendações de segurança antes de abrir seu agente para o mundo real
- Onde o DGX Spark se encaixa e quando considerar investir nele
Por que rodar o OpenClaw localmente agora
Rode um agente 24 por 7 sem pagar por chamadas de API. O guia da NVIDIA esclarece que agentes sempre ligados geram custos relevantes quando hospedados em nuvem, além de implicarem upload de dados pessoais. Ao mover o OpenClaw para sua RTX, você reduz gasto recorrente e mantém a privacidade no perímetro local.
Além do custo, há eficiência técnica. A pilha CUDA acelera inferência em modelos otimizados para GPUs RTX, e o ecossistema ao redor, como Llama.cpp, evoluiu com backends cublas e quantizações que permitem rodar modelos grandes em placas de consumo.
Outro ponto é a maturidade de modelos abertos de raciocínio. Em agosto de 2025, a OpenAI lançou os modelos open-weight gpt-oss-120b e gpt-oss-20b, com licença Apache 2.0, projetados para rodar em infraestrutura controlada pelo usuário e compatíveis com runtimes como Ollama e Llama.cpp, tornando-se opções reais para agentes locais.
O que é o OpenClaw e como ele trabalha
OpenClaw é um agente local-first, capaz de conversar, lembrar do contexto, ler arquivos e acionar “skills” para agir, como enviar mensagens, checar calendários e organizar projetos. O guia da NVIDIA lista casos práticos, de secretariado pessoal a pesquisa assistida com dados locais e web.
Por baixo, o OpenClaw pode usar LLMs locais ou na nuvem. A recomendação do guia é configurar tudo local para reduzir custo e evitar upload de dados. Entre as tarefas do artigo estão instalação, onboarding rápido, escolha e configuração de modelos, além de dicas de performance como liberar VRAM, ajustar janela de contexto, e limitar skills no início.
Segurança primeiro, depois escala
Agentes com acesso a arquivos, shell e internet pedem uma postura de segurança proativa. A NVIDIA referencia riscos e boas práticas, e a própria documentação do OpenClaw traz um comando de auditoria, openclaw security audit, que endurece configurações, ajusta permissões e alerta para exposição indevida de interfaces.
Especialistas como Simon Willison sintetizam o “trifecta letal” para agentes, a combinação de dados privados, conteúdo não confiável e canais de comunicação externos. Se o agente combina essas três coisas, o risco de exfiltração cresce muito. Por isso, comece com acesso mínimo, defina quem pode falar com o bot e restrinja onde ele pode atuar.
Aplicação prática imediata:
- Execute em máquina limpa ou VM, sem dados sensíveis por padrão
- Use pareamento e allowlists nos canais, evite modo aberto
- Habilite sandbox e limite ferramentas privilegiadas
- Proteja a UI, preferindo HTTPS local ou acesso apenas por 127.0.0.1
- Revise logs e políticas após cada mudança de configuração
Passo a passo no Windows com WSL
O guia oficial direciona o setup inicial para WSL. Requisitos típicos: Windows 10 2004 ou superior, ou Windows 11. Para instalar, abra o PowerShell como administrador e rode wsl --install. A página da Microsoft consolida procedimentos e comandos úteis para checar versões, listar distros e ajustar WSL 1 ou 2.
Depois, o guia indica instalar o OpenClaw com um script simples e seguir o onboarding Quickstart, pulando a configuração de provedor de modelo inicialmente, já que você definirá o backend local na sequência.
Backend local, LM Studio ou Ollama
Duas rotas consolidadas para servir LLMs locais no desktop são LM Studio e Ollama. O LM Studio oferece servidor local com endpoints compatíveis com o OpenAI Responses API e SDKs, além de CLI lms. A documentação explica como ativar o “Start server” na aba Developer ou subir com lms server start.
Ollama facilita baixar e rodar modelos com um comando e também possui script de instalação para macOS e Linux. Quem preferir o pipeline baseado em Llama.cpp pode combiná-lo com LM Studio para extrair máximo desempenho no Windows, com backend cublas ativado.

Exemplo de fluxo tático:
- Ative o servidor do LM Studio e confirme o endpoint local em http, com porta padrão 1234, no formato OpenAI-compatible.
- Baixe o modelo recomendado para sua VRAM, por exemplo gpt-oss-20b para 16 GB, configure janela de contexto de 32K ou mais, e valide latência no seu hardware.
- No OpenClaw, aponte o provider para o endpoint do LM Studio, ou use Ollama se preferir seu ecossistema e templates prontos.
![GeForce RTX 4090 em close para ilustração de GPU desktop]
Quais modelos escolher para o OpenClaw
O guia da NVIDIA traz uma matriz simples por VRAM, sugerindo por exemplo gpus de 8 a 12 GB com Qwen3-4B-Thinking, 16 GB com gpt-oss-20b, 24 a 48 GB com Nemotron-3-Nano-30B-A3B, e 96 a 128 GB com gpt-oss-120b. Ajuste a janela de contexto para 32K ou maior para bom funcionamento no OpenClaw.
Contexto adicional ajuda na escolha:
- gpt-oss-20b e gpt-oss-120b são modelos open-weight orientados a raciocínio, com licença Apache 2.0 e suporte a runtimes populares, pensados para rodar localmente ou em provedores de hospedagem.
- Nemotron-3-Nano-30B-A3B, da NVIDIA, usa arquitetura MoE híbrida e foi projetado como modelo unificado para tarefas de raciocínio e não raciocínio, com 30B de parâmetros totais e cerca de 3,5B ativos por token.
- Llama.cpp vem evoluindo há dois anos para extrair desempenho máximo de CPU e GPU, inclusive com cuBLAS em placas NVIDIA, o que o torna base frequente para backends locais de alto desempenho.
DGX Spark, quando faz sentido no desktop
O DGX Spark empacota a arquitetura Grace Blackwell GB10 com até 1 petaFLOP em FP4, memória unificada de 128 GB e stack de IA pré-instalada. Para desenvolvedores e pesquisadores, permite prototipar, ajustar e servir modelos grandes, inclusive raciocínio com até 200 bilhões de parâmetros localmente, e até 70 bilhões para fine-tuning.
O site oficial detalha ainda a banda de memória de 273 GB s, 4 TB NVMe com autocriptografia e conectividade ConnectX para acoplar duas unidades e trabalhar com modelos de até 405 bilhões de parâmetros. Em outras palavras, é um supercomputador de IA de mesa, útil quando sua cadência de POCs e inferência local exige hardware sempre ligado e previsível.
![Rack NVIDIA DGX GB200 para ilustrar classe de sistemas DGX]
Checklist essencial de segurança para agentes locais
- Rode o comando de auditoria do OpenClaw e aplique correções sugeridas, como endurecer políticas de DM e grupos, e consertar permissões de diretórios.
- Separe o ambiente, use usuário do sistema dedicado, limite skills e ferramentas elevadas, e evite expor a UI na rede sem autenticação forte.
- Entenda e evite o “trifecta letal”, não combine dados privados, conteúdo não confiável e saídas externas sem camadas de contenção.
Guia rápido, do zero à execução
- Instale WSL no Windows com wsl --install e confirme versão com wsl --version.
- Instale o OpenClaw com o script indicado no guia da NVIDIA e conclua o Quickstart.
- Escolha backend local, ative o LM Studio Server pela GUI ou CLI, ou instale o Ollama com o script oficial, então faça pull do modelo.
- Defina o modelo recomendado para sua VRAM, por exemplo gpt-oss-20b para 16 GB, e ajuste context window para 32K tokens.
- No OpenClaw, edite o openclaw.json, aponte para o endpoint local do provider e suba o gateway. Teste na UI do OpenClaw e valide a troca de modelos via comando.
Reflexões e insights práticos
- Híbrido inteligente. Mesmo que o objetivo seja local-first, vale combinar modelos, usando um aberto local para email e arquivos sensíveis e um frontier em nuvem para tarefas de raciocínio geral, sempre controlando o que sai e o que entra no agente. O DGX Spark já traz playbooks e integrações para esse cenário.
- Custo é variável. Local pode ser mais barato para agentes 24 por 7 e fluxos previsíveis, mas considere custo de energia, refrigeração e manutenção. Modelos open-weight como gpt-oss foram pensados para rodar em placas de 16 GB para baixo custo operacional.
- Governança desde o dia um. Defina política de dados, retenção de logs, segregação de perfis de acesso e rotação de segredos, inclusive para credenciais de canais como WhatsApp, Telegram, Slack e e-mail. A doc do OpenClaw mapeia caminhos padrão de credenciais no disco.
Conclusão
A NVIDIA não apenas validou o hype de agentes locais, apresentou um guia concreto para rodar o OpenClaw de graça nas RTX e no DGX Spark. Entre WSL, LM Studio, Ollama e modelos abertos de raciocínio, o caminho para um assistente pessoal ou de equipe local-first ficou claro e acessível.
O próximo passo é transformar esse poder em valor de negócio, com segurança e governança na base. Teste pequeno, meça latência e qualidade, evolua sua curadoria de skills e políticas, e só então amplie o escopo. A pilha de hardware e software está madura, cabe a cada equipe projetar o agente certo para a tarefa certa.
