OpenClaw de graça em GeForce RTX, NVIDIA RTX e DGX

Introdução

NVIDIA liberou um guia oficial explicando como rodar o agente OpenClaw de graça, totalmente local, em GPUs GeForce RTX, NVIDIA RTX e no DGX Spark, com instruções publicadas em 13 de fevereiro de 2026. O foco é eliminar custo de uso contínuo em nuvem e manter dados pessoais sob seu controle.

A abordagem usa aceleração CUDA e Tensor Cores para executar modelos de linguagem grandes localmente, com ferramentas populares como Llama.cpp e Ollama, além de mostrar como configurar WSL no Windows e como aproveitar o hardware do DGX Spark. O texto destaca que o DGX Spark traz 128 GB de memória unificada e foi desenhado para ficar sempre ligado, ideal para agentes rodando 24 por 7.

O que este artigo cobre

Contexto do anúncio e por que isso importa para times de IA e devs
Passo a passo prático para começar no Windows com WSL
Como escolher backend local, LM Studio ou Ollama, e quais modelos usar
Recomendações de segurança antes de abrir seu agente para o mundo real
Onde o DGX Spark se encaixa e quando considerar investir nele

Por que rodar o OpenClaw localmente agora

Rode um agente 24 por 7 sem pagar por chamadas de API. O guia da NVIDIA esclarece que agentes sempre ligados geram custos relevantes quando hospedados em nuvem, além de implicarem upload de dados pessoais. Ao mover o OpenClaw para sua RTX, você reduz gasto recorrente e mantém a privacidade no perímetro local.

Além do custo, há eficiência técnica. A pilha CUDA acelera inferência em modelos otimizados para GPUs RTX, e o ecossistema ao redor, como Llama.cpp, evoluiu com backends cublas e quantizações que permitem rodar modelos grandes em placas de consumo.

Outro ponto é a maturidade de modelos abertos de raciocínio. Em agosto de 2025, a OpenAI lançou os modelos open-weight gpt-oss-120b e gpt-oss-20b, com licença Apache 2.0, projetados para rodar em infraestrutura controlada pelo usuário e compatíveis com runtimes como Ollama e Llama.cpp, tornando-se opções reais para agentes locais.

O que é o OpenClaw e como ele trabalha

OpenClaw é um agente local-first, capaz de conversar, lembrar do contexto, ler arquivos e acionar “skills” para agir, como enviar mensagens, checar calendários e organizar projetos. O guia da NVIDIA lista casos práticos, de secretariado pessoal a pesquisa assistida com dados locais e web.

Por baixo, o OpenClaw pode usar LLMs locais ou na nuvem. A recomendação do guia é configurar tudo local para reduzir custo e evitar upload de dados. Entre as tarefas do artigo estão instalação, onboarding rápido, escolha e configuração de modelos, além de dicas de performance como liberar VRAM, ajustar janela de contexto, e limitar skills no início.

Segurança primeiro, depois escala

Agentes com acesso a arquivos, shell e internet pedem uma postura de segurança proativa. A NVIDIA referencia riscos e boas práticas, e a própria documentação do OpenClaw traz um comando de auditoria, openclaw security audit, que endurece configurações, ajusta permissões e alerta para exposição indevida de interfaces.

Especialistas como Simon Willison sintetizam o “trifecta letal” para agentes, a combinação de dados privados, conteúdo não confiável e canais de comunicação externos. Se o agente combina essas três coisas, o risco de exfiltração cresce muito. Por isso, comece com acesso mínimo, defina quem pode falar com o bot e restrinja onde ele pode atuar.

Aplicação prática imediata:

Execute em máquina limpa ou VM, sem dados sensíveis por padrão
Use pareamento e allowlists nos canais, evite modo aberto
Habilite sandbox e limite ferramentas privilegiadas
Proteja a UI, preferindo HTTPS local ou acesso apenas por 127.0.0.1
Revise logs e políticas após cada mudança de configuração

Passo a passo no Windows com WSL

O guia oficial direciona o setup inicial para WSL. Requisitos típicos: Windows 10 2004 ou superior, ou Windows 11. Para instalar, abra o PowerShell como administrador e rode wsl --install. A página da Microsoft consolida procedimentos e comandos úteis para checar versões, listar distros e ajustar WSL 1 ou 2.

Depois, o guia indica instalar o OpenClaw com um script simples e seguir o onboarding Quickstart, pulando a configuração de provedor de modelo inicialmente, já que você definirá o backend local na sequência.

Backend local, LM Studio ou Ollama

Duas rotas consolidadas para servir LLMs locais no desktop são LM Studio e Ollama. O LM Studio oferece servidor local com endpoints compatíveis com o OpenAI Responses API e SDKs, além de CLI lms. A documentação explica como ativar o “Start server” na aba Developer ou subir com lms server start.

Ollama facilita baixar e rodar modelos com um comando e também possui script de instalação para macOS e Linux. Quem preferir o pipeline baseado em Llama.cpp pode combiná-lo com LM Studio para extrair máximo desempenho no Windows, com backend cublas ativado.

Ilustração do artigo

Exemplo de fluxo tático:

Ative o servidor do LM Studio e confirme o endpoint local em http, com porta padrão 1234, no formato OpenAI-compatible.
Baixe o modelo recomendado para sua VRAM, por exemplo gpt-oss-20b para 16 GB, configure janela de contexto de 32K ou mais, e valide latência no seu hardware.
No OpenClaw, aponte o provider para o endpoint do LM Studio, ou use Ollama se preferir seu ecossistema e templates prontos.

![GeForce RTX 4090 em close para ilustração de GPU desktop]

Quais modelos escolher para o OpenClaw

O guia da NVIDIA traz uma matriz simples por VRAM, sugerindo por exemplo gpus de 8 a 12 GB com Qwen3-4B-Thinking, 16 GB com gpt-oss-20b, 24 a 48 GB com Nemotron-3-Nano-30B-A3B, e 96 a 128 GB com gpt-oss-120b. Ajuste a janela de contexto para 32K ou maior para bom funcionamento no OpenClaw.

Contexto adicional ajuda na escolha:

gpt-oss-20b e gpt-oss-120b são modelos open-weight orientados a raciocínio, com licença Apache 2.0 e suporte a runtimes populares, pensados para rodar localmente ou em provedores de hospedagem.
Nemotron-3-Nano-30B-A3B, da NVIDIA, usa arquitetura MoE híbrida e foi projetado como modelo unificado para tarefas de raciocínio e não raciocínio, com 30B de parâmetros totais e cerca de 3,5B ativos por token.
Llama.cpp vem evoluindo há dois anos para extrair desempenho máximo de CPU e GPU, inclusive com cuBLAS em placas NVIDIA, o que o torna base frequente para backends locais de alto desempenho.

DGX Spark, quando faz sentido no desktop

O DGX Spark empacota a arquitetura Grace Blackwell GB10 com até 1 petaFLOP em FP4, memória unificada de 128 GB e stack de IA pré-instalada. Para desenvolvedores e pesquisadores, permite prototipar, ajustar e servir modelos grandes, inclusive raciocínio com até 200 bilhões de parâmetros localmente, e até 70 bilhões para fine-tuning.

O site oficial detalha ainda a banda de memória de 273 GB s, 4 TB NVMe com autocriptografia e conectividade ConnectX para acoplar duas unidades e trabalhar com modelos de até 405 bilhões de parâmetros. Em outras palavras, é um supercomputador de IA de mesa, útil quando sua cadência de POCs e inferência local exige hardware sempre ligado e previsível.

![Rack NVIDIA DGX GB200 para ilustrar classe de sistemas DGX]

Checklist essencial de segurança para agentes locais

Rode o comando de auditoria do OpenClaw e aplique correções sugeridas, como endurecer políticas de DM e grupos, e consertar permissões de diretórios.
Separe o ambiente, use usuário do sistema dedicado, limite skills e ferramentas elevadas, e evite expor a UI na rede sem autenticação forte.
Entenda e evite o “trifecta letal”, não combine dados privados, conteúdo não confiável e saídas externas sem camadas de contenção.

Guia rápido, do zero à execução

Instale WSL no Windows com wsl --install e confirme versão com wsl --version.
Instale o OpenClaw com o script indicado no guia da NVIDIA e conclua o Quickstart.
Escolha backend local, ative o LM Studio Server pela GUI ou CLI, ou instale o Ollama com o script oficial, então faça pull do modelo.
Defina o modelo recomendado para sua VRAM, por exemplo gpt-oss-20b para 16 GB, e ajuste context window para 32K tokens.
No OpenClaw, edite o openclaw.json, aponte para o endpoint local do provider e suba o gateway. Teste na UI do OpenClaw e valide a troca de modelos via comando.

Reflexões e insights práticos

Híbrido inteligente. Mesmo que o objetivo seja local-first, vale combinar modelos, usando um aberto local para email e arquivos sensíveis e um frontier em nuvem para tarefas de raciocínio geral, sempre controlando o que sai e o que entra no agente. O DGX Spark já traz playbooks e integrações para esse cenário.
Custo é variável. Local pode ser mais barato para agentes 24 por 7 e fluxos previsíveis, mas considere custo de energia, refrigeração e manutenção. Modelos open-weight como gpt-oss foram pensados para rodar em placas de 16 GB para baixo custo operacional.
Governança desde o dia um. Defina política de dados, retenção de logs, segregação de perfis de acesso e rotação de segredos, inclusive para credenciais de canais como WhatsApp, Telegram, Slack e e-mail. A doc do OpenClaw mapeia caminhos padrão de credenciais no disco.

Conclusão

A NVIDIA não apenas validou o hype de agentes locais, apresentou um guia concreto para rodar o OpenClaw de graça nas RTX e no DGX Spark. Entre WSL, LM Studio, Ollama e modelos abertos de raciocínio, o caminho para um assistente pessoal ou de equipe local-first ficou claro e acessível.

O próximo passo é transformar esse poder em valor de negócio, com segurança e governança na base. Teste pequeno, meça latência e qualidade, evolua sua curadoria de skills e políticas, e só então amplie o escopo. A pilha de hardware e software está madura, cabe a cada equipe projetar o agente certo para a tarefa certa.