IA local: como rodar inteligência artificial no seu próprio

Resposta rápida

Sim, dá pra rodar inteligência artificial local no seu computador, sem internet e sem mandar nenhum dado pra nuvem. Você instala um programa gratuito (o mais usado é o Ollama), baixa um modelo de linguagem aberto — como Gemma 3, Llama 3.2 ou Mistral — e passa a conversar com ele direto no seu notebook, o mesmo jeito que conversa com ChatGPT ou Claude. A diferença é que tudo roda na sua máquina: nada trafega pra servidor de terceiro, funciona no avião ou sem sinal, e não tem mensalidade. A exigência real é RAM — 8 GB rodam modelos pequenos, 16 GB já cobrem a maioria dos casos do dia a dia, e placa de vídeo (GPU) é bônus de velocidade, não obrigação.

Por que gente que nem é “tech” já tá fazendo isso

Três motivos concretos puxam esse movimento, e nenhum deles é modismo:

Privacidade de verdade. Advogado, médico, contador, psicólogo — qualquer profissional que lida com dado sensível de cliente tem restrição (ética ou legal) pra colar isso num chat na nuvem. Rodando local, o texto nunca sai do disco.
Custo zero por uso. Depois de baixado, o modelo é seu. Sem limite de mensagens, sem plano mensal, sem cobrança por token.
Funciona sem internet. Fábrica sem sinal, avião, sítio no fim do mundo, ou simplesmente uma internet que caiu no meio do prazo — o modelo local nem percebe.

O pano de fundo é que os modelos abertos (open-weight, gratuitos pra baixar e rodar) pararam de ser “a versão fraquinha” da IA. Segundo o Stanford AI Index 2026 (Stanford HAI), em março de 2026 o melhor modelo fechado do mercado ficava só 3,3% à frente do melhor modelo aberto em desempenho — uma diferença que era de apenas 0,5% em agosto de 2024 e segue pequena mesmo tendo crescido um pouco. Na prática: o gap de qualidade entre “IA de assinatura” e “IA que você baixa e roda” é hoje marginal pra boa parte das tarefas do dia a dia.

E o mercado tá migrando processamento pra edge/local de forma acelerada: a consultoria Gartner, no relatório Predicts 2026: Physical AI Pushes I&O to the Edge (março de 2026), projeta que mais de dois terços das empresas do mundo vão rodar IA na borda (edge) até 2029, saindo de apenas 10% em 2025. Isso não é só notebook pessoal — é a mesma lógica de “processar onde o dado nasce” ganhando a empresa inteira.

De quanto hardware você realmente precisa

Esquece a ideia de que precisa de um PC gamer de R$ 15 mil. A conta principal é RAM (ou VRAM, se tiver GPU dedicada) — cada modelo tem um “peso” aproximado depois de comprimido (técnica chamada quantização):

Modelo	Tamanho (parâmetros)	RAM mínima recomendada	Roda bem em
Llama 3.2 3B	3 bilhões	4–8 GB	Qualquer notebook comum, até sem placa de vídeo
Gemma 3 4B	4 bilhões	8 GB	Notebook comum (Windows, Mac, Linux)
Gemma 3 12B	12 bilhões	16 GB	Notebook de trabalho “normal” (MacBook Air, ThinkPad)
Mistral 7B	7 bilhões	8–16 GB	Notebook comum
Llama 3.1 70B	70 bilhões	48 GB+ (ou GPU dedicada)	Estação de trabalho / GPU potente

Regra prática: se seu computador tem 16 GB de RAM (padrão em boa parte dos notebooks vendidos desde 2023), você já roda modelos de 8 a 12 bilhões de parâmetros com folga — o suficiente pra resumir texto, responder e-mail, revisar contrato, tirar dúvida técnica ou programar.

Passo a passo: rodando seu primeiro modelo local (15 minutos)

Baixe o Ollama (gratuito, Windows/Mac/Linux) em ollama.com — é um instalador simples, sem configuração.
Abra o terminal (no Mac: Terminal; no Windows: PowerShell ou Prompt de Comando) e digite:
```
ollama run gemma3:4b
```
Na primeira vez, ele baixa o modelo (alguns GB, só uma vez). Depois disso, roda 100% offline.
Converse direto no terminal. Assim que o download termina, aparece um prompt esperando sua pergunta — funciona igual a um chat.
Quer uma interface visual (tipo ChatGPT)? Instale o Open WebUI (open source, roda em Docker) por cima do Ollama — ganha histórico de conversa, upload de arquivo e uma tela com cara de aplicativo.
Testando outro modelo: troque o nome no comando — ollama run llama3.2 ou ollama run mistral — cada um baixa e fica disponível pra sempre trocar entre eles.

Nenhuma dessas etapas exige cartão de crédito, conta em nuvem ou login.

IA local substitui de vez o ChatGPT ou o Claude?

Não pra tudo — e a resposta honesta importa mais que a hype. Modelos rodando no seu notebook, mesmo os bons como Gemma 3 12B, ainda ficam atrás dos modelos de ponta (como os da linha Claude ou GPT) em raciocínio complexo, em tarefas muito longas e em conhecimento de mundo mais recente — afinal são modelos bem menores, otimizados pra caber na sua RAM, não pra serem os mais espertos do mercado. A conta certa é escolher por tarefa: dado sensível, uso offline ou volume alto de repetição → local. Raciocínio pesado, pesquisa complexa ou o melhor resultado possível → nuvem. Já aprofundamos as diferenças entre as IAs de nuvem em ChatGPT, Gemini ou Claude: qual IA usar para cada tarefa? e o tema de segurança de dado em IA de nuvem em ChatGPT é seguro? Privacidade e proteção de dados ao usar IA no trabalho.

Perguntas frequentes

Preciso de internet pra usar IA local?

Só na primeira vez, pra baixar o modelo (alguns GB). Depois disso, funciona 100% offline — sem sinal, sem Wi-Fi, sem exceção.

IA local é mais lenta que ChatGPT?

Depende do hardware. Num notebook comum com 16 GB de RAM e sem GPU dedicada, a resposta sai palavra por palavra, num ritmo perceptível mas usável — mais lento que a nuvem, mas longe de inviável pro dia a dia. Com GPU dedicada (mesmo uma de notebook gamer), a diferença cai bastante.

Dá pra rodar em notebook sem placa de vídeo?

Dá. Modelos de 3 a 4 bilhões de parâmetros (como Llama 3.2 3B ou Gemma 3 4B) rodam em CPU comum, sem GPU — mais devagar, mas funcionam.

Meus dados ficam mesmo seguros rodando local?

Sim, no sentido técnico: o texto que você digita nunca sai da sua máquina pra nenhum servidor externo. Isso resolve a parte de “meu dado não trafega pra fora” — mas não substitui as outras camadas normais de segurança (antivírus, backup, disco criptografado).

Preciso saber programar pra usar?

Não. O Ollama é linha de comando simples (copiar e colar um comando), e ferramentas como o Open WebUI dão uma interface de chat visual pra quem prefere não usar terminal.

Qual o modelo certo pra eu começar?

Pra maioria das pessoas: Gemma 3 4B (leve, roda em quase qualquer notebook) pra testar, e Gemma 3 12B ou Mistral 7B se o computador tiver 16 GB de RAM e você quiser mais qualidade de resposta.

Rodar IA (Inteligência Artificial) local não é sobre abandonar ChatGPT ou Claude — é sobre ter a ferramenta certa pra quando privacidade, custo ou conexão pesam mais que velocidade máxima. Na CPDF (Comunidade Profissionais do Futuro - por Danilo Gato) a gente ensina esse tipo de aplicação prática — não só teoria de IA, mas o passo a passo de colocar pra funcionar no seu dia. Quem quiser entender os fundamentos por trás desses modelos, o artigo Machine learning: o que é e como funciona o aprendizado de máquina é um bom próximo passo.