Raspberry Pi lança add-on 8 GB de RAM para genAI

Introdução

Raspberry Pi AI HAT+ 2 é o novo add-on de 130 dólares para o Raspberry Pi 5 que traz 8 GB de RAM e o acelerador Hailo-10H para rodar modelos de IA generativa localmente, com 40 TOPS de performance de inferência e foco em privacidade e baixa latência. O anúncio oficial foi publicado em 15 de janeiro de 2026, e a placa já está disponível para compra.

A importância vai além do hype. A combinação de NPU dedicada e memória on-board amplia o tipo de modelo que cabe no dispositivo e libera a RAM e a CPU do Raspberry Pi 5 para outras tarefas. É uma evolução em relação ao AI HAT+ anterior, voltado principalmente para visão computacional, e um passo claro para levar GenAI ao edge com custo acessível.

Este artigo aprofunda o que muda com o Raspberry Pi AI HAT+ 2, como o Hailo-10H e os 8 GB de RAM impactam LLMs e VLMs, quais modelos já rodam, o que esperar de desempenho, casos de uso realistas e limitações práticas apontadas por testes independentes.

O que é o Raspberry Pi AI HAT+ 2 e o que muda

O Raspberry Pi AI HAT+ 2 é uma placa HAT que se conecta ao Raspberry Pi 5 via PCIe e integra o acelerador Hailo-10H e 8 GB de RAM LPDDR4X dedicados. Segundo a Raspberry Pi, o HAT entrega 40 TOPS para inferência em INT4, mantém desempenho semelhante ao AI HAT+ de 26 TOPS em visão, e agora acelera LLMs e VLMs graças à memória on-board. Preço oficial, 130 dólares.

Em termos práticos, isso significa rodar modelos de linguagem e visão-linguagem diretamente no Pi, sem depender de nuvem, com menor latência e custo previsível. A placa foi anunciada com foco explícito em GenAI na borda e integração com o ecossistema de câmera e software da Raspberry Pi.

O salto em memória é o detalhe mais relevante. Antes, a aceleração era ótima para visão clássica, porém limitada para modelos generativos. Agora, a RAM dedicada do HAT permite carregar pesos, buffers e caches de atenção de modelos 1 a 7 bilhões de parâmetros preparados pela Hailo, além de cenários de fine-tuning leve via LoRA, sempre no próprio dispositivo.

Hailo-10H, 40 TOPS e por que isso importa menos do que parece

O Hailo-10H é um acelerador de IA de segunda geração da Hailo, projetado para edge AI e GenAI. Ele oferece 40 TOPS em INT4, suporta DDR direto no módulo e foi pensado para executar LLMs, VLMs e até Stable Diffusion com alta eficiência energética. A Hailo destaca consumo típico em torno de 2,5 a 3,5 W, compatibilidade com Linux e frameworks populares.

TOPS chamam atenção, porém não contam a história completa. Testes independentes mostram que, para alguns LLMs pequenos, um Raspberry Pi 5 com bastante RAM pode superar o Hailo-10H em throughput, em parte porque o SoC do Pi pode consumir até cerca de 10 W enquanto o HAT fica próximo de 3 W. Em outras palavras, o limite de potência do NPU impacta desempenho bruto em LLMs, mesmo com a memória on-board do HAT.

O contra-argumento é eficiência. Mesmo quando o CPU do Pi vence em tokens por segundo, o Hailo-10H tende a ser mais eficiente por watt, o que pesa em aplicações alimentadas por bateria ou com orçamentos térmicos estritos. Além disso, o NPU libera a CPU e a RAM do Pi para o restante do pipeline, algo importante em soluções embarcadas que precisam de IO, rede, UI e controle em paralelo.

Modelos suportados, software e o que já funciona hoje

No lançamento, a Raspberry Pi cita suporte a LLMs como Llama 3.2, DeepSeek-R1-Distill e uma família de modelos Qwen, além de fluxos com Open WebUI e o backend hailo-ollama. Há também demonstrações de descrição de cena a partir de vídeo e tradução de texto, tudo rodando localmente.

A nota oficial lista exemplos práticos com Qwen2, Qwen2.5-Coder e variantes de 1 a 1,5 bilhão de parâmetros. A documentação e exemplos são disponibilizados no Developer Zone da Hailo e no GitHub, e a própria Raspberry Pi integra o suporte nas ferramentas de câmera, como libcamera, rpicam-apps e Picamera2, o que facilita pipelines multimodais.

Vale observar que o ecossistema ainda está amadurecendo. Em avaliações iniciais, alguns pacotes da Hailo para o novo HAT não estavam totalmente atualizados, e a execução simultânea de dois modelos podia falhar. Apesar disso, workloads de visão com câmeras do Pi funcionaram de forma estável e rápida, reforçando que a base em visão está sólida, enquanto GenAI local caminha para ganhar maturidade nos próximos meses.

![Raspberry Pi AI HAT+ 2 sobre o Pi 5, foco no Hailo-10H]

Comparação com o AI HAT+ anterior e com a alternativa de mais RAM no Pi

O AI HAT+ original, baseado em Hailo-8L e Hailo-8, vinha em versões de 13 e 26 TOPS, com ênfase em visão e sem memória dedicada para LLMs. A própria documentação posiciona o modelo de 26 TOPS para redes maiores e paralelismo de múltiplos modelos. O novo AI HAT+ 2 muda a equação ao levar 8 GB de RAM para o NPU e adicionar a rota GenAI.

Ainda assim, há um trade-off relevante. Testes independentes indicam que, em muitas situações, um Raspberry Pi 5 com 16 GB de RAM pode ser mais rápido em LLMs do que o AI HAT+ 2, por conta do limite de potência do NPU e da flexibilidade de execução no CPU. Essa visão crítica ajuda a decidir o melhor investimento, especialmente se o foco do projeto for velocidade pura em modelos quantizados médios.

Em contrapartida, quando o requisito principal é consumo baixo, operação offline e pipeline integrado de câmera com pós-processamento acelerado, o AI HAT+ 2 brilha. Ele mantém desempenho de visão comparável ao AI HAT+ de 26 TOPS, mas adiciona GenAI e mantém a CPU livre. Para robótica, automação predial, inspeção e segurança com descrições de cena e comandos naturais, a proposta é convincente.

Casos de uso reais para GenAI no edge

Ilustração do artigo

Assistentes de voz offline em quiosques e dispositivos industriais, com reconhecimento de fala, NLU e comandos de controle locais, reduzindo custos de nuvem e riscos de privacidade. A Hailo posiciona explicitamente o 10H para esses cenários, com latência baixa e eficiência energética.
Análise multimodal de câmeras, onde o modelo descreve cenas, detecta pessoas e objetos e responde a perguntas sobre o que vê, útil em segurança, varejo e facilities. O vídeo de demonstração da Raspberry Pi já ilustra o fluxo de descrição de cena e QA visual.
Programação assistida local com modelos coder pequenos, como Qwen2.5-Coder 1.5B, para gerar trechos de código sem expor repositórios internos a serviços externos.
Tradução e transcrição de áudio local para ambientes sem conectividade confiável, combinando ASR com LLMs pequenos para sumarização. A lista inicial do HAT inclui whisper-base como referência de ASR.

![AI HAT+ 2 em uso com câmera, cenário de visão e GenAI]

Guia prático, do setup ao primeiro prompt

Hardware. Raspberry Pi 5, AI HAT+ 2, fonte USB-C PD adequada e refrigeração ativa. O HAT comunica via PCIe, portanto é exclusivo do Pi 5.
Instalação. Atualizar o Raspberry Pi OS, encaixar o HAT+ 2, montar espaçadores e cooler, e reiniciar. O sistema detecta automaticamente o Hailo-10H e expõe o NPU para apps compatíveis.
Software. Instalar o backend hailo-ollama pelo Developer Zone da Hailo, subir o Open WebUI e carregar um LLM suportado, como Qwen2.5-Instruct 1.5B, Qwen2.5-Coder ou Llama 3.2 1B.
Fluxo multimodal. Integrar com rpicam-apps para capturar vídeo ao vivo e fazer descrição de cena, ou encadear pipeline com reconhecimento de fala e resposta em texto.
Fine-tuning leve. Aplicar LoRA para adaptar o modelo a um domínio específico usando o Hailo Dataflow Compiler e carregar os adapters no AI HAT+ 2.

Dica de dimensionamento, se a tarefa for focada em visão clássica, a diferença para o AI HAT+ de 26 TOPS será pequena, então o AI HAT+ 2 faz sentido quando a aplicação pede GenAI local e pipeline híbrido. Se a prioridade for LLM médio acima de 7B quantizado, avaliar um Pi 5 com 16 GB pode entregar maior throughput, com o custo de maior consumo e uso intensivo de RAM do host.

Preço, disponibilidade e contexto de mercado

O preço de lançamento do Raspberry Pi AI HAT+ 2 é 130 dólares, com disponibilidade imediata nos canais oficiais e revendedores. Kits que combinam Pi 5 e AI HAT+ 2 já aparecem no varejo especializado.

O momento do anúncio coincide com gargalos de memória e componentes no setor, impulsionados por demanda de IA. Fabricantes vêm ajustando preços e estoques, e o próprio ecossistema Raspberry Pi acompanha esse cenário. Planejamento de compras e previsão de demanda são recomendáveis para projetos que dependem de volume.

Limitações, riscos e como contorná-los

Desempenho em LLMs. Em vários testes, o throughput em tokens por segundo do Hailo-10H ficou atrás do CPU do Pi 5 com boa RAM, sobretudo por limite de potência no NPU. Mitigação, escolher modelos menores, prompts mais objetivos e quantizações adequadas, além de explorar pipelines onde a CPU cuida de orquestração e o HAT acelera partes pesadas.
Maturidade do software. Bibliotecas e exemplos da Hailo ainda recebem atualizações para o AI HAT+ 2, e cargas simultâneas podem falhar. Mitigação, focar nos modelos oficialmente testados no lançamento e acompanhar o Developer Zone e GitHub por updates.
Capacidade de modelo. Os 8 GB de RAM do HAT elevam o teto, mas não fazem milagres. Modelos acima de 7B com janelas de contexto grandes ainda são desafiadores. Estratégia, usar LoRA para especialização e compor soluções com retrieval leve, mantendo dados sensíveis locais.

Onde o Raspberry Pi AI HAT+ 2 faz mais sentido

Edge privado com compliance. Ambientes regulados onde dados não podem sair da planta ganham com GenAI local para triagem, relatórios e assistência técnica.
Robótica e automação. Combinar visão acelerada e linguagem para comandos naturais e análise contextual, tudo com latência baixa e consumo contido.
Varejo inteligente. Detecção de objetos, resumo de eventos e assistentes de atendimento offline em totens. A Hailo cita quiosques e self-checkout como vitrines de uso.
Home lab e POCs. Ideal para provar conceitos de GenAI embarcada sem depender de GPU dedicada, com custo acessível e ciclo rápido de iteração.

Conclusão

O Raspberry Pi AI HAT+ 2 marca uma virada clara, levar GenAI local ao ecossistema do Pi com uma solução pronta, 8 GB de RAM dedicados e NPU Hailo-10H. As integrações com câmera e ferramentas oficiais simplificam pipelines multimodais, e o preço de 130 dólares é competitivo para protótipos e aplicações edge que valorizam privacidade, latência e eficiência.

Os limites existem e estão bem documentados, especialmente em LLMs médios, onde um Pi 5 com 16 GB pode ser mais rápido. Ainda assim, para quem precisa de GenAI compacto, offline e com energia restrita, o Raspberry Pi AI HAT+ 2 abre oportunidades concretas. O ecossistema deve amadurecer nos próximos meses, e a tendência é vermos modelos mais robustos otimizados para esse combo de NPU com RAM dedicada.