Do RTX ao Spark: NVIDIA Acelera Gemma 4 para AI Agente Local

Modelos abertos estão impulsionando uma nova onda de IA on-device, estendendo a inovação além da nuvem para dispositivos do dia a dia. À medida que esses modelos avançam, seu valor depende cada vez mais do acesso a contexto local e em tempo real que pode transformar insights significativos em ação. Projetadas para essa mudança, as mais recentes adições do Google à família Gemma 4 introduzem uma classe de modelos pequenos, rápidos e onicompetentes, construídos para execução local eficiente em uma ampla gama de dispositivos. Google e NVIDIA colaboraram para otimizar o Gemma 4 para GPUs NVIDIA, permitindo desempenho eficiente em uma variedade de sistemas — desde implementações em data center até PCs e workstations equipados com NVIDIA RTX, o supercomputador de IA pessoal NVIDIA DGX Spark e módulos NVIDIA Jetson Orin Nano edge AI. Gemma 4: Modelos Compactos Otimizados para GPUs NVIDIA As mais recentes adições à família Gemma 4 de modelos abertos — abrangendo variantes E2B, E4B, 26B e 31B — são projetadas para implementação eficiente de dispositivos de borda a GPUs de alto desempenho. Todas as configurações medidas usando quantizações Q4_K_M BS = 1, ISL = 4096 e OSL = 128 em desktops NVIDIA GeForce RTX 5090 e Mac M3 Ultra. A taxa de transferência de geração de tokens foi medida no llama.cpp b7789, usando a ferramenta llama-bench. Esta nova geração de modelos compactos suporta uma variedade de tarefas, incluindo: Raciocínio: Forte desempenho em tarefas complexas de resolução de problemas. Codificação: Geração e depuração de código para fluxos de trabalho de desenvolvedores. Agente: Suporte nativo para uso estruturado de ferramentas (function calling). Recursos de Visão, Vídeo e Áudio: Permite interações multimodais ricas para reconhecimento de objetos, reconhecimento automático de fala e inteligência de documentos ou vídeos. Entrada Multimodal Intercalada: Misture texto e imagens em qualquer ordem em um único prompt. Multilíngue: Suporte imediato para mais de 35 idiomas, pré-treinado em mais de 140 idiomas. Os modelos E2B e E4B são construídos para inferência ultraeficiente e de baixa latência na borda, rodando completamente offline com latência quase zero em muitos dispositivos, incluindo módulos Jetson Nano. Os modelos de 26B e 31B são projetados para raciocínio de alto desempenho e fluxos de trabalho centrados no desenvolvedor, tornando-os adequados para AI agente. Otimizados para oferecer raciocínio de última geração e acessível, esses modelos rodam eficientemente em GPUs NVIDIA RTX e DGX Spark — impulsionando ambientes de desenvolvimento, assistentes de codificação e fluxos de trabalho orientados por agentes. À medida que a AI agente local continua a ganhar impulso, aplicativos como o OpenClaw estão permitindo assistentes de IA 'sempre ativos' em PCs RTX, workstations e DGX.