NVIDIA Lança Nemotron-Cascade 2: Um MoE Aberto de 30B com 3B de Parâmetros Ativos, Oferecendo Melhor Raciocínio e Fortes Capacidades Agentivas

A NVIDIA anunciou o lançamento do Nemotron-Cascade 2, um modelo de código aberto Mixture-of-Experts (MoE) de 30B com 3B de parâmetros ativados. O modelo foca em maximizar a 'densidade de inteligência', entregando capacidades avançadas de raciocínio com uma fração da escala de parâmetros usada por modelos de ponta. O Nemotron-Cascade 2 é o segundo LLM de código aberto a alcançar desempenho de nível Medalha de Ouro na Olimpíada Internacional de Matemática (IMO) de 2025, na Olimpíada Internacional de Informática (IOI) e nas Finais Mundiais do ICPC. https://research.nvidia.com/labs/nemotron/files/Nemotron-Cascade-2.pdf Desempenho Direcionado e Trade-offs Estratégicos A principal proposta de valor do Nemotron-Cascade 2 é seu desempenho especializado em raciocínio matemático, codificação, alinhamento e instrução. Embora alcance resultados de ponta nesses domínios chave intensivos em raciocínio, não é certamente uma 'vitória abrangente' em todos os benchmarks. O desempenho do modelo se destaca em várias categorias direcionadas em comparação com o recentemente lançado Qwen3.5-35B-A3B (fevereiro de 2026) e o maior Nemotron-3-Super-120B-A12B: Raciocínio Matemático: Supera o Qwen3.5-35B-A3B no AIME 2025 (92.4 vs. 91.9) e no HMMT Feb25 (94.6 vs. 89.0). Codificação: Lidera no LiveCodeBench v6 (87.2 vs. 74.6) e no IOI 2025 (439.28 vs. 348.6+). Alinhamento e Seguir Instruções: Pontua significativamente mais alto no ArenaHard v2 (83.5 vs. 65.4+) e no IFBench (82.9 vs. 70.2). https://research.nvidia.com/labs/nemotron/files/Nemotron-Cascade-2.pdf Arquitetura Técnica: Cascade RL e Multi-domain On-Policy Distillation (MOPD) As capacidades de raciocínio do modelo derivam de sua pipeline de pós-treinamento, começando pelo modelo base Nemotron-3-Nano-30B-A3B-Base. 1. Fine-Tuning Supervisionado (SFT) Durante o SFT, a equipe de pesquisa da NVIDIA utilizou um dataset meticulosamente curado, onde as amostras foram empacotadas em sequências de até 256K tokens. O dataset incluiu: 1.9M de rastros de raciocínio em Python e 1.3M de amostras de chamada de ferramentas em Python para codificação competitiva. 816K amostras para provas de linguagem natural matemática. Uma mistura especializada de Engenharia de Software (SWE) consistindo de 125K amostras agentivas e 389K amostras não-agentivas. 2. Reinforcement Learning em Cascata Após o SFT, o modelo passou por Cascade RL, que aplica treinamento sequencial e por domínio. Isso previne o esquecimento catastrófico, permitindo que os hiperparâmetros sejam adaptados a domínios específicos sem desestabilizar outros. A pipeline inclui estágios para seguir instruções (I