NVIDIA Apresenta SANA-WM: Um Modelo de Mundo de Larga Escala de 2.6 Bilhões de Parâmetros Que Gera Vídeo 720p em Escala de Minutos em Uma Única GPU

Pesquisadores da NVIDIA apresentam SANA-WM, um modelo de mundo de código aberto controlado por câmera que gera vídeos de 60 segundos em 720p com controle preciso de câmera 6-DoF — treinado em 64 GPUs H100 e implementável em uma única RTX 5090. A publicação NVIDIA Apresenta SANA-WM: Um Modelo de Mundo de Larga Escala de 2.6 Bilhões de Parâmetros Que Gera Vídeo 720p em Escala de Minutos em Uma Única GPU apareceu pela primeira vez no MarkTechPost.

Modelos de mundo (sistemas que sintetizam sequências de vídeo realistas a partir de uma imagem inicial e um conjunto de ações) estão se tornando centrais para a IA incorporada, simulação e pesquisa em robótica. O principal desafio é escalar esses sistemas para gerar vídeos de alta resolução com duração de minutos, sem exigir clusters proibitivamente grandes para treinamento e inferência. A maioria das bases de código aberto competitivas exigem inferência multi-GPU ou sacrificam a resolução para permanecer dentro dos orçamentos de computação. O SANA-WM da NVIDIA visa diretamente esses gargalos. Construído na base de código SANA-Video e disponível através do repositório NVlabs/Sana no GitHub, é um Diffusion Transformer (DiT) de 2.6 bilhões de parâmetros treinado nativamente para geração de um minuto em 720p com controle de câmera 6-DoF em escala métrica. Ele suporta três variantes de inferência de GPU única: um gerador bidirecional para síntese offline de alta qualidade, um gerador autorregressivo chunk-causal para rollout sequencial e um gerador autorregressivo destilado de poucos passos para implantação mais rápida. A variante destilada remove o ruído de um clipe de 60 segundos em 720p em 34 segundos em uma única RTX 5090 com quantização NVFP4. https://arxiv.org/pdf/2605.15178 A Arquitetura: Quatro Decisões de Design Centrais 1. Atenção Linear Híbrida com Gated DeltaNet (GDN) A atenção softmax padrão tem complexidade de memória e computação que cresce quadraticamente com o comprimento da sequência — um problema sério ao gerar 961 quadros latentes para um vídeo de 60 segundos em 720p. O SANA-Video, o predecessor, usava atenção linear cumulativa baseada em ReLU, que mantém um estado recorrente de tamanho constante. No entanto, isso não tem mecanismo de decaimento: todos os quadros passados acumulam com peso igual, causando deriva em sequências de escala de minutos. O SANA-WM substitui a maioria dos blocos de atenção por Gated DeltaNet (GDN) por quadro. Ao contrário do GDN por token usado em modelos de linguagem, a variante por quadro do SANA-WM processa um quadro latente inteiro por passo recorrente. A regra de atualização do GDN incorpora um portão de decaimento γ (que diminui o peso de quadros passados obsoletos) e uma correção de regra delta (que atualiza apenas o residual entre o valor alvo e a previsão do estado atual), mantendo o estado recorrente em um tamanho constante D×D, independentemente da duração do vídeo. Para estabilizar o treinamento, a equipe de pesquisa apresenta uma abordagem algébrica de escalonamento de chaves: as chaves são escaladas por 1/√ (D·S), onde D é a dimensão da cabeça e S é o número de tokens espaciais por quadro. Isso garante que a norma espectral da matriz de transição permaneça limitada e elimina o mergulho NaN.