Zyphra Lança ZAYA1-8B-Diffusion-Preview: O Primeiro Modelo de Difusão MoE Convertido de um LLM Autoregressivo com Aceleração de Até 7,7x

O mais recente lançamento da Zyphra mostra que um modelo MoE autoregressivo pode ser convertido em um modelo de difusão discreto sem perda sistemática no desempenho de avaliação. O ZAYA1-8B-Diffusion-Preview alcança uma aceleração de inferência de até 7,7x em relação à autoregressão, mudando a decodificação de vinculada à largura de banda da memória para vinculada à computação — uma vantagem fundamental, pois as GPUs modernas continuam escalando FLOPs mais rapidamente que a largura de banda da memória.

A Zyphra, o laboratório de IA com sede em São Francisco por trás da família de modelos ZAYA1, lançou o ZAYA1-8B-Diffusion-Preview — uma prévia de seu trabalho inicial em modelos de linguagem de difusão. O lançamento demonstra que um modelo de linguagem autoregressivo existente pode ser convertido em um modelo de difusão discreto sem perda sistemática de desempenho de avaliação, ao mesmo tempo em que oferece substanciais acelerações de inferência em hardware AMD. https://www.zyphra.com/post/zaya1-8b-diffusion-preview O Problema com a Decodificação Autoregressiva Para entender por que isso é importante, ajuda primeiro a entender como a maioria dos modelos de linguagem gera texto hoje. Os grandes modelos de linguagem padrão são autoregressivos: eles decodificam um token por vez em sequência. Para cada novo token, o mecanismo de atenção precisa olhar para todos os tokens gerados anteriormente e carregar suas representações armazenadas — chamadas KV-cache — da memória da GPU. Crucialmente, como cada usuário em um lote tem um histórico diferente de tokens, o KV-cache de cada usuário deve ser carregado separadamente e não pode ser compartilhado entre as solicitações. Isso cria um gargalo. Quando a GPU gasta mais tempo movendo dados da memória do que realizando computação real, o sistema se torna limitado pela largura de banda da memória em vez de limitado pela computação (compute-bound). Isso limita a eficiência com que o hardware de GPU moderno — que tem escalado os FLOPs de computação mais rapidamente que a largura de banda da memória — pode ser usado durante a inferência. A difusão oferece uma alternativa. Em vez de gerar um token por vez, um modelo de difusão gera múltiplos rascunhos de N tokens simultaneamente e itera esse processo de rascunho várias vezes. Como todos os N tokens no bloco compartilham o mesmo KV-cache, a operação muda de limitada pela largura de banda da memória para limitada pela computação, o que significa que a GPU pode ser utilizada de forma mais eficiente. No ZAYA1-8B-Diffusion-Preview especificamente, o modelo realiza uma transformação em uma única etapa de máscara para token para cada token no bloco — o que significa que ele prevê diretamente o token não mascarado em uma única etapa, em vez de denoising iterativamente. Convertendo Autoregressão para Difusão Sem Treinar do Zero Treinar um modelo de linguagem de difusão do zero é tecnicamente difícil, e há poucas receitas estabelecidas para fazê-lo. A equipe Zyphra oferece duas razões para preferir a conversão em vez de treinar do zero: primeiro, é simplesmente difícil, com poucas receitas conhecidas; segundo, não há vantagem em treinar no modo de difusão porque o treinamento já é limitado pela computação — o gargalo da largura de banda da memória que a difusão resolve só aparece na inf