Nous Research Lança Treinamento de Superposição de Tokens para Acelerar o Pré-Treinamento de LLMs em Até 2,5x em Modelos de 270M a 10B de Parâmetros

A Nous Research lança o Token Superposition Training (TST), um método de pré-treinamento de duas fases que reduz o tempo de treinamento de parede em até 2,5x em FLOPs correspondentes, fazendo a média de embeddings de tokens contíguos em 'bags' durante a Fase 1 e revertendo para a previsão de próximo token padrão na Fase 2 — sem alterar a arquitetura do modelo, tokenizador, otimizador ou comportamento em tempo de inferência. Validado em 270M, 600M,

O pré-treinamento de grandes LLMs é caro o suficiente para que até mesmo melhorias modestas de eficiência possam se traduzir em economias significativas de custo e tempo. A Nous Research está lançando o Token Superposition Training (TST), um método que reduz substancialmente o tempo de pré-treinamento em tempo de parede com computação fixa, sem tocar na arquitetura do modelo, otimizador, tokenizador, estratégia de paralelismo ou dados de treinamento. Na escala de mixture-of-experts 10B-A1B, o TST atinge uma perda de treinamento final menor do que uma linha de base com FLOPs correspondentes, consumindo 4.768 horas de B200-GPU versus as 12.311 da linha de base — aproximadamente uma redução de 2,5 vezes no tempo total de pré-treinamento. https://arxiv.org/pdf/2605.06546 O Problema que o TST Está Resolvendo O pré-treinamento moderno de LLMs é fortemente orientado por dados. Regimes de treinamento recentes rotineiramente supertreinam muito além das estimativas ótimas de computação e do throughput bruto de texto. Quanta data um modelo pode processar por FLOP se tornou uma alavanca chave. Tokenizadores subpalavra como BPE já melhoram o throughput ao comprimir sequências; e a pesquisa sugere que grande parte da vantagem do BPE sobre modelos de nível de byte vem simplesmente de sequências mais curtas, o que significa que o modelo vê mais texto por unidade de computação. O TST pergunta se essa alavanca de throughput pode ser puxada ainda mais durante o treinamento, independentemente do tokenizador e sem alterar permanentemente o modelo. Como o TST Funciona: Duas Fases O TST modifica o loop de pré-treinamento padrão em duas fases sequenciais: Fase 1 — Superposição: Para a primeira fração r do total de etapas de treinamento (o artigo mostra que r ∈ [0.2, 0.4] está próximo do ideal em todas as escalas testadas), o modelo não recebe tokens individuais. Em vez disso, a sequência de entrada de comprimento L é segmentada em 'bags' não sobrepostas de s tokens contíguos. Na camada de embedding, cada 'bag' é colapsada em um único 's-token' latente, fazendo a média dos s embeddings de tokens. O transformer então processa uma sequência de comprimento L/s. Crucialmente, cada etapa do TST é mantida com FLOPs iguais a uma etapa de treinamento padrão, aumentando o comprimento da sequência de dados em s vezes durante a fase de superposição. Como cada posição latente corresponde a s tokens-fonte, o modelo ingere s vezes mais texto por unidade de computação — é isso que impulsiona o ganho de throughput. No lado da saída, cada posição latente prevê a próxima 'bag' de s tokens, em vez de um único próximo token. A perda de entropia cruzada padrão é substituída por uma perda de entropia cruzada multi-hot (MCE), que atribui massa de probabilidade igual de 1/s a cada token na 'bag' alvo. O MCE l