Em Direção à Geração de Texto na Velocidade da Luz com Modelos de Linguagem por Difusão Nemotron-Labs

Apresentamos uma nova família de modelos de linguagem (LLMs) por difusão que abordam importantes desafios na IA generativa.

Apresentamos uma nova família de modelos de linguagem (LLMs) por difusão que abordam importantes desafios na IA generativa e na geração de texto, especificamente abordando as altas demandas de recursos computacionais para inferência. Modelos de difusão têm sido amplamente bem-sucedidos em IA generativa, como na geração de imagens e áudio. Recentemente, eles têm sido explorados para geração de texto, oferecendo promessas significativas em áreas como a capacidade de gerar texto a partir de prompts mais ricos, maior controle granular sobre o estilo e conteúdo do texto gerado e maior diversidade do texto gerado. No entanto, os LLMs de difusão atuais ainda estão nos estágios iniciais de desenvolvimento para aplicações práticas no mundo real, devido ao seu lento tempo de inferência e ao elevado custo computacional. Neste artigo, apresentamos uma nova família de LLMs de difusão com um mecanismo de inferência de um passo que permite a geração de texto em tempo quase real para aplicativos de produção. Nosso modelo supera a inferência mais rápida de LLMs autorregressivos (AR-LLM), que exibem inferência incremental, em quase 2x para modelos de parâmetro comparável, abrindo caminho para velocidades de geração literalmente na velocidade da luz. Realizamos experimentos em vários conjuntos de dados de geração de texto, incluindo conjuntos de dados de resposta a perguntas, resumo e tradução, e fornecemos extensas análises sobre compensações de desempenho e qualidade em comparação com LLMs autorregressivos.