Liquid AI Lança LFM2.5-350M: Um Modelo Compacto de 350M de Parâmetros Treinado em 28T Tokens com Aprendizado por Reforço Escalonado

Liquid AI Lança LFM2.5-350M: Um Modelo Compacto de 350M de Parâmetros Treinado em 28T Tokens com Aprendizado por Reforço Escalonado

No cenário atual da IA generativa, as 'leis de escalonamento' geralmente ditam que mais parâmetros equivalem a mais inteligência. No entanto, a Liquid AI está desafiando essa convenção com o lançamento do LFM2.5-350M. Este modelo é, na verdade, um estudo de caso técnico em densidade de inteligência com pré-treinamento adicional (de 10T para 28T tokens) e aprendizado por reforço em larga escala. [&#823

No cenário atual da IA generativa, as 'leis de escalonamento' geralmente ditam que mais parâmetros equivalem a mais inteligência. No entanto, a Liquid AI está desafiando essa convenção com o lançamento do LFM2.5-350M. Este modelo é, na verdade, um estudo de caso técnico em densidade de inteligência com pré-treinamento adicional (de 10T para 28T tokens) e aprendizado por reforço em larga escala. A significância do LFM2.5-350M reside em sua arquitetura e eficiência de treinamento. Enquanto a maioria das empresas de IA tem focado em modelos de fronteira, a Liquid AI está mirando nos 'dispositivos de borda' – aqueles com memória e capacidade de computação limitadas – provando que um modelo de 350 milhões de parâmetros pode superar modelos com mais que o dobro de seu tamanho em diversos benchmarks avaliados. https://www.liquid.ai/blog/lfm2-5-350m-no-size-left-behind Arquitetura: O Backbone Híbrido LIV O principal diferencial técnico do LFM2.5-350M é sua partida da arquitetura Transformer pura. Ele utiliza uma estrutura híbrida construída com Sistemas Lineares de Entrada Variável (LIVs). Os Transformers tradicionais dependem inteiramente de mecanismos de autoatenção, que sofrem com problemas de escalonamento quadrático: à medida que a janela de contexto cresce, os requisitos de memória e computação para o cache Key-Value (KV) aumentam. A Liquid AI aborda isso usando um backbone híbrido que consiste em: 10 Blocos de Convolução LIV de Duplo Gating: Estes lidam com a maior parte do processamento de sequência. Os LIVs funcionam de forma semelhante a Redes Neurais Recorrentes (RNNs) avançadas, mas são projetados para serem mais paraleláveis e estáveis durante o treinamento. Eles mantêm uma memória de estado constante, reduzindo a sobrecarga de E/S. 6 Blocos de Atenção de Consulta Agrupada (GQA): Ao integrar um pequeno número de blocos de atenção, o modelo retém recuperação de alta precisão e manipulação de contexto de longo alcance sem a sobrecarga de memória total de um Transformer padrão. Essa abordagem híbrida permite que o LFM2.5-350M suporte uma janela de contexto de 32k (32.768 tokens) enquanto mantém uma pegada de memória extremamente enxuta. Desempenho e Densidade de Inteligência O LFM2.5-350M foi pré-treinado em 28 trilhões de tokens com uma relação treinamento-parâmetro extremamente alta. Isso garante que a contagem limitada de parâmetros do modelo seja utilizada em seu potencial máximo, resultando em alta 'densidade de inteligência'. Benchmarks e Casos de Uso O LFM2.5-350M é um modelo especialista projetado para tarefas rápidas e agênticas, em vez de raciocínio de propósito geral. Pontuação do Benchmark IFEval (Seguimento de Instruções) 76,96 GPQA Diamond 30,64

modelos de linguagemIA generativapesquisa em IA