Liquid AI Lança LFM2.5-VL-450M: Um Modelo Visão-Linguagem de 450M de Parâmetros com Predição de Bounding Box, Suporte Multilíngue e Inferência Edge Abaixo de 250ms

A Liquid AI acaba de lançar o LFM2.5-VL-450M, uma versão atualizada de seu modelo de visão-linguagem anterior, o LFM2-VL-450M. A nova versão introduz previsão de bounding box, melhoria no seguimento de instruções, compreensão multilíngue expandida e suporte a chamada de função — tudo isso dentro de uma pegada de 450M de parâmetros projetada para rodar diretamente em hardware de edge, desde módulos de AI embarcada como o NVIDIA Jetson Orin, até APUs de mini-PC como o AMD Ryzen AI Max+ 395, e SoCs de celular premium como o Snapdragon 8 Elite dentro do Samsung S25 Ultra. O que é um Modelo Visão-Linguagem e Por Que o Tamanho do Modelo Importa Antes de aprofundar, é útil entender o que é um modelo visão-linguagem (VLM). Um VLM é um modelo que pode processar imagens e texto juntos — você pode enviar uma foto e fazer perguntas sobre ela em linguagem natural, e ele responderá. A maioria dos VLMs grandes exige memória substancial de GPU e infraestrutura de nuvem para funcionar. Isso é um problema para cenários de implantação no mundo real, como robôs de armazém, óculos inteligentes ou câmeras de prateleira de varejo, onde a computação é limitada e a latência deve ser baixa. O LFM2.5-VL-450M é a resposta da Liquid AI a essa restrição: um modelo pequeno o suficiente para caber em hardware de edge, ao mesmo tempo em que oferece um conjunto significativo de recursos de visão e linguagem. Arquitetura e Treinamento O LFM2.5-VL-450M usa o LFM2.5-350M como seu backbone de modelo de linguagem e o SigLIP2 NaFlex shape-optimized 86M como seu codificador de visão. A janela de contexto é de 32.768 tokens com um tamanho de vocabulário de 65.536. Para o tratamento de imagens, o modelo suporta processamento de resolução nativa de até 512×512 pixels sem upscaling, preserva proporções não padrão sem distorção e usa uma estratégia de tiling que divide imagens grandes em patches não sobrepostos de 512×512, incluindo codificação de miniaturas para contexto global. A codificação de miniaturas é importante: sem ela, o tiling daria ao modelo apenas patches locais sem senso da cena geral. No momento da inferência, os usuários podem ajustar o número máximo de tokens de imagem e a contagem de tiles para um tradeoff entre velocidade e qualidade sem necessidade de retreinamento, o que é útil ao implantar em hardware com diferentes orçamentos de computação. Os parâmetros de geração recomendados da Liquid AI são temperature=0.1, min_p=0.15 e repetition_penalty=1.05 para texto, e min_image_tokens=32, max_image_tokens=256 e do_image_splitting=True para entradas de visão. No lado do treinamento, a Liquid AI aumentou o pré-treinamento de 10T para 28T tokens em comparação com o LFM2-VL-450M, seguido por pós-treinamento usando otimização de preferência.