Apresentando Mellum2: Um Modelo Mixture-of-Experts de 12B da JetBrains

Apresentando Mellum2: Um Modelo Mixture-of-Experts de 12B da JetBrains

A JetBrains lançou o Mellum2, um modelo Mixture-of-Experts (MoE) com 12 bilhões de parâmetros. Este novo modelo representa um avanço significativo no campo da inteligência artificial, oferecendo maior eficiência e desempenho em comparação com modelos densos tradicionais de tamanho semelhante. O Mellum2 é projetado para otimizar a utilização de recursos computacionais, tornando-o ideal para aplicações que exigem alta capacidade de processamento com menor custo operacional.

A JetBrains, uma empresa de desenvolvimento de software amplamente conhecida, anunciou o lançamento do Mellum2, um modelo de linguagem grande (LLM) baseado na arquitetura Mixture-of-Experts (MoE) que compreende 12 bilhões de parâmetros. Esta nova abordagem à arquitetura de modelos de IA permite que o Mellum2 atinja um equilíbrio impressionante entre desempenho e eficiência computacional. Diferente dos modelos densos convencionais, onde todos os parâmetros são ativados para cada token de entrada, os modelos MoE, como o Mellum2, utilizam um 'roteador' que seleciona dinamicamente um subconjunto de 'experts' (sub-redes) para processar diferentes partes da entrada. Isso resulta em uma ativação esparsa, significando que apenas uma fração dos parâmetros totais são usados em qualquer momento, o que reduz significativamente a quantidade de computação necessária para a inferência e o treinamento. Com 12 bilhões de parâmetros, o Mellum2 promete um desempenho robusto em uma variedade de tarefas de processamento de linguagem natural (PLN), incluindo geração de texto, sumarização, tradução e análise de sentimentos. A JetBrains destaca que esta arquitetura não só melhora a eficiência, mas também permite que o modelo seja dimensionado para tamanhos muito maiores sem um aumento proporcional nos requisitos computacionais. Este lançamento demonstra o compromisso da JetBrains em contribuir para o avanço da AI, oferecendo ferramentas e modelos que impulsionam a inovação e a produtividade no desenvolvimento de software e além.

Inteligência ArtificialModelos de LinguagemJetBrains