Conheça o AntAngelMed: um Modelo de Linguagem Médica Open-Source de 103B Parâmetros Construído em uma Arquitetura MoE com Taxa de Ativação de 1/32

A MedAIBase lançou o AntAngelMed, um modelo de linguagem médica open-source de 103B parâmetros que usa uma arquitetura Mixture-of-Experts (MoE) com taxa de ativação de 1/32 para ativar apenas 6.1B parâmetros no momento da inferência, igualando o desempenho de modelos densos de aproximadamente 40B, enquanto supera 200 tokens por segundo em hardware H20. Construído no Ling-flash-2.0 e treinado por meio de um pipeline de três estágios de treinamento contínuo.

Uma equipe de pesquisadores da China lançou o AntAngelMed, um grande modelo de linguagem médica open-source que a equipe descreve como o maior e mais capaz de sua categoria atualmente disponível. O que é o AntAngelMed? O AntAngelMed é um modelo de linguagem de domínio médico com um total de 103 bilhões de parâmetros, mas ele não ativa todos esses parâmetros durante a inferência. Em vez disso, ele usa uma arquitetura Mixture-of-Experts (MoE) com uma taxa de ativação de 1/32, o que significa que apenas 6.1 bilhões de parâmetros estão ativos a qualquer momento ao processar uma consulta. É útil saber como as arquiteturas MoE funcionam. Em um modelo denso padrão, cada parâmetro participa do processamento de cada token. Em um modelo MoE, a rede é dividida em muitas sub-redes 'especialistas', e um mecanismo de roteamento seleciona apenas um pequeno subconjunto delas para lidar com cada entrada. Isso permite ter uma contagem total de parâmetros muito grande – que geralmente se correlaciona com uma forte capacidade de conhecimento – enquanto mantém o custo computacional real da inferência proporcional à menor contagem de parâmetros ativos. O AntAngelMed herda esse design do Ling-flash-2.0, um modelo base desenvolvido pela inclusionAI e guiado pelo que a equipe chama de Ling Scaling Laws. As otimizações específicas adicionadas incluem: granularidade de especialista refinada, uma taxa de especialista compartilhado ajustada, mecanismos de balanceamento de atenção, roteamento sigmoidal sem perda auxiliar, uma camada MTP (Multi-Token Prediction), QK-Norm e Partial-RoPE (Rotary Position Embedding aplicada a um subconjunto de heads de atenção em vez de todos eles). De acordo com a equipe de pesquisa, essas escolhas de design juntas permitem que modelos MoE de pequena ativação ofereçam até 7× mais eficiência em comparação com arquiteturas densas de tamanho semelhante, o que significa que, com apenas 6.1B parâmetros ativados, o AntAngelMed pode igualar o desempenho de um modelo denso de aproximadamente 40B. Separadamente, à medida que o comprimento da saída aumenta durante a inferência, a vantagem de velocidade relativa também pode atingir 7× ou mais em relação a modelos densos de tamanho comparável. https://modelscope.cn/models/MedAIBase/AntAngelMed Pipeline de Treinamento O AntAngelMed usa um processo de treinamento de três estágios projetado para sobrepor o entendimento geral da linguagem à adaptação profunda do domínio médico. O primeiro estágio é o pré-treinamento contínuo em grandes corpora médicas, incluindo enciclopédias, textos da web e publicações acadêmicas. Esta fase é construída sobre o checkpoint Ling-flash-2.0, dando ao modelo uma forte base de raciocínio geral antes do início da especialização médica. O segundo estágio é o Supervised Fine-Tu