Nova técnica torna modelos de IA mais enxutos e rápidos enquanto ainda estão aprendendo

Pesquisadores usam a teoria de controle para eliminar a complexidade desnecessária de modelos de IA durante o treinamento, reduzindo os custos de computação sem sacrificar o desempenho.

Treinar um grande modelo de inteligência artificial é caro, não apenas em dólares, mas em tempo, energia e recursos computacionais. Tradicionalmente, obter um modelo menor e mais rápido exige treinar um gigantesco primeiro e depois reduzi-lo, ou treinar um pequeno do zero e aceitar um desempenho mais fraco.

Pesquisadores do Computer Science and Artificial Intelligence Laboratory (CSAIL) do MIT, do Max Planck Institute for Intelligent Systems, do European Laboratory for Learning and Intelligent Systems, da ETH e da Liquid AI desenvolveram agora um novo método que evita essa troca inteiramente, comprimindo modelos durante o treinamento, em vez de depois.

A técnica, chamada CompreSSM, visa uma família de arquiteturas de IA conhecida como modelos de espaço de estados, que alimentam aplicações que vão desde o processamento de linguagem até a geração de áudio e robótica. Ao usar ferramentas matemáticas da teoria de controle, os pesquisadores podem identificar quais partes de um modelo estão contribuindo e quais são peso morto, antes de remover cirurgicamente os componentes desnecessários no início do processo de treinamento.

"É essencialmente uma técnica para fazer os modelos ficarem menores e mais rápidos à medida que estão treinando", diz Makram Chahine, estudante de doutorado em engenharia elétrica e ciência da computação, afiliado ao CSAIL e principal autor do artigo. "Durante o aprendizado, eles também estão se livrando de partes que não são úteis para o seu desenvolvimento."

A principal sacada é que a importância relativa de diferentes componentes dentro desses modelos se estabiliza surpreendentemente cedo durante o treinamento. Usando uma quantidade matemática chamada valores singulares de Hankel, que medem o quanto cada estado interno contribui para o comportamento geral do modelo, a equipe mostrou que eles podem classificar de forma confiável quais dimensões importam e quais não importam depois de apenas cerca de 10% do processo de treinamento. Uma vez estabelecidas essas classificações, os componentes menos importantes podem ser descartados com segurança, e os 90% restantes do treinamento prosseguem na velocidade de um modelo muito menor.

"O que é empolgante neste trabalho é que ele transforma a compressão de um segundo plano