Pesquisadores do MIT, NVIDIA e Universidade de Zhejiang Propõem TriAttention: Um Método de Compressão de Cache KV Que se Equipara à Atenção Completa com Vazão 2,5 Vezes Maior

O raciocínio de cadeia longa é uma das tarefas mais intensas em termos de computação nos modelos de linguagem grande modernos. Quando um modelo como DeepSeek-R1 ou Qwen3 resolve um problema matemático complexo, ele pode gerar dezenas de milhares de tokens antes de chegar a uma resposta. Cada um desses tokens deve ser armazenado no que é chamado de cache KV — uma estrutura de memória que armazena os vetores Key e Value que o modelo precisa para 'atender' durante a geração. Quanto mais longa a cadeia de raciocínio, maior o cache KV se torna, e para muitos cenários de implantação, especialmente em hardware de consumidor, esse crescimento eventualmente esgota completamente a memória da GPU. Uma equipe de pesquisadores do MIT, NVIDIA e Zhejiang University propôs um método chamado TriAttention que aborda diretamente esse problema. No benchmark de raciocínio matemático AIME25 com geração de 32K tokens, o TriAttention iguala a precisão da Atenção Completa, enquanto alcança uma vazão 2,5 vezes maior ou uma redução de 10,7 vezes na memória KV. As linhas de base líderes alcançam apenas cerca de metade da precisão no mesmo nível de eficiência. https://arxiv.org/pdf/2604.04921 O Problema com a Compressão Existente de Cache KV Para entender a importância do TriAttention, é útil compreender a abordagem padrão para compressão de cache KV. A maioria dos métodos existentes — incluindo SnapKV, H2O e R-KV — funciona estimando quais tokens no cache KV são importantes e removendo os restantes. A importância é tipicamente estimada observando as pontuações de atenção: se uma chave recebe alta atenção de consultas recentes, ela é considerada importante e mantida. A questão é que esses métodos operam no que a equipe de pesquisa chama de espaço pós-RoPE. RoPE, ou Rotary Position Embedding, é o esquema de codificação posicional usado pela maioria dos LLMs modernos, incluindo Llama, Qwen e Mistral. O RoPE codifica a posição rotacionando os vetores Query e Key de forma dependente da frequência. Como resultado, um vetor de consulta na posição 10.000 é muito diferente da mesma consulta semântica na posição 100, porque sua direção foi rotacionada pela codificação de posição. Essa rotação significa que apenas as consultas geradas mais recentemente têm orientações que estão 'atualizadas' para estimar quais chaves são importantes no momento. Trabalhos anteriores confirmaram isso empiricamente: aumentar a janela de observação para estimativa de importância não ajuda — o desempenho atinge o pico em torno de 25 consultas e diminui depois disso. Com uma janela tão pequena, algumas chaves que se tornarão importantes mais tarde são removidas permanentemente. Esse problema é especialmente agudo para o que