RightNow AI lança AutoKernel: Um Framework de Código Aberto que Aplica um Loop de Agente Autônomo para Otimização de Kernels de GPU para Modelos PyTorch Arbitrários
Escrever código rápido para GPU é uma das especializações mais extenuantes na engenharia de machine learning. Pesquisadores da RightNow AI querem automatizá-lo completamente. A equipe de pesquisa da RightNow AI lançou o AutoKernel, um framework de código aberto que aplica um loop de agente LLM autônomo para otimização de kernels de GPU para modelos PyTorch arbitrários. A abordagem é direta: dê […] O post RightN
Escrever código rápido para GPU é uma das especializações mais extenuantes na engenharia de machine learning. Pesquisadores da RightNow AI querem automatizá-lo completamente. A equipe de pesquisa da RightNow AI lançou o AutoKernel, um framework de código aberto que aplica um loop de agente LLM autônomo para otimização de kernels de GPU para modelos PyTorch arbitrários. A abordagem é direta: dê a ele qualquer modelo antes de ir para a cama, e acorde com kernels Triton mais rápidos — sem necessidade de expertise em GPU. https://arxiv.org/pdf/2603.21331 Por Que Kernels de GPU São Tão Difíceis de Otimizar Um kernel de GPU é uma função que é executada em paralelo em milhares de núcleos de GPU. Ao executar um modelo transformador como LLaMA ou GPT-2, a maior parte do tempo de computação é gasta dentro de kernels para operações como multiplicação de matrizes (matmul), softmax, normalização de camadas e atenção. Esses kernels residem em bibliotecas como cuBLAS e cuDNN, ou são gerados automaticamente pelo pipeline de compilação do PyTorch. O problema é que extrair o desempenho máximo desses kernels requer raciocinar simultaneamente sobre intensidade aritmética, coalescência de memória, pressão de registradores, tamanhos de blocos (tile sizes), sincronização em nível de warp e seleção de instruções de tensor core — uma combinação de habilidades que leva anos para se desenvolver. Um único kernel matmul de alto desempenho pode envolver mais de 200 linhas de código CUDA ou Triton com dezenas de parâmetros interdependentes. Essa expertise é escassa, e o processo de ajuste manual escala mal à medida que as arquiteturas dos modelos evoluem. O conjunto de benchmarks KernelBench, que avalia LLMs de ponta em 250 problemas de kernel de GPU, descobriu que mesmo os melhores modelos igualaram o desempenho de linha de base do PyTorch em menos de 20% dos casos usando geração one-shot. O AutoKernel foi construído diretamente em resposta a essa lacuna. O Loop: Editar, Benchmark, Manter ou Reverter A principal sacada do AutoKernel é que o fluxo de trabalho de um engenheiro de kernel especialista é, em si, um loop simples: escrever um candidato, testá-lo (benchmark), manter as melhorias, descartar as regressões, repetir. O framework mecaniza esse loop. Um agente LLM modifica um único arquivo — kernel.py — um harness de benchmark fixo verifica a correção e mede o throughput, e o resultado determina se a mudança persiste. Crucialmente, cada experimento é mapeado para um commit git. Experimentos mantidos avançam o branch; experimentos revertidos são apagados limpamnete com git reset. Todo o histórico é navegável com ferramentas git padrão, e os resultados dos experimentos são registrados em um arquivo results.tsv simples, separado por tabulações — sem dependências, hu
