NVIDIA AI Apresenta o PivotRL: Um Novo Framework de IA que Alcança Alta Precisão Agêntica com 4 Vezes Menos Etapas de Rollout e Eficiência

O pós-treinamento de Large Language Models (LLMs) para tarefas agênticas de longo prazo — como engenharia de software, navegação na web e uso complexo de ferramentas — apresenta uma eterna troca entre eficiência computacional e generalização do modelo. Embora o Supervised Fine-Tuning (SFT) seja computacionalmente barato, ele frequentemente sofre degradação de desempenho fora do domínio (OOD) e tem dificuldade para generalizar além de sua distribuição de treinamento. Por outro lado, o reinforcement learning de ponta a ponta (E2E RL) geralmente preserva as capacidades OOD e alcança alta precisão dentro do domínio, mas incorre em custos computacionais massivos devido à necessidade de rollouts on-policy repetidos e de muitas etapas para cada atualização de parâmetro. Pesquisadores da NVIDIA introduziram o PivotRL, um framework projetado para preencher essa lacuna. Operando em trajetórias SFT existentes, o PivotRL visa fornecer os benefícios de generalização do E2E RL, mantendo a eficiência de dados associada ao SFT. A Arquitetura de um Pivô O cerne do PivotRL é a transição de rollouts de trajetória completa para atualizações direcionadas em nível de etapa. O framework identifica e utiliza dois mecanismos principais: Filtragem de Pivô e Recompensas Funcionais. 1. Filtragem de Pivô No treinamento agêntico em nível de passo, cada conclusão do assistente em um limite de chamada de modelo é considerada uma ação. O PivotRL começa extraindo todas as etapas do assistente de um conjunto de dados SFT em um pool de 'candidatos a pivô'. O sistema então perfila esses candidatos offline usando uma política de referência congelada, π0. Para otimizar o orçamento de treinamento, o PivotRL filtra os pivôs: estados específicos onde os rollouts on-policy locais exibem alta variância nos resultados. Os critérios de filtragem são definidos por duas condições: Variância de recompensa empírica diferente de zero: σ^2(s) > 0. Média de recompensa baixa: μ^(s) < λdiff Essa abordagem aborda o gargalo de etapas não informativas. No RL normalizado por grupo — especificamente Group Relative Policy Optimization (GRPO) — etapas onde as ações uniformemente sucedem ou uniformemente falham resultam em uma vantagem normalizada de zero, não fornecendo nenhuma atualização de gradiente significativa. Ao focar em etapas de resultados mistos que permanecem difíceis para a política de referência, o PivotRL concentra o cálculo em estados que fornecem o sinal de aprendizado mais forte. 2. Implementação de Recompensas Funcionais Adaptações padrão de SFT para RL frequentemente dependem de correspondência exata de strings com os dados de demonstração para atribuir recompensas. No entanto, em espaços de ação generativos (e.