NVIDIA AI Apresenta o Agente ProRL: Uma Infraestrutura Desacoplada de Rollout-as-a-Service para Aprendizado por Reforço de Agentes LLM Multi-Turn em Escala

Pesquisadores da NVIDIA apresentaram o AGENTE ProRL, uma infraestrutura escalável projetada para o treinamento de aprendizado por reforço (RL) de agentes LLM multi-turn. Ao adotar a filosofia de 'Rollout-as-a-Service', o sistema desacopla a orquestração de rollout agêntico do loop de treinamento. Essa mudança arquitetônica aborda os conflitos inerentes de recursos entre interações com o ambiente intensivas em I/O e atualizações de políticas intensivas em GPU que atualmente estrangulam o desenvolvimento de agentes. O Problema Central: Acoplamento Rígido Tarefas de agentes multi-turn envolvem interagir com ambientes externos, como repositórios de código ou sistemas operacionais, por meio do uso iterativo de ferramentas. Muitos frameworks existentes – incluindo SkyRL, VeRL-Tool, Agent Lightning, rLLM e GEM – incorporam o controle de rollout diretamente no processo de treinamento. Esse acoplamento rígido leva a duas limitações primárias: Requisitos de Sistema Conflitantes: Rollouts são limitados por I/O, exigindo criação de sandbox, sessões de ferramentas de longa duração e coordenação assíncrona. O treinamento é intensivo em GPU, centrado em passes de forward/backward e sincronização de gradiente. Executar ambos em um único processo causa interferência e reduz a eficiência do hardware. Barreiras de Manutenção: Incorporar a lógica de rollout no treinador dificulta a migração para diferentes backends de treinamento ou o suporte a novos ambientes de tempo de execução sem re-implementar o pipeline de execução. https://arxiv.org/pdf/2603.18815 Design do Sistema: Rollout-as-a-Service O AGENTE ProRL opera como um serviço HTTP autônomo que gerencia o ciclo de vida completo do rollout. O treinador de RL interage com o servidor exclusivamente por meio de uma API, permanecendo alheio à infraestrutura de rollout subjacente. Pipeline Assíncrono de Três Estágios Para maximizar o throughput, o servidor orquestra rollouts através de uma 'linha de montagem' assíncrona de três estágios: INIT: Os workers de inicialização ativam contêineres de sandbox e configuram ferramentas. RUN: Os workers de rollout impulsionam o loop do agente multi-turn e coletam trajetórias. EVAL: Os workers de avaliação pontuam os resultados em relação à verdade por correspondência para produzir sinais de recompensa. Ao atribuir cada estágio a um pool de workers independente, o AGENTE ProRL permite que as fases se sobreponham em diferentes trabalhos, evitando que avaliações lentas (como execuções completas de suítes de teste) paralisem o processo de rollout. https://arxiv.org/pdf/2603.18815 Sandboxing Compatível com HPC e Ferramentas Otimizadas O AGENTE ProRL utiliza Singularity para sua infraestrutura de sandbox. Ao contrário das plataformas baseadas em Docker, o Singularity permite a execução sem root, o que e