Conheça o OSGym: Um Novo Framework de Infraestrutura de SO que Gerencia Mais de 1.000 Réplicas a US$ 0,23/dia para Pesquisa de Agentes de Uso de Computador

Treinar agentes de IA que podem realmente usar um computador — abrindo aplicativos, clicando em botões, navegando na web, escrevendo código — é um dos problemas de infraestrutura mais difíceis da IA moderna. Não é um problema de dados. Não é um problema de modelo. É um problema de encanamento. Você precisa criar centenas, potencialmente milhares, de ambientes de sistema operacional completos com interfaces gráficas de usuário reais. Cada um precisa executar software real. Cada um precisa lidar com falhas imprevisíveis. E você precisa que todos eles funcionem simultaneamente a um custo que não leve à falência um laboratório de pesquisa universitário. Esse é o problema que o 'OSGym', uma nova pesquisa de uma equipe de pesquisadores do MIT, UIUC, CMU, USC, UVA e UC Berkeley, foi projetado para resolver. https://arxiv.org/pdf/2511.11672 O que é um Agente de Uso de Computador? Antes de desvendar a infraestrutura, é útil entender o que um agente de uso de computador realmente é. Ao contrário de um chatbot que responde a prompts de texto, um agente de uso de computador observa uma captura de tela de uma área de trabalho, decide o que fazer — clicar em um botão, digitar texto, abrir um arquivo — e executa essa ação por meio de entradas de teclado e mouse. Pense nele como uma IA que pode operar qualquer software da mesma forma que um humano faria. Modelos como o Claude Computer Use da Anthropic e o Operator da OpenAI são exemplos comerciais iniciais. Modelos de pesquisa como UI-TARS, Agent-S2 e CogAgent estão expandindo ainda mais os limites. Mas treinar qualquer um desses sistemas requer grandes quantidades de dados de interação gerados dentro de ambientes de SO reais — e é aí que as coisas ficam caras e complicadas rapidamente. O Problema Central: Sandboxes de SO em Escala Um ambiente de codificação ou um sandbox de navegador da web é relativamente leve para executar. Um sandbox de SO completo com uma GUI não é. Cada máquina virtual precisa de seu próprio disco inicializável (cerca de 24 GB), sua própria alocação de CPU e RAM e sua própria pilha de exibição. Multiplique isso por centenas ou milhares de instâncias paralelas e você terá um problema de consumo de recursos que os orçamentos de computação acadêmicos típicos simplesmente não conseguem absorver. Além dos custos de recursos, há o problema de confiabilidade. O software trava. As sessões do navegador expiram. Os aplicativos congelam. Se seu pipeline de treinamento não lidar com essas falhas de forma elegante, uma VM ruim pode atrasar um lote de treinamento inteiro. O OSGym aborda ambos os problemas com quatro otimizações arquitetônicas distintas. Gerenciamento Descentralizado do Estado do SO A primeira escolha de design refere-se a como o sistema gerencia o estado de cada réplica do SO — t