ServiceNow Research Apresenta o EnterpriseOps-Gym: Um Benchmark de Alta Fidelidade Projetado para Avaliar o Planejamento Agente em Ambientes Empresariais Realistas

Large language models (LLMs) estão em transição de agentes conversacionais para autônomos, capazes de executar fluxos de trabalho profissionais complexos. No entanto, sua implantação em ambientes empresariais permanece limitada pela falta de benchmarks que capturem os desafios específicos de configurações profissionais: planejamento de longo horizonte, mudanças de estado persistentes e protocolos de acesso rigorosos. Para resolver isso, pesquisa

Modelos de linguagem grandes (LLMs) estão em transição de agentes conversacionais para autônomos, capazes de executar fluxos de trabalho profissionais complexos. No entanto, sua implantação em ambientes empresariais permanece limitada pela falta de benchmarks que capturam os desafios específicos de configurações profissionais: planejamento de longo horizonte, mudanças de estado persistentes e protocolos de acesso rigorosos. Para resolver isso, pesquisadores da ServiceNow Research, Mila e Université de Montréal apresentaram o EnterpriseOps-Gym, um sandbox de alta fidelidade projetado para avaliar o planejamento agente em cenários empresariais realistas. https://arxiv.org/pdf/2603.13594 O Ambiente de Avaliação O EnterpriseOps-Gym apresenta um ambiente Docker containerizado que simula oito domínios empresariais de missão crítica: Domínios Operacionais: Gestão de Atendimento ao Cliente (CSM), Recursos Humanos (HR) e Gestão de Serviços de TI (ITSM). Domínios de Colaboração: Email, Calendário, Teams e Drive. Domínio Híbrido: Tarefas interdomínios que exigem execução coordenada em múltiplos sistemas. O benchmark compreende 164 tabelas de banco de dados relacionais e 512 ferramentas funcionais. Com um grau médio de chave estrangeira de 1.7, o ambiente apresenta alta densidade relacional, forçando os agentes a navegar por complexas dependências intertabelas para manter a integridade referencial. O benchmark inclui 1.150 tarefas curadas por especialistas, com trajetórias de execução com média de 9 passos e atingindo até 34 passos. Resultados de Desempenho: Uma Lacuna de Capacidade A equipe de pesquisa avaliou 14 modelos de ponta usando uma métrica pass@1, onde uma tarefa é bem-sucedida apenas se todos os verificadores SQL baseados em resultados forem aprovados. Taxa Média de Sucesso do Modelo (%) Custo por Tarefa (USD) Claude Opus 4.5 37.4% $0.36 Gemini-3-Flash 31.9% $0.03 GPT-5.2 (Alto) 31.8% Não listado explicitamente no texto Claude Sonnet 4.5 30.9% $0.26 GPT-5 29.8% $0.16 DeepSeek-V3.2 (Alto) 24.5% $0.014 GPT-OSS-120B (Alto) 23.7% $0.015 Os resultados indicam que mesmo os modelos de última geração falham em atingir 40% de confiabilidade nesses ambientes estruturados. O desempenho é fortemente dependente do domínio; os modelos tiveram melhor desempenho em ferramentas de colaboração (Email, Teams), mas caíram significativamente em domínios com muitas políticas, como ITSM (28.5%) e fluxos de trabalho Híbridos (30.7%). Planejamento vs. Execução Uma descoberta crítica desta pesquisa é que o planejamento estratégico, em vez da invocação de ferramentas, é o principal gargalo de desempenho. A equipe de pesquisa conduziu experimentos 'Oracle' onde os agentes receberam planos elaborados por humanos. Essa intervenção imp