Z.AI Apresenta GLM-5.1: Um Modelo Agente de Open-Weight 754B que Alcança SOTA no SWE-Bench Pro e Sustenta Execução Autônoma de 8 Horas

A Z.AI, a plataforma de IA desenvolvida pela equipe por trás da família de modelos GLM, lançou o GLM-5.1 — seu modelo carro-chefe de próxima geração desenvolvido especificamente para engenharia de agentes. Ao contrário dos modelos otimizados para benchmarks limpos e de uma única rodada, o GLM-5.1 é construído para tarefas de agentes, com capacidades de codificação significativamente mais fortes do que seu antecessor, e alcança desempenho de State-of-the-Art (SOTA) no SWE-Bench Pro, superando o GLM-5 por uma ampla margem no NL2Repo (geração de repositórios) e Terminal-Bench 2.0 (tarefas de terminal do mundo real). Arquitetura: DSA, MoE e RL Assíncrono Antes de mergulhar no que o GLM-5.1 pode fazer, vale a pena entender no que ele é construído — porque a arquitetura é significativamente diferente de um transformador denso padrão. O GLM-5 adota o DSA para reduzir significativamente os custos de treinamento e inferência, mantendo a fidelidade de contexto longo. O modelo usa uma arquitetura glm_moe_dsa (modelo Mixture of Experts (MoE) combinado com DSA). Para desenvolvedores de IA avaliando se devem hospedar por conta própria, isso é importante: modelos MoE ativam apenas um subconjunto de seus parâmetros por passagem de inferência, o que pode tornar a inferência significativamente mais eficiente do que um modelo denso de tamanho comparável, embora exijam infraestrutura de serviço específica. No lado do treinamento, o GLM-5 implementa uma nova infraestrutura de reinforcement learning assíncrono (RL assíncrono) que melhora drasticamente a eficiência pós-treinamento, desacoplando a geração do treinamento. Novos algoritmos de RL de agente assíncronos melhoram ainda mais a qualidade do RL, permitindo que o modelo aprenda com interações complexas e de longo horizonte de forma mais eficaz. Isso é o que permite que o modelo lide com tarefas de agente com o tipo de julgamento sustentado que o treinamento de RL de uma única rodada tem dificuldade em produzir. O Problema do Platô que o GLM-5.1 Está Resolvendo Para entender o que torna o GLM-5.1 diferente no tempo de inferência, ajuda a entender um modo de falha específico em LLMs usados como agentes. Modelos anteriores — incluindo o GLM-5 — tendem a esgotar seu repertório cedo: eles aplicam técnicas familiares para ganhos iniciais rápidos e, em seguida, platô. Dar-lhes mais tempo não ajuda. Esta é uma limitação estrutural para qualquer desenvolvedor que tenta usar um LLM como um agente de codificação. O modelo aplica o mesmo manual que conhece, atinge uma parede e para de progredir, independentemente de quanto tempo ele é executado. O GLM-5.1, ao contrário, é construído para permanecer eficaz em tarefas de agente em horizontes muito mais longos. O modelo lida com problemas ambíguos com melhor julgamento e permanece produtivo em sessões mais longas. Ele divide problemas complexos d