Conheça o ‘AutoAgent’: A Biblioteca Open-Source que Permite que uma IA Projete e Otimize seu Próprio Agente Durante a Noite

Existe um tipo particular de tédio que todo engenheiro de IA conhece intimamente: o loop de ajuste de prompts. Você escreve um prompt de sistema, executa seu agente em um benchmark, lê os rastros de falha, ajusta o prompt, adiciona uma ferramenta, executa novamente. Repita isso algumas dezenas de vezes e você pode conseguir um pequeno avanço. É um trabalho braçal disfarçado de arquivos Python. Agora, uma nova biblioteca de código aberto chamada AutoAgent, construído por Kevin Gu da thirdlayer.inc, propõe uma alternativa inquietante — não faça esse trabalho você mesmo. Deixe uma IA fazer isso. O AutoAgent é uma biblioteca de código aberto para melhorar autonomamente um agente em qualquer domínio. Em uma execução de 24 horas, ele alcançou o primeiro lugar no SpreadsheetBench com uma pontuação de 96,5% e o primeiro lugar no GPT-5 no TerminalBench com 55,1%. https://x.com/kevingu/status/2039843234760073341 O que é o AutoAgent, realmente? O AutoAgent é descrito como sendo 'como pesquisa automática, mas para engenharia de agentes'. A ideia: dar uma tarefa a um agente de IA, permitir que ele construa e itere em um 'harness' de agente autonomamente durante a noite. Ele modifica o prompt do sistema, ferramentas, configuração do agente e orquestração, executa o benchmark, verifica a pontuação, mantém ou descarta a mudança e repete. Para entender a analogia: a pesquisa automática de Andrej Karpathy faz a mesma coisa para o treinamento de ML — ela passa por ciclos de propor-treinar-avaliar, mantendo apenas as mudanças que melhoram a perda de validação. O AutoAgent transfere esse mesmo loop de alavanca do treinamento de ML para a engenharia de agentes. Em vez de otimizar os pesos de um modelo ou os hiperparâmetros de treinamento, ele otimiza o 'harness' — o prompt do sistema, as definições de ferramentas, a lógica de roteamento e a estratégia de orquestração que determinam como um agente se comporta em uma tarefa. Um 'harness', nesse contexto, é a estrutura de suporte em torno de um LLM: qual prompt do sistema ele recebe, quais ferramentas ele pode chamar, como ele roteia entre subagentes e como as tarefas são formatadas como entradas. A maioria dos engenheiros de agente constrói essa estrutura manualmente. O AutoAgent automatiza a iteração nessa própria estrutura. A Arquitetura: Dois Agentes, Um Arquivo, Uma Diretriz O repositório do GitHub tem uma estrutura deliberadamente simples. agent.py é todo o 'harness' em teste em um único arquivo — ele contém configuração, definições de ferramentas, registro de agentes, roteamento/orquestração e o limite do adaptador Harbor. A seção do adaptador é explicitamente marcada como fixa; o restante é a superfície de edição primária para o meta-agente. program.md contém instruções para o meta-agente, além da diretriz (que tipo de agente construir), e este é o único arquivo o