ITBench-AA: Modelos de Fronteira Atingem Menos de 50% no Primeiro Benchmark para Tarefas de TI Empresariais Autônomas — por Artificial Analysis e IBM
Este é o primeiro benchmark de nível empresarial focado em tarefas complexas e autônomas de TI.
Estamos entusiasmados em apresentar o ITBench-AA — o primeiro benchmark de nível empresarial projetado para avaliar as capacidades de modelos de IA em tarefas de TI complexas e autônomas. Criado em colaboração com especialistas em IA e TI da Artificial Analysis e da IBM, este benchmark é fundamental para impulsionar o desenvolvimento de agentes de IA capazes de gerenciar e otimizar ambientes de TI empresariais. Enquanto as LLMs têm apresentado rapidamente um desempenho impressionante em raciocínio geral e tarefas voltadas para o consumidor, sua aplicação direta em ambientes de TI corporativos complexos, especialmente em cenários de agentes autônomos, ainda é um território relativamente inexplorado formalmente. O ITBench-AA foi criado para preencher essa lacuna de avaliação, estabelecendo um novo padrão para o que se espera dos modelos de IA no campo da tecnologia da informação. Nosso estudo revelou conclusões notáveis: os modelos mais avançados de hoje, incluindo GPT-4o, Claude 3 Opus e Gemini 1.5 Pro, atingiram uma pontuação média inferior a 50%. Este é um indicativo claro de que ainda há um longo caminho a percorrer na capacidade dos modelos generativos de IA para realizar tarefas complexas de TI em um cenário de agente autônomo. Apesar de estarem perto ou acima de 90% em muitos outros benchmarks amplamente usados, as complexidades e nuances das operações de TI empresariais apresentam um desafio muito maior que os modelos atuais ainda não superaram. Isso serve como um alerta para a indústria de IA, apontando para a necessidade de mais pesquisa e desenvolvimento focados em raciocínio, planejamento e execução de tarefas de TI específicas. Você pode acessar o documento de pesquisa completo e os resultados detalhados do benchmark aqui: [Link para o documento completo]
