Google AI Research propõe Vantage: Um protocolo baseado em LLMs para medir Colaboração, Criatividade e Pensamento Crítico
Testes padronizados podem dizer se um aluno sabe cálculo ou se consegue analisar um trecho de texto. O que eles não conseguem dizer de forma confiável é se esse aluno consegue resolver um desentendimento com um colega de equipe, gerar ideias genuinamente originais sob pressão ou desmantelar criticamente um argumento falho. Essas são as chamadas habilidades duradouras — colaboração, criatividade, [...] A postagem Google AI Research P
Testes padronizados podem dizer se um aluno sabe cálculo ou se consegue analisar um trecho de texto. O que eles não conseguem dizer de forma confiável é se esse aluno consegue resolver um desentendimento com um colega de equipe, gerar ideias genuinamente originais sob pressão ou desmantelar criticamente um argumento falho. Essas são as chamadas habilidades duradouras — colaboração, criatividade e pensamento crítico — e por décadas elas resistiram a uma medição rigorosa e escalável. Uma nova pesquisa do Google Research propõe uma solução tecnicamente inovadora chamada Vantage: Large Language Models (LLMs) orquestrados que podem simular uma interação de grupo autêntica e pontuar os resultados com uma precisão que rivaliza com a de avaliadores humanos especialistas. https://services.google.com/fh/files/misc/toward_scalable_measurement_of_durable_skills.pdf O Problema Central: Validade Ecológica vs. Rigor Psicrométrico Para entender por que isso é tecnicamente interessante, é útil compreender o paradoxo de medição que a equipe de pesquisa estava tentando resolver. Medir habilidades duradouras de forma eficaz requer duas propriedades conflitantes. Por um lado, a avaliação precisa de validade ecológica — deve parecer um cenário do mundo real, porque é precisamente o contexto em que essas habilidades são exercidas. Por outro lado, precisa de rigor psicométrico: condições padronizadas, reprodutibilidade e estímulos controláveis para que as pontuações sejam comparáveis entre os avaliados. Esforços anteriores em larga escala, como a avaliação PISA 2015 de Resolução Colaborativa de Problemas, tentaram resolver isso fazendo com que os participantes interagissem com colegas de equipe simulados por meio de perguntas de múltipla escolha. Isso garante controle, mas sacrifica a autenticidade. Avaliações humano-humano fazem o oposto. Os LLMs, argumenta a equipe de pesquisa, estão posicionados de forma única para satisfazer ambos os requisitos simultaneamente — eles podem produzir interações conversacionais naturalísticas e abertas enquanto ainda são direcionados programaticamente para objetivos de avaliação específicos. O LLM Executivo: Uma Camada de Coordenação sobre Agentes de IA A contribuição tecnicamente mais distintiva desta pesquisa é a arquitetura do LLM Executivo. Em vez de gerar múltiplos agentes LLM independentes — um por cada colega de equipe de IA — o sistema usa um único LLM para gerar respostas para todos os participantes de IA na conversa. Isso é importante por duas razões. Primeiro, permite a coordenação. O LLM Executivo tem acesso à mesma rubrica pedagógica que será usada posteriormente para avaliar o participante humano. Ele usa essa rubrica não apenas passivamente, mas ativamente.
