Um método melhor para identificar Large Language Models superconfiantes

Esta nova métrica para medir a incerteza pode sinalizar alucinações e ajudar os usuários a saber se devem confiar em um modelo de IA.

Large Language Models (LLMs) podem gerar respostas críveis, mas imprecisas, então pesquisadores desenvolveram métodos de quantificação de incerteza para verificar a confiabilidade das previsões. Um método popular envolve enviar o mesmo prompt várias vezes para ver se o modelo gera a mesma resposta.

Mas este método mede a autoconfiança, e mesmo o LLM mais impressionante pode estar confiantemente errado. A superconfiança pode enganar os usuários sobre a precisão de uma previsão, o que pode resultar em consequências devastadoras em cenários de alto risco, como saúde ou finanças.

ParaB resolver essa deficiência, pesquisadores do MIT introduziram um novo método para medir um tipo diferente de incerteza que identifica de forma mais confiável as respostas de LLM confiantes, mas incorretas.

O método deles envolve comparar a resposta de um modelo alvo com respostas de um grupo de LLMs semelhantes. Eles descobriram que medir a discordância entre modelos captura este tipo de incerteza de forma mais precisa do que as abordagens tradicionais.

Eles combinaram sua abordagem com uma medida de autoconsistência de LLM para criar uma métrica de incerteza total, e a avaliaram em 10 tarefas realistas, como resposta a perguntas e raciocínio matemático. Esta métrica de incerteza total superou consistentemente outras medidas e foi melhor na identificação de previsões não confiáveis.

“A autoconsistência está sendo usada em várias abordagens diferentes para quantificação de incerteza, mas se sua estimativa de incerteza depende apenas do resultado de um único modelo, ela não é necessariamente confiável. Voltamos ao início para entender as limitações das abordagens atuais e as usamos como ponto de partida para projetar um método complementar que pode empiricamente melhorar os resultados”, diz Kimia Hamidieh, estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) no MIT e autora principal de um artigo sobre esta técnica.

Ela se junta no artigo a Veronika Thost, cientista pesquisadora no MIT-IBM Watson AI Lab; Walter Gerych, ex-pós-doutorando do MIT que agora é professor assistente no Worcester Polytechnic Institute; Mikhail Yurochkin, cientista pesquisador sênior no MIT-IBM Watson AI Lab; e o autor sênior Marzyeh Ghassemi, professora associada em EECS e membro do Institute of Medical Engineering Sciences e do Laboratório de