Google DeepMind Apresenta um Ponteiro de Mouse Habilitado por IA, Desenvolvido por Gemini, Que Captura o Contexto Visual e Semântico ao Redor do Cursor

Pesquisadores do Google DeepMind delinearam quatro princípios de interação e lançaram demonstrações experimentais de um ponteiro de mouse habilitado por IA, desenvolvido por Gemini – um que captura o contexto visual e semântico ao redor do cursor para que os usuários possam apontar, falar em abreviações naturais e realizar tarefas sem alternar para uma janela de IA separada. A postagem Google DeepMind Apresenta um Ponteiro de Mouse Habilitado por IA, desenvolvido por Gemini, que captura o contexto visual e semântico ao redor do cursor para que os usuários possam apontar, falar em abreviações naturais e realizar tarefas sem alternar para uma janela de IA separada.

O ponteiro do mouse tem sido o centro da computação pessoal por mais de meio século. Ele rastreia a posição do cursor. Ele registra cliques. Além disso, não faz quase nada. Pesquisadores do Google DeepMind delinearam um conjunto de princípios e demonstrações experimentais para um ponteiro habilitado por IA que vai consideravelmente além: um que entende não apenas onde você está apontando, mas o que você está apontando e por que isso importa. O sistema é desenvolvido por Gemini e atualmente está em fase experimental. Duas demonstrações estão disponíveis no Google AI Studio hoje: uma para editar uma imagem e outra para encontrar lugares em um mapa, ambas operáveis apontando e falando. Uma integração mais profunda chamada Magic Pointer também está sendo lançada no Chrome, e uma integração futura está planejada para o Googlebook, a nova linha de laptops da Google com Gemini, anunciada esta semana. https://deepmind.google/blog/ai-pointer/ O que a DeepMind está almejando A frustração que os pesquisadores da DeepMind estão abordando é familiar para qualquer pessoa que tentou usar um assistente de IA enquanto já estava no meio do trabalho. Como uma ferramenta de IA típica vive em sua própria janela, os usuários precisam arrastar seu mundo para dentro dela. A equipe de pesquisa quer o oposto - uma IA intuitiva que encontra os usuários em todas as ferramentas que eles usam, sem interromper seu fluxo. Na prática, o fluxo de trabalho de IA de hoje geralmente se parece com isto: você está trabalhando em um documento ou em uma aba do navegador, você vê algo sobre o qual quer perguntar, você muda para uma interface de chat, você redescreve o que estava olhando, você executa a consulta e você cola o resultado de volta. Isso corresponde a uma lacuna técnica concreta: as interfaces LLM atuais são em grande parte texto-entrada, texto-saída. Elas não têm conhecimento do estado da tela ao seu redor. O ponteiro habilitado por IA é uma tentativa de fechar essa lacuna, dando ao modelo contexto visual e semântico em tempo real derivado da posição do cursor e do estado de foco – sem exigir que os usuários serializem manualmente esse contexto em um prompt escrito. Quatro princípios de interação Pesquisadores da DeepMind desenvolveram quatro princípios que juntos transferem o trabalho árduo de transmitir contexto e intenção do usuário para o computador, substituindo prompts pesados em texto por interações mais simples e intuitivas. O primeiro é Manter o fluxo. As capacidades de IA devem funcionar em todos os aplicativos, não forçando os usuários a 'desvios de IA' entre eles. O protótipo de ponteiro habilitado para IA está disponível onde quer que o usuário esteja trabalhando. Por exemplo, eles poderiam apontar para um PDF e solicitar um resumo em tópicos para