NVIDIA Research Desbloqueia Manipulação Avançada, Direção Autônoma Mais Inteligente e Treinamento de Agentes em Escala

O que torna uma garra robótica útil não é que ela possa pegar um objeto — é que ela pode pegar o próximo, e o que vem depois, com uma ferramenta que nunca usou antes. O que torna um sistema de veículo autônomo seguro não é apenas que ele pode deliberar sobre uma situação — é que ele pode fazê-lo rapidamente o suficiente no hardware realmente instalado no carro. O que torna um agente virtual capaz é a exposição ao maior número possível de ambientes diferentes antes de enfrentar o mundo real. Na conferência Computer Vision and Pattern Recognition (CVPR) deste ano, a NVIDIA Research está apresentando três artigos que abordam cada um desses desafios — e compartilham um tema comum: o treinamento em escala cria sistemas que generalizam entre diversas aplicações. Os três artigos cobrem diferentes desafios na pesquisa de IA física: GraspGen-X, o primeiro modelo de fundação para agarramento zero-shot, foi treinado em bilhões de agarres simulados para trabalhar com qualquer garra que lhe seja mostrada. LCDrive introduz um modelo que substitui o raciocínio caro baseado em texto por representações latentes compactas, permitindo que veículos autônomos pensem mais rápido em hardware embarcado. NitroGen é um modelo de fundação de IA de jogabilidade generalizada que utiliza a arquitetura de modelo de fundação de robô NVIDIA Isaac GR00T para ajudar a treinar agentes incorporados em ambientes virtuais ao longo de dezenas de milhares de horas de interação. A NVIDIA também revelou na CVPR novas habilidades de agentes de IA física que ajudam pesquisadores e desenvolvedores a acelerar o desenvolvimento de veículos autônomos, robôs e sistemas de visão de IA. NitroGen e outro artigo de autoria da NVIDIA, PixelDIT, foram nomeados finalistas de melhor artigo na conferência — uma homenagem concedida a apenas 15 dos mais de 4.000 artigos aceitos na CVPR. O Primeiro Modelo de Fundação para Agarramento. A maioria dos sistemas de IA para agarramento robótico são especialistas. Uma política de visão-linguagem-ação treinada para uma garra de dois dedos só aprende a agarrar com esses dois dedos. Da mesma forma, uma política para agarramento destreza funcionará apenas para as garras multifinger articuladas personalizadas.