NVIDIA e Ineffable Intelligence unem forças para construir o futuro da infraestrutura de Reinforcement Learning

Agentes de reinforcement learning — sistemas de IA que aprendem por tentativa e erro — podem converter computação em novo conhecimento. Esse é o foco de uma nova colaboração em nível de engenharia entre a NVIDIA e a Ineffable Intelligence, o laboratório de IA sediado em Londres fundado pelo arquiteto do AlphaGo, David Silver, após a saída da Ineffable do modo stealth na semana passada. “A próxima fronteira da IA são os superlearners — sistemas que aprendem continuamente a partir da experiência”, disse Jensen Huang, fundador e CEO da NVIDIA. “Estamos entusiasmados em fazer parceria com a Ineffable Intelligence para codesenhar a infraestrutura para reinforcement learning em larga escala, à medida que eles impulsionam a fronteira da IA e são pioneiros em uma nova geração de sistemas inteligentes.” Silver é um dos pioneiros do reinforcement learning, uma abordagem que transformou a pesquisa em IA. Ele está focado em desenvolver ainda mais essa abordagem em um novo paradigma. “Os pesquisadores resolveram em grande parte o problema mais fácil da IA: como construir sistemas que conhecem todas as coisas que os humanos já conhecem”, disse Silver. “Mas agora precisamos resolver o problema mais difícil da IA: como construir sistemas que descubram novos conhecimentos por si mesmos. Isso requer uma abordagem muito diferente — sistemas que aprendam com a experiência.” Esse tipo de aprendizado precisa de um pipeline poderoso e altamente otimizado para suportá-lo. Ao contrário do pré-treinamento, onde um conjunto de dados fixo de dados humanos flui através do sistema, as cargas de trabalho de reinforcement learning geram seus dados em tempo real. O sistema precisa agir, observar, pontuar e atualizar continuamente em ciclos apertados, o que pressiona a interconexão, a largura de banda da memória e o serviço de maneiras que o pré-treinamento não faz. Além disso, o sistema será treinado em formas ricas de experiência que são bastante distintas da linguagem humana e de outros dados humanos, e pode exigir novas arquiteturas de modelo e algoritmos de treinamento. É aí que a NVIDIA e a Ineffable estão focando seu trabalho técnico: construir um pipeline que possa alimentar sistemas de reinforcement learning em escala. Engenheiros de ambas as empresas se uniram para explorar a melhor maneira de criar esse pipeline de treinamento. Este trabalho está começando na NVIDIA Grace Blackwell e estará entre os primeiros a explorar a próxima plataforma NVIDIA Vera Rubin. O objetivo é entender a próxima geração de hardware e software que será necessária à medida que o mundo da IA se move além dos dados humanos em direção a modelos que aprendem por meio de simulação e experiência. Acertar essa infraestrutura desbloqueará uma escala sem precedentes de reinforcement learning em sistemas altamente complexos e