Thinking Machines Lab de Mira Murati Apresenta Modelos de Interação: Uma Arquitetura Multimodal Nativa para Colaboração Humano-IA em Tempo Real

O Thinking Machines Lab apresentou uma prévia de pesquisa do TML-Interaction-Small, um modelo Mixture-of-Experts de 276 bilhões de parâmetros com 12 bilhões de parâmetros ativos, construído em torno de uma arquitetura multi-stream, micro-turno alinhada no tempo que processa blocos de 200ms de áudio, vídeo e texto simultaneamente — eliminando a necessidade de detecção de atividade de voz externa. Ao contrário dos modelos baseados em turnos padrão que limitam o

A maioria dos sistemas de IA hoje funciona em turnos. Você digita ou fala, o modelo espera, processa sua entrada e então responde. Esse é todo o loop de interação. O Thinking Machines Lab, um laboratório de pesquisa em IA, argumenta que esse modelo de interação é um gargalo fundamental. A equipe do Thinking Machines Lab introduziu uma prévia de pesquisa de uma nova classe de sistema que eles chamam de modelos de interação para resolver isso. A ideia principal de sua pesquisa é que a interatividade deve ser nativa do próprio modelo, e não algo anexado como um acréscimo. O Que Há de Errado Com a IA Baseada em Turnos Se você já construiu algo com um modelo de linguagem ou uma API de voz, você já trabalhou em torno das limitações da interação baseada em turnos. O modelo não tem consciência do que está acontecendo enquanto você ainda está digitando ou falando. Ele não consegue ver você pausar no meio de uma frase, notar sua webcam ou reagir a algo visual em tempo real. Enquanto o modelo está gerando, ele está igualmente cego — a percepção congela até que ele termine ou seja interrompido. Isso cria um canal estreito para a colaboração humano-IA que limita o quanto do conhecimento, intenção e julgamento de uma pessoa podem chegar ao modelo, e o quanto do trabalho do modelo pode ser compreendido. Para contornar isso, a maioria dos sistemas de IA em tempo real usa um “harness” — uma coleção de componentes separados unidos para simular a capacidade de resposta. Um exemplo comum é a detecção de atividade de voz (VAD), que prevê quando um usuário terminou de falar para que um modelo baseado em turnos saiba quando começar a gerar. Esse “harness” é feito de componentes que são significativamente menos inteligentes do que o próprio modelo, e impede capacidades como reações visuais proativas, falar enquanto ouve, ou responder a dicas que nunca são explicitamente ditas em voz alta. O argumento do Thinking Machines Lab é uma versão da 'lição amarga' em aprendizado de máquina: sistemas feitos à mão acabarão sendo superados pela escala de capacidades gerais. Para que a interatividade seja escalável com a inteligência, ela deve fazer parte do próprio modelo. Com essa abordagem, escalar um modelo o torna mais inteligente e um melhor colaborador. https://thinkingmachines.ai/blog/interaction-models/ A Arquitetura: Design Multi-Stream, Micro-Turn O sistema possui dois componentes trabalhando em paralelo: um modelo de interação que mantém troca constante e em tempo real com o usuário, e um modelo de background que lida com tarefas de raciocínio mais profundas de forma assíncrona. O modelo de interação está sempre ativo — recebendo continuamente