Equipe Qwen da Alibaba Lança Qwen3.5 Omni: Um Modelo Multimodal Nativo para Texto, Áudio, Vídeo e Interação em Tempo Real
O cenário dos grandes modelos de linguagem multimodais (MLLMs) mudou de 'invólucros' experimentais – onde codificadores de visão ou áudio separados são costurados a uma base de texto – para arquiteturas nativas, ponta a ponta, 'omnimodais'. O mais recente lançamento da equipe Alibaba Qwen, Qwen3.5-Omni, representa um marco significativo nesta evolução. Projetado como um concorrente direto para modelos carros-chefe.
O cenário dos grandes modelos de linguagem multimodais (MLLMs) mudou de 'invólucros' experimentais – onde codificadores de visão ou áudio separados são costurados a uma base de texto – para arquiteturas nativas, ponta a ponta, 'omnimodais'. O mais recente lançamento da equipe Alibaba Qwen, Qwen3.5-Omni, representa um marco significativo nesta evolução. Projetado como um concorrente direto para modelos carros-chefe como o Gemini 3.1 Pro, a série Qwen3.5-Omni introduz uma estrutura unificada capaz de processar texto, imagens, áudio e vídeo simultaneamente dentro de um único pipeline computacional. A importância técnica do Qwen3.5-Omni reside em sua arquitetura Thinker-Talker e no uso do Mixture of Experts (MoE) de Atenção Híbrida em todas as modalidades. Essa abordagem permite que o modelo lide com janelas de contexto massivas e interação em tempo real sem as tradicionais penalidades de latência associadas a sistemas em cascata. Camadas do Modelo A série é oferecida em três tamanhos para equilibrar desempenho e custo: Plus: Raciocínio de alta complexidade e máxima precisão. Flash: Otimizado para alto throughput e interação de baixa latência. Light: Uma variante menor para tarefas focadas em eficiência. https://qwen.ai/blog?id=qwen3.5-omni A Arquitetura Thinker-Talker: Uma Estrutura MoE Unificada No cerne do Qwen3.5-Omni está uma arquitetura bifurcada, porém firmemente integrada, composta por dois componentes principais: o Thinker e o Talker. Em iterações anteriores, os modelos multimodais frequentemente dependiam de codificadores externos pré-treinados (como o Whisper para áudio). O Qwen3.5-Omni vai além disso, utilizando um codificador Transformer de Áudio nativo (AuT). Este codificador foi pré-treinado em mais de 100 milhões de horas de dados audiovisuais, proporcionando ao modelo uma compreensão fundamentada de nuances temporais e acústicas que faltam aos modelos tradicionais que priorizam o texto. Mixture of Experts (MoE) de Atenção Híbrida Tanto o Thinker quanto o Talker aproveitam o MoE de Atenção Híbrida. Em uma configuração MoE padrão, apenas um subconjunto de parâmetros (os 'experts') é ativado para cada token, o que permite uma alta contagem total de parâmetros com custos computacionais ativos mais baixos. Ao aplicar isso a um mecanismo de atenção híbrida, o Qwen3.5-Omni pode efetivamente ponderar a importância de diferentes modalidades (por exemplo, focando mais em tokens visuais durante uma tarefa de análise de vídeo) enquanto mantém o throughput necessário para serviços de streaming. Esta arquitetura suporta uma entrada de contexto longo de 256k, permitindo que o modelo ingira e raciocine sobre: Mais de 10 ho
