TII Lança Falcon Perception: Um Transformer de Early-Fusion de 0.6B Parâmetros para Fundamentação e Segmentação de Vocabulário Aberto a partir de Prompts de Linguagem Natural

No cenário atual da visão computacional, o procedimento operacional padrão envolve uma abordagem modular de 'tijolos de Lego': um codificador de visão pré-treinado para extração de recursos combinado com um decodificador separado para previsão de tarefas. Embora eficaz, essa separação arquitetônica complica a escalabilidade e gargalos a interação entre linguagem e visão. A equipe de pesquisa do Technology Innovation Institute (TII) está desafiando esse paradigma com Falcon Perception, um Transformer denso unificado de 600M parâmetros. Ao processar patches de imagem e tokens de texto em um espaço de parâmetros compartilhado desde a primeira camada, a equipe de pesquisa do TII desenvolveu uma pilha de early-fusion que lida com a percepção e a modelagem de tarefas com extrema eficiência. https://arxiv.org/pdf/2603.27365 A Arquitetura: Uma Pilha Única para Cada Modalidade O design central do Falcon Perception é construído sobre a hipótese de que um único Transformer pode aprender representações visuais e realizar a geração específica da tarefa simultaneamente. Atenção Híbrida e GGROPE Diferente dos modelos de linguagem padrão que usam mascaramento causal estrito, o Falcon Perception emprega uma estratégia de atenção híbrida. Os tokens de imagem se atentam bidirecionalmente para construir um contexto visual global, enquanto os tokens de texto e de tarefa se atentam a todos os tokens precedentes (mascaramento causal) para permitir a previsão autorregressiva. Para manter as relações espaciais 2D em uma sequência achatada, a equipe de pesquisa utiliza Embeddings Posicionais Rotatórios 3D. Isso decompõe a dimensão da cabeça em um componente sequencial e um componente espacial usando Golden Gate ROPE (GGROPE). O GGROPE permite que as cabeças de atenção se atentem a posições relativas ao longo de ângulos arbitrários, tornando o modelo robusto a rotação e variações de proporção. Lógica de Sequência Minimalista A sequência arquitetônica básica segue um formato de Cadeia de Percepção: [Imagem] [Texto] ... . Isso garante que o modelo resolva a ambiguidade espacial (posição e tamanho) como um sinal de condicionamento antes de gerar a máscara de segmentação final. Engenharia para Escala: Muon, FlexAttention e Ordenação Raster A equipe de pesquisa do TII introduziu várias otimizações para estabilizar o treinamento e maximizar a utilização da GPU para essas sequências heterogêneas. Otimização Muon: A equipe de pesquisa relata que o emprego do otimizador Muon para cabeças especializadas (coordenadas, tamanho e segmentação) levou a perdas de treinamento mais baixas e melhor desempenho em benchmarks em comparação com o AdamW padrão. FlexAttentio