Meta AI Lança EUPE: Uma Família Compacta de Codificadores Visuais Abaixo de 100M de Parâmetros Que Rivaliza com Modelos Especialistas em Compressão de Imagem, Predição Densa e Tarefas VLM
Executar uma IA poderosa no seu smartphone não é apenas um problema de hardware — é um problema de arquitetura de modelo. A maioria dos codificadores visuais de última geração são enormes, e quando você os reduz para caber em um dispositivo edge, eles perdem as capacidades que os tornaram úteis em primeiro lugar. Pior, modelos especializados tendem a se destacar em uma […] O post Meta AI L
Executar uma IA poderosa no seu smartphone não é apenas um problema de hardware — é um problema de arquitetura de modelo. A maioria dos codificadores visuais de última geração são enormes, e quando você os reduz para caber em um dispositivo edge, eles perdem as capacidades que os tornaram úteis em primeiro lugar. Pior, modelos especializados tendem a se destacar em um tipo de tarefa — classificação de imagem, por exemplo, ou segmentação de cena — mas falham quando você os solicita a fazer algo fora de sua área de especialização. As equipes de pesquisa de IA da Meta agora estão propondo um caminho diferente. Eles introduziram o Efficient Universal Perception Encoder (EUPE): um codificador visual compacto que lida com diversas tarefas de visão simultaneamente sem a necessidade de ser grande. O Problema Central: Especialistas vs. Generalistas Para entender por que o EUPE é importante, é útil entender como os codificadores visuais funcionam e por que a especialização é um problema. Um codificador visual é a parte de um modelo de visão computacional que converte pixels brutos de imagem em uma representação compacta — um conjunto de vetores de características — que tarefas subsequentes (como classificação, segmentação ou responder a perguntas sobre uma imagem) podem usar. Pense nisso como os 'olhos' de um pipeline de IA. Os codificadores visuais de fundação modernos são treinados com objetivos específicos, o que lhes dá uma vantagem em domínios particulares. Por exemplo: CLIP e SigLIP 2 são treinados em pares texto-imagem. Eles são fortes na compreensão de imagem e modelagem visão-linguagem, mas seu desempenho em tarefas de predição densa (que exigem recursos espacialmente precisos, em nível de pixel) muitas vezes fica abaixo das expectativas. DINOv2 e seu sucessor DINOv3 são modelos auto-supervisionados que aprendem descritores estruturais e geométricos excepcionais, tornando-os fortes em tarefas de predição densa como segmentação semântica e estimativa de profundidade. Mas eles carecem de capacidades satisfatórias de visão-linguagem. SAM (Segment Anything Model) alcança segmentação zero-shot impressionante através do treinamento em grandes conjuntos de dados de segmentação, mas novamente fica aquém nas tarefas de visão-linguagem. Para um dispositivo edge — um smartphone ou headset de AR — que precisa lidar com todos esses tipos de tarefas simultaneamente, a solução típica é implantar vários codificadores ao mesmo tempo. Isso rapidamente se torna proibitivo em termos de computação. A alternativa é aceitar que um único codificador terá desempenho inferior em vários domínios. Tentativas Anteriores: Por Que os Métodos Aglomerativos Ficaram Aquém em Backbones Eficientes Pesquisadores tentaram combinar os pontos fortes de múltiplos codificadores especialistas através de uma família
