Meta Lança TRIBE v2: Um Modelo de Codificação Cerebral Que Prediz Respostas de fMRI Através de Estímulos de Vídeo, Áudio e Texto

A neurociência tem sido há muito tempo um campo de dividir para conquistar. Pesquisadores tipicamente mapeiam funções cognitivas específicas para regiões cerebrais isoladas — como movimento para a área V5 ou rostos para o giro fusiforme — usando modelos adaptados a paradigmas experimentais restritos. Embora isso tenha fornecido insights profundos, o cenário resultante é fragmentado, carecendo de uma estrutura unificada para explicar como o cérebro humano integra informações multissensoriais. A equipe FAIR da Meta introduziu o TRIBE v2, um modelo fundamental trimodal projetado para preencher essa lacuna. Ao alinhar as representações latentes de arquiteturas de IA de ponta com a atividade cerebral humana, o TRIBE v2 prevê respostas de fMRI de alta resolução em diversas condições naturalísticas e experimentais. https://ai.meta.com/research/publications/a-foundation-model-of-vision-audition-and-language-for-in-silico-neuroscience/ A Arquitetura: Integração Multimodal O TRIBE v2 não aprende a 'ver' ou 'ouvir' do zero. Em vez disso, ele aproveita o alinhamento representacional entre redes neurais profundas e o cérebro de primatas. A arquitetura consiste em três modelos fundamentais congelados que funcionam como extratores de características, um transformador temporal e um bloco de previsão específico para o sujeito. 1. Extração de Características O modelo processa estímulos através de três codificadores especializados: Texto: Embeddings contextualizados são extraídos do LLaMA 3.2-3B. Para cada palavra, o modelo antecede as 1.024 palavras anteriores para fornecer contexto temporal, que é então mapeado para uma grade de 2 Hz. Vídeo: O modelo usa V-JEPA2-Giant para processar segmentos de 64 quadros que abrangem os 4 segundos anteriores para cada intervalo de tempo. Áudio: O som é processado através do Wav2Vec-BERT 2.0, com representações reamostradas para 2 Hz para corresponder à frequência do estímulo (f_s_t_i_m) (f_{stim}). 2. Agregação Temporal Os embeddings resultantes são compactados em uma dimensão compartilhada (D = 384) (D=384) e concatenados para formar uma série temporal multimodal com uma dimensão de modelo de D_m_o_d_e_l = 3 × 384 = 1152 D_{model} = 3 imes 384 = 1152. Essa sequência é alimentada em um codificador Transformer (8 camadas, 8 cabeças de atenção) que troca informações em uma janela de 100 segundos. 3. Previsão Específica do Sujeito Para prever a atividade cerebral, as saídas do Transformer são decimadas para a frequência de fMRI de 1 Hz (f_f_M_R_I) (f_{fMRI}) e passadas por um Bloco de Sujeito. Este bloco projeta as representações latentes para 20.484 vértices corticais (f_s_a_v_e_r_a_g_e_5_s_u_r_f_a_c_e) (fsaverage5 surface) e 8.802 sub