IBM Lança Granite 4.0 3B Vision: Um Novo Modelo de Linguagem Visual para Extração de Dados de Documentos de Nível Empresarial

A IBM anunciou o lançamento do Granite 4.0 3B Vision, um modelo de linguagem visual (VLM) projetado especificamente para extração de dados de documentos de nível empresarial. Distanciando-se da abordagem monolítica de modelos multimodais maiores, o lançamento do 4.0 Vision é arquitetado como um adaptador especializado projetado para trazer raciocínio visual de alta fidelidade para a espinha dorsal de linguagem do Granite 4.0 Micro. Este lançamento representa uma transição para a IA modular e focada em extração que prioriza a precisão de dados estruturados — como converter gráficos complexos em código ou tabelas em HTML — em vez de legendas de imagens de propósito geral. Arquitetura: LoRA Modular e Integração DeepStack O modelo Granite 4.0 3B Vision é entregue como um adaptador LoRA (Low-Rank Adaptation) com aproximadamente 0,5B parâmetros. Este adaptador é projetado para ser carregado sobre o modelo base Granite 4.0 Micro, um modelo de linguagem densa com 3,5B parâmetros. Este design permite uma implantação de 'modo duplo': o modelo base pode lidar com solicitações somente de texto independentemente, enquanto o adaptador de visão é ativado apenas quando o processamento multimodal é necessário. Codificador Visual e Tiling de Patches O componente visual utiliza o codificador google/siglip2-so400m-patch16-384. Para manter alta resolução em diversos layouts de documentos, o modelo emprega um mecanismo de tiling. As imagens de entrada são decompostas em patches de 384×384, que são processados juntamente com uma visualização global redimensionada da imagem inteira. Essa abordagem garante que detalhes finos — como subscritos em fórmulas ou pequenos pontos de dados em gráficos — sejam preservados antes de chegarem à espinha dorsal da linguagem. A Espinha Dorsal DeepStack Para preencher as modalidades de visão e linguagem, a IBM utiliza uma variante da arquitetura DeepStack. Isso envolve o empilhamento profundo de tokens visuais no modelo de linguagem em 8 pontos de injeção específicos. Ao rotear recursos visuais para várias camadas do transformador, o modelo alcança um alinhamento mais rigoroso entre o 'o quê' (conteúdo semântico) e o 'onde' (layout espacial), o que é crítico para manter a estrutura durante a análise de documentos. Currículo de Treinamento: Focado na Extração de Gráficos e Tabelas O treinamento do Granite 4.0 3B Vision reflete uma mudança estratégica em direção a tarefas de extração especializadas. Em vez de depender apenas de conjuntos de dados gerais de imagem-texto, a IBM utilizou uma mistura selecionada de dados de instrução focados em estruturas de documentos complexas. Conjunto de Dados ChartNet: O modelo foi refinado usando ChartNet, um conjunto de dados multimodal de escala de milhões.