Equipe Baidu Qianfan Lança Qianfan-OCR: Um Modelo de Inteligência de Documentos Unificado de 4B-Parâmetros

A Equipe Baidu Qianfan apresentou o Qianfan-OCR, um modelo end-to-end de 4B-parâmetros projetado para unificar a análise de documentos, análise de layout e compreensão de documentos dentro de uma única arquitetura de visão-linguagem. Ao contrário das pipelines OCR multi-estágios tradicionais que encadeiam módulos separados para detecção de layout e reconhecimento de texto, o Qianfan-OCR realiza a conversão direta de imagem para Markdown e suporta tarefas orientadas por prompt, como extração de tabelas e resposta a perguntas de documentos. https://arxiv.org/pdf/2603.13398 Arquitetura e Especificações Técnicas O Qianfan-OCR utiliza a arquitetura de ponte multimodal do framework Qianfan-VL. O sistema consiste em três componentes primários: Codificador de Visão (Qianfan-ViT): Emprega um design de Qualquer Resolução que divide imagens em patches de 448 x 448. Ele suporta entradas de resolução variável de até 4K, produzindo até 4.096 tokens visuais por imagem para manter a resolução espacial para fontes pequenas e texto denso. Adaptador Cross-Modal: Um MLP leve de duas camadas com ativação GELU que projeta características visuais no espaço de incorporação do modelo de linguagem. Backbone do Modelo de Linguagem (Qwen3-4B): Um modelo de 4.0B-parâmetros com 36 camadas e uma janela de contexto nativa de 32K. Ele utiliza a Atenção Agrupada por Consulta (GQA) para reduzir o uso de memória do cache KV em 4x. Mecanismo 'Layout-as-Thought' A principal característica do modelo é o 'Layout-as-Thought' (Layout-como-Pensamento), uma fase de pensamento opcional acionada por tokens <think>. Durante esta fase, o modelo gera representações de layout estruturadas — incluindo caixas delimitadoras, tipos de elementos e ordem de leitura — antes de produzir a saída final. Utilidade Funcional: Este processo recupera capacidades explícitas de análise de layout (localização de elementos e classificação de tipos) frequentemente perdidas em paradigmas end-to-end. Características de Desempenho: A avaliação no OmniDocBench v1.5 indica que a habilitação da fase de pensamento proporciona uma vantagem consistente em documentos com alta "entropia de rótulo de layout" — aqueles que contêm elementos heterogêneos como texto misto, fórmulas e diagramas. Eficiência: As coordenadas das caixas delimitadoras são representadas como tokens especiais dedicados ( <COORD_0> a <COORD_999> ), reduzindo o comprimento da saída de pensamento em aproximadamente 50% em comparação com sequências de dígitos simples. Desempenho Empírico e Benchmarks O Qianfan-OCR foi avaliado contra sistemas OCR especializados e VLMs (Vision-Language Models) gerais. Análise de Documentos e OCR Geral O modelo ocupa a primeira posição entre os modelos end-to-end em vários benchmarks importantes: OmniDoc