Tencent AI Open Sources Covo-Audio: Um Modelo de Linguagem de Fala de 7B e Pipeline de Inferência para Conversas e Raciocínio de Áudio em Tempo Real
O Tencent AI Lab lançou o Covo-Audio, um Large Audio Language Model (LALM) end-to-end de 7 bilhões de parâmetros. O modelo foi projetado para unificar o processamento de fala e a inteligência da linguagem, processando diretamente entradas de áudio contínuas e gerando saídas de áudio em uma única arquitetura. Arquitetura do Sistema O framework Covo-Audio consiste em quatro componentes primários projetados para interação cross-modal contínua.
O Tencent AI Lab lançou o Covo-Audio, um Large Audio Language Model (LALM) end-to-end de 7 bilhões de parâmetros. O modelo foi projetado para unificar o processamento de fala e a inteligência da linguagem, processando diretamente entradas de áudio contínuas e gerando saídas de áudio em uma única arquitetura. Arquitetura do Sistema O framework Covo-Audio consiste em quatro componentes primários projetados para interação cross-modal contínua: Audio Encoder: O modelo utiliza o Whisper-large-v3 como seu codificador principal devido à sua robustez contra ruído de fundo e sotaques variados. Este componente opera a uma taxa de quadros de 50 Hz. Adaptador de Áudio: Para fazer a ponte entre o codificador e o LLM, um adaptador especializado emprega três módulos de downsampling, integrando camadas lineares e de convolução para reduzir a taxa de quadros de 50 Hz para 6,25 Hz. Backbone do LLM: O sistema é construído com base no Qwen2.5-7B-Base, que foi adaptado para processar sequências intercaladas de características acústicas contínuas e tokens textuais. Speech Tokenizer e Decoder: O tokenizer, baseado no WavLM-large, usa um tamanho de codebook de 16.384 para produzir tokens de áudio discretos a 25 Hz. O decoder emprega um framework baseado em Flow-Matching (FM) e um vocoder BigVGAN para reconstruir formas de onda de alta fidelidade de 24K. https://arxiv.org/pdf/2602.09823 Intercalação Tri-modal Hierárquica Uma contribuição central deste trabalho é a estratégia de Intercalação Hierárquica Tri-modal de Fala-Texto. Ao contrário dos métodos tradicionais que operam apenas no nível de palavra ou caractere, este framework alinha características acústicas contínuas (a_c), tokens de fala discretos (a_d) e texto em linguagem natural (t). O modelo utiliza dois padrões principais: Intercalação Sequencial (a_c → t → a_d): Características contínuas, texto e tokens discretos são organizados em uma cadeia progressiva. Integração Paralela (a_c → t | a_d): Características contínuas são alinhadas com uma unidade de texto-discreta acoplada. O aspecto hierárquico garante coerência estrutural usando intercalação em nível de frase para alinhamento fino e intercalação em nível de sentença para preservar a integridade semântica global em enunciados longos. O processo de treinamento envolveu um pipeline de pré-treinamento de duas etapas, processando um total de 2T tokens. Desacoplamento Inteligência-Locutor Para mitigar o alto custo de construção de dados de diálogo em larga escala para locutores específicos, a equipe de pesquisa propôs uma estratégia de Desacoplamento Inteligência-Locutor. Esta técnica separa o diálogo.
