Cohere AI Lança Cohere Transcribe: Um Modelo SOTA de Reconhecimento Automático de Fala (ASR) Impulsionando a "Enterprise Speech Intelligence"

No cenário da IA corporativa, a ponte entre áudio não estruturado e texto acionável tem sido frequentemente um gargalo de APIs proprietárias e pipelines em cascata complexos. Hoje, a Cohere – uma empresa tradicionalmente conhecida por seus modelos de geração de texto e embeddings – entrou oficialmente no mercado de Reconhecimento Automático de Fala (ASR) com o lançamento de seu mais recente modelo, o 'Cohere Transcribe'. A Arquitetura: Por Que o Conformer Importa Para entender o modelo Cohere Transcribe, é preciso ir além do rótulo 'Transformer'. Embora o modelo seja uma arquitetura codificador-decodificador, ele utiliza especificamente um grande codificador Conformer emparelhado com um decodificador Transformer leve. Um Conformer é uma arquitetura híbrida que combina os pontos fortes das Redes Neurais Convolucionais (CNNs) e dos Transformers. Em ASR, recursos locais (como fonemas específicos ou transições rápidas no som) são frequentemente tratados melhor por CNNs, enquanto o contexto global (o significado da sentença) é domínio dos Transformers. Ao intercalar essas camadas, o modelo da Cohere é projetado para capturar detalhes acústicos de granulação fina e dependências linguísticas de longo alcance. O modelo foi treinado usando entropia cruzada supervisionada padrão, um objetivo de treinamento clássico, mas robusto, que se concentra em minimizar a diferença entre o texto predito e a transcrição original. Desempenho Embora alguns modelos globais visem mais de 100 idiomas com graus variados de precisão, a Cohere optou por uma abordagem de 'qualidade sobre quantidade'. O modelo suporta oficialmente 14 idiomas: inglês, alemão, francês, italiano, espanhol, português, grego, holandês, polonês, árabe, vietnamita, chinês, japonês e coreano. A Cohere posiciona o Transcribe como um modelo ASR de alta precisão e orientado para produção. Ele ocupa o 1º lugar no Hugging Face Open ASR Leaderboard (26 de março de 2026) com um WER médio de 5,42% em conjuntos de benchmark, incluindo AMI, Earnings22, GigaSpeech, LibriSpeech clean/other, SPGISpeech, TED-LIUM e VoxPopuli. Ele também obteve 8,13 no AMI, 10,86 no Earnings22, 9,34 no GigaSpeech, 1,25 no LibriSpeech clean, 2,37 no LibriSpeech other, 3,08 no SPGISpeech, 2,49 no TED-LIUM e 5,87 no VoxPopuli, superando modelos como Whisper Large v3 (7,44 WER médio), ElevenLabs Scribe v2 (5,83) e Qwen3-ASR-1.7B (5,76) em vários leaderboards. https://cohere.com/blog/transcribe A equipe da Cohere também relata resultados de preferência humana mais fortes em inglês, onde os anotadores preferiram o Transcribe em detrimento dos concorrentes.