Supertone Lança Supertonic v3: Modelo Text-to-Speech On-Device com Suporte a 31 Idiomas, Menos Falhas de Leitura e Tags de Expressão

A empresa de IA de voz com sede em Seul lança a terceira geração do seu motor TTS on-device, adicionando tags expressivas, estabilidade de leitura aprimorada e um aumento de 6x na cobertura de idiomas — tudo isso mantendo o contrato de inferência inalterado para integrações existentes.

A Supertone lançou o Supertonic 3, a terceira geração de seu sistema text-to-speech on-device baseado em ONNX. O Supertonic 3 vem com suporte a 31 idiomas, precisão de leitura aprimorada, menos falhas de repetição e pulo, e ativos ONNX públicos compatíveis com a v2. É um TTS Ultrarrápido, On-Device, Multilíngue e Preciso. O Que Mudou da v2 para a v3 Comparado ao Supertonic 2, o Supertonic 3 reduz as falhas de repetição e pulo, melhora a similaridade do locutor no conjunto de idiomas compartilhados e expande a cobertura de idiomas de 5 para 31 idiomas. A Versão 2 suportava inglês, coreano, espanhol, português e francês. A Versão 3 adiciona japonês, árabe, búlgaro, tcheco, dinamarquês, alemão, grego, estoniano, finlandês, croata, húngaro, indonésio, italiano, lituano, letão, holandês, polonês, romeno, russo, eslovaco, esloveno, sueco, turco, ucraniano e vietnamita — um total de 31 códigos de idioma ISO. Há também um 'na' de fallback especial para texto cujo idioma é desconhecido ou está fora do conjunto suportado. O modelo cresce modestamente para acomodar os idiomas adicionados. Com cerca de 99M parâmetros nos ativos ONNX públicos, o Supertonic 3 é muito menor do que os sistemas TTS abertos da classe 0.7B a 2B. O tamanho menor do modelo é uma vantagem prática para tamanho de download, tempo de inicialização e inferência on-device. A atualização também eleva o espaço total em disco dos ativos ONNX públicos para 404 MB. Além disso, a Supertone lançou recentemente o Voice Builder, permitindo que os desenvolvedores criem modelos TTS personalizados, nativos de borda, a partir de suas próprias gravações de voz. Tags Expressivas Uma nova capacidade na v3 que não estava presente na v2 é o suporte a tags expressivas. O Supertonic 3 suporta tags expressivas simples, como <laugh>, <breath> e <sigh>. Elas permitem que você incorpore dicas prosódicas diretamente no texto de entrada sem uma etapa de pré-processamento separada ou um modelo separado para expressividade. Para engenheiros que desenvolvem interfaces de voz ou ferramentas de acessibilidade, isso significa que você pode especificar pausas para respiração ou risadas diretamente no seu payload de texto. Arquitetura e Tempo de Execução A arquitetura subjacente é a mesma das versões anteriores: um autoencoder de fala que codifica formas de onda em representações latentes contínuas, um módulo de texto para latente baseado em Flow-Matching que mapeia texto para recursos de áudio, e um preditor de duração que controla o tempo natural. O Flow-Matching é uma técnica de modelagem generativa que aprende um campo vetorial para transformar uma distribuição simples em uma distribuição alvo — ele amostra mais rápido do que os modelos de difusão em baixas st