A Microsoft lançou o Microsoft VibeVoice-1.5B, um novo modelo de conversão de texto em voz (Text-to-Speech, TTS) de grande escala e código aberto.
Disponibilizado para a comunidade de investigação, o modelo destaca-se pela sua capacidade de gerar áudio de longa duração e diálogos com múltiplos intervenientes, o que representa um avanço considerável na síntese de voz.

Capacidades de geração e especificações
O VibeVoice-1.5B introduz várias funcionalidades notáveis para a síntese de voz:
- Geração de Áudio Longo: O modelo pode gerar até 90 minutos de áudio contínuo numa única inferência, superando as limitações de sistemas anteriores focados em frases curtas.
- Diálogo Multi-Interveniente: Suporta a síntese de conversas com até quatro oradores distintos, mantendo a consistência vocal de cada um ao longo da geração.
- Eficiência Computacional: Utiliza tokenizers (acústico e semântico) que operam a uma frequência ultra-baixa de 7.5 Hz, permitindo um processamento eficiente de sequências longas.
Arquitetura do modelo e licenciamento
A arquitetura do VibeVoice-1.5B é composta por três componentes principais:
- Large Language Model (LLM): Utiliza o Qwen2.5-1.5B para a compreensão do contexto textual e da estrutura do diálogo.
- Tokenizers (Acústico e Semântico): Responsáveis por converter o texto em representações que o modelo consegue processar.
- Diffusion Head: Um módulo que gera os detalhes acústicos de alta fidelidade da voz.
A Microsoft disponibilizou o modelo de código aberto sob a licença MIT, permitindo o seu uso em projetos de investigação. Os pesos do modelo e a documentação estão acessíveis na plataforma Hugging Face.
Limitações e utilização recomendada
A documentação oficial especifica as seguintes limitações de utilização para a versão atual:
- Suporte de Idiomas: O modelo foi treinado primariamente em inglês e chinês, não sendo recomendado para outros idiomas.
- Capacidades de Áudio: A geração está limitada a voz humana, não incluindo música, efeitos sonoros ou sobreposição de falas.
- Uso Proibido: A sua utilização para clonagem ou imitação de voz sem consentimento explícito é estritamente proibida. O modelo herda ainda os enviesamentos do LLM base.
O uso recomendado pela Microsoft é, para já, estritamente para fins de investigação e desenvolvimento.
Conclusão
O lançamento do VibeVoice-1.5B pela Microsoft constitui um contributo significativo para a comunidade de investigação em IA de texto-para-voz. As suas capacidades de geração de áudio longo e diálogos complexos, aliadas à sua arquitetura eficiente e licenciamento de código aberto, fornecem uma nova e poderosa ferramenta para o avanço da tecnologia de síntese de voz.
Outros artigos interessantes:










