Zonos‑v0.1

Github

https://github.com/Zyphra/Zonos

🔊 Présentation générale

Zonos‑v0.1 est un modèle text‑to‑speech open‑weight de pointe offrant une génération vocale expressive en qualité 44 kHz, avec performances comparables ou supérieures à celles des meilleurs services TTS commerciaux github.com+6huggingface.co+6github.com+6.
Il a été formé sur plus de 200 000 heures de données audio multilingues (anglais, chinois, etc.) lightning.ai+1reddit.com+1.

⚙️ Fonctionnalités clés

Voix expressives et naturelles : capable de reproduire des styles variés, et même de cloner une voix cible à partir d’un court extrait audio .
Préfixe audio : acceptant un clip d’entrée pour guider l’intonation et l’émotion de la synthèse .

🛠️ Implémentation technique

Le modèle est disponible en deux variantes : 'hybrid' et 'transformer', aisément utilisables via la méthode Zonos.from_pretrained(...) github.com+4github.com+4huggingface.co+4.
Requiert un environnement Linux (Ubuntu 22.04/24.04) avec GPU NVIDIA récent (RTX 3000+) et au moins 6 Go de VRAM huggingface.co. Certains efforts récents visent à rendre le modèle compatible avec des GPU AMD et les Macs Apple Silicon huggingface.co.

👍 Réception par la communauté

Très bien accueilli sur Reddit, avec des utilisateurs louant sa qualité expressive :

“Pretty expressive high quality TTS with 44KHZ…” github.com+2reddit.com+2huggingface.co+2
Discussions en cours pour améliorer l’accessibilité sur Apple Silicon et d’autres plateformes .