🔊 Présentation générale
- kokoro‑onnx est un moteur text‑to‑speech (TTS), open‑source, utilisant ONNX Runtime et basé sur Kokoro‑TTS. Il est léger (~300 Mo, ou ~80 Mo en quantization int8) et multiplateforme (Linux, Windows, macOS, x86‑64, ARM64) github.com+9github.com+9github.com+9.
- Le dépôt totalise 2 100 étoiles et 199 forks, avec ses premiers modèles (v1.0) publiés en janvier 2025, puis mise à jour en mars avec v1.1 github.com.
⚙️ Fonctionnalités clés
- Voix multiples : propose plusieurs styles vocaux grâce à un fichier voices-v1.0.bin (~26 voix) github.com+1github.com+1.
- Performances :
- macOS M1 → vitesse proche du temps réel github.com+1reddit.com+1.
- GPU (3090 Ti) → ~25× le temps réel, CPU Ryzen → ~11× reddit.com.
- Optimisations ONNX : modèles disponibles en versions f32, f16 et int8 pour s’adapter aux contraintes de ressources github.com.
🛠️ Installation & exemple d’utilisation
- pip install -U kokoro-onnx
- Installer uv (isolated Python env recommandé)
- Télécharger modèles et voix (.onnx, .bin)
-
Exemple (fichier hello.py) :
python
CopierModifier
from kokoro_onnx import Kokoro
session = InferenceSession("kokoro-v1.0.onnx", providers=["CUDAExecutionProvider"])
kokoro = Kokoro.from_session(session, "voices-v1.0.bin")
samples, rate = kokoro.create("Hello world", voice="af_sky", speed=1.0, lang="en-us")→ Génère audio.wav github.com+9github.com+9github.com+9.
✅ Avantages & ⚠️ Limitations
Avantages :
- Compact, portable, rapide, multiplateforme .
À surveiller :
- Quelques bugs signalés (ex. la vitesse ne s’applique pas correctement sur certaines voix zh en v1.1) github.com+1github.com+1.
- Fonctionnalités comme transcription ou timestamps ne sont pas encore supportées .
💬 Retour de la communauté (Reddit)
“kokoro‑tts is now my favorite TTS for homelab use… it just works on long texts without too many hallucinations or long pauses.”
— VoidAlchemy reddit.com
“It's one of the smallest TTS models we've seen released in ages… 85 M model.”
— iKy1e reddit.com
👉 sur un 3090 Ti, ~25× temps réel, sur CPU Ryzen overclocké ~11× .