kokoro‑onnx | GPT Blog

Github

https://github.com/thewh1teagle/kokoro-onnx

🔊 Présentation générale

kokoro‑onnx est un moteur text‑to‑speech (TTS), open‑source, utilisant ONNX Runtime et basé sur Kokoro‑TTS. Il est léger (~300 Mo, ou ~80 Mo en quantization int8) et multiplateforme (Linux, Windows, macOS, x86‑64, ARM64) github.com+9github.com+9github.com+9.
Le dépôt totalise 2 100 étoiles et 199 forks, avec ses premiers modèles (v1.0) publiés en janvier 2025, puis mise à jour en mars avec v1.1 github.com.

⚙️ Fonctionnalités clés

Voix multiples : propose plusieurs styles vocaux grâce à un fichier voices-v1.0.bin (~26 voix) github.com+1github.com+1.
Performances :
- macOS M1 → vitesse proche du temps réel github.com+1reddit.com+1.
- GPU (3090 Ti) → ~25× le temps réel, CPU Ryzen → ~11× reddit.com.
Optimisations ONNX : modèles disponibles en versions f32, f16 et int8 pour s’adapter aux contraintes de ressources github.com.

🛠️ Installation & exemple d’utilisation

pip install -U kokoro-onnx
Installer uv (isolated Python env recommandé)
Télécharger modèles et voix (.onnx, .bin)
Exemple (fichier hello.py) :

python

CopierModifier

from kokoro_onnx import Kokoro
session = InferenceSession("kokoro-v1.0.onnx", providers=["CUDAExecutionProvider"])
kokoro = Kokoro.from_session(session, "voices-v1.0.bin")
samples, rate = kokoro.create("Hello world", voice="af_sky", speed=1.0, lang="en-us")

→ Génère audio.wav github.com+9github.com+9github.com+9.

✅ Avantages & ⚠️ Limitations

Avantages :

Compact, portable, rapide, multiplateforme .

À surveiller :

Quelques bugs signalés (ex. la vitesse ne s’applique pas correctement sur certaines voix zh en v1.1) github.com+1github.com+1.
Fonctionnalités comme transcription ou timestamps ne sont pas encore supportées .

💬 Retour de la communauté (Reddit)

“kokoro‑tts is now my favorite TTS for homelab use… it just works on long texts without too many hallucinations or long pauses.”
— VoidAlchemy reddit.com

“It's one of the smallest TTS models we've seen released in ages… 85 M model.”
— iKy1e reddit.com

👉 sur un 3090 Ti, ~25× temps réel, sur CPU Ryzen overclocké ~11× .