kokoro‑onnx

🔊 Présentation générale

  • kokoro‑onnx est un moteur text‑to‑speech (TTS), open‑source, utilisant ONNX Runtime et basé sur Kokoro‑TTS. Il est léger (~300 Mo, ou ~80 Mo en quantization int8) et multiplateforme (Linux, Windows, macOS, x86‑64, ARM64) github.com+9github.com+9github.com+9.
  • Le dépôt totalise 2 100 étoiles et 199 forks, avec ses premiers modèles (v1.0) publiés en janvier 2025, puis mise à jour en mars avec v1.1 github.com.

⚙️ Fonctionnalités clés

  • Voix multiples : propose plusieurs styles vocaux grâce à un fichier voices-v1.0.bin (~26 voix) github.com+1github.com+1.
  • Performances :
  • Optimisations ONNX : modèles disponibles en versions f32, f16 et int8 pour s’adapter aux contraintes de ressources github.com.

🛠️ Installation & exemple d’utilisation

  1. pip install -U kokoro-onnx
  2. Installer uv (isolated Python env recommandé)
  3. Télécharger modèles et voix (.onnx, .bin)
  4. Exemple (fichier hello.py) :

    python

    CopierModifier

    from kokoro_onnx import Kokoro
    session = InferenceSession("kokoro-v1.0.onnx", providers=["CUDAExecutionProvider"])
    kokoro = Kokoro.from_session(session, "voices-v1.0.bin")
    samples, rate = kokoro.create("Hello world", voice="af_sky", speed=1.0, lang="en-us")

    → Génère audio.wav github.com+9github.com+9github.com+9.

✅ Avantages & ⚠️ Limitations

Avantages :

  • Compact, portable, rapide, multiplateforme .

À surveiller :

  • Quelques bugs signalés (ex. la vitesse ne s’applique pas correctement sur certaines voix zh en v1.1) github.com+1github.com+1.
  • Fonctionnalités comme transcription ou timestamps ne sont pas encore supportées .

💬 Retour de la communauté (Reddit)

“kokoro‑tts is now my favorite TTS for homelab use… it just works on long texts without too many hallucinations or long pauses.”
VoidAlchemy reddit.com

“It's one of the smallest TTS models we've seen released in ages… 85 M model.”
iKy1e reddit.com

👉 sur un 3090 Ti, ~25× temps réel, sur CPU Ryzen overclocké ~11× .