Jul 8, 2025

Step‑Video‑T2V

Github

Step‑Video‑T2V est un modèle texte-à-vidéo open‑source de 30 milliards de paramètres, capable de générer des vidéos de jusqu’à 204 images à partir de prompts en anglais ou en chinois stepvideot2v.com+13stepfunt2v.com+13github.com+13.

Video‑VAE à haute compression : réduit les données vidéos avec un facteur de compression 16×16 spatial et 8× temporel, tout en maintenant une qualité élevée news9live.com+7github.com+7adasci.org+7.
DiT (Diffusion Transformer) avec attention 3D complète : 48 couches, 48 têtes, intègre RoPE‑3D, QK‑Norm et AdaLN‑Single pour garantir cohérence spatiale et temporelle adasci.org+2github.com+2stepfunt2v.com+2.
Video‑DPO (Direct Preference Optimization) : ajuste le modèle en fonction des retours humains pour réduire les artefacts et améliorer le réalisme arxiv.org+8github.com+8adasci.org+8.

Une formation en quatre étapes successives :

Pré‑formation texte‑image – capture des concepts visuels
Pré‑formation texte‑vidéo – apprentissage de la dynamique des mouvements
Supervised fine‑tuning (SFT) avec données de haute qualité
Video‑DPO pour affiner la qualité finale adasci.org+2arxiv.org+2youtube.com+2 toolify.ai+10arxiv.org+10adasci.org+10.

Évalué sur Step‑Video‑T2V‑Eval (128 prompts, 11 catégories), il dépasse la plupart des modèles open‑source et concurrents commerciaux stepvideot2v.com+13arxiv.org+13github.com+13.
Performances comparables à celles de modèles commerciaux tels que Runway Gen‑3, avec des mouvements plus dynamiques, malgré une résolution limitée à 540 pixels arxiv.org.

Points forts :

Open‑source, gratuit et bilingue (anglais + chinois) github.com+12toolify.ai+12youtube.com+12.
Compression vidéo efficace ; modèle large.
Réduction des artefacts via le video‑DPO.

Limites :

Exige GPU puissant (≥ 80 GB) pour l’inférence stepfunt2v.com+1news9live.com+1 toolify.ai+8toolify.ai+8stepfunt2v.com+8.
Difficultés sur des actions complexes ou cinématiques précises, ainsi que sur la génération de texte complexe à l’écran, notamment en chinois .

Code, modèles (original et version “Turbo” distillée), documentation et démo sont disponibles sur GitHub et Hugging Face .
Prérequis techniques : Linux, Python ≥ 3.10, PyTorch ≥ 2.3, GPU CUDA avec ~80 Go de VRAM minimum stepfunt2v.com+1toolify.ai+1.
Démo accessible en ligne sur yuewen.cn/videos