Step‑Video‑T2V

1. Présentation générale

  • Step‑Video‑T2V est un modèle texte-à-vidéo open‑source de 30 milliards de paramètres, capable de générer des vidéos de jusqu’à 204 images à partir de prompts en anglais ou en chinois stepvideot2v.com+13stepfunt2v.com+13github.com+13.

2. Architecture et innovations techniques

  • Video‑VAE à haute compression : réduit les données vidéos avec un facteur de compression 16×16 spatial et 8× temporel, tout en maintenant une qualité élevée news9live.com+7github.com+7adasci.org+7.
  • DiT (Diffusion Transformer) avec attention 3D complète : 48 couches, 48 têtes, intègre RoPE‑3D, QK‑Norm et AdaLN‑Single pour garantir cohérence spatiale et temporelle adasci.org+2github.com+2stepfunt2v.com+2.
  • Video‑DPO (Direct Preference Optimization) : ajuste le modèle en fonction des retours humains pour réduire les artefacts et améliorer le réalisme arxiv.org+8github.com+8adasci.org+8.

3. Pipeline d’entraînement

Une formation en quatre étapes successives :

  1. Pré‑formation texte‑image – capture des concepts visuels
  2. Pré‑formation texte‑vidéo – apprentissage de la dynamique des mouvements
  3. Supervised fine‑tuning (SFT) avec données de haute qualité
  4. Video‑DPO pour affiner la qualité finale adasci.org+2arxiv.org+2youtube.com+2toolify.ai+10arxiv.org+10adasci.org+10.

4. Résultats et benchmark

  • Évalué sur Step‑Video‑T2V‑Eval (128 prompts, 11 catégories), il dépasse la plupart des modèles open‑source et concurrents commerciaux stepvideot2v.com+13arxiv.org+13github.com+13.
  • Performances comparables à celles de modèles commerciaux tels que Runway Gen‑3, avec des mouvements plus dynamiques, malgré une résolution limitée à 540 pixels arxiv.org.

5. Points forts et limites

 Points forts :

Limites :

6. Accès et usage

  • Code, modèles (original et version “Turbo” distillée), documentation et démo sont disponibles sur GitHub et Hugging Face .
  • Prérequis techniques : Linux, Python ≥ 3.10, PyTorch ≥ 2.3, GPU CUDA avec ~80 Go de VRAM minimum stepfunt2v.com+1toolify.ai+1.
  • Démo accessible en ligne sur yuewen.cn/videos