1. Présentation générale
- Step‑Video‑T2V est un modèle texte-à-vidéo open‑source de 30 milliards de paramètres, capable de générer des vidéos de jusqu’à 204 images à partir de prompts en anglais ou en chinois stepvideot2v.com+13stepfunt2v.com+13github.com+13.
2. Architecture et innovations techniques
- Video‑VAE à haute compression : réduit les données vidéos avec un facteur de compression 16×16 spatial et 8× temporel, tout en maintenant une qualité élevée news9live.com+7github.com+7adasci.org+7.
- DiT (Diffusion Transformer) avec attention 3D complète : 48 couches, 48 têtes, intègre RoPE‑3D, QK‑Norm et AdaLN‑Single pour garantir cohérence spatiale et temporelle adasci.org+2github.com+2stepfunt2v.com+2.
- Video‑DPO (Direct Preference Optimization) : ajuste le modèle en fonction des retours humains pour réduire les artefacts et améliorer le réalisme arxiv.org+8github.com+8adasci.org+8.
3. Pipeline d’entraînement
Une formation en quatre étapes successives :
- Pré‑formation texte‑image – capture des concepts visuels
- Pré‑formation texte‑vidéo – apprentissage de la dynamique des mouvements
- Supervised fine‑tuning (SFT) avec données de haute qualité
- Video‑DPO pour affiner la qualité finale adasci.org+2arxiv.org+2youtube.com+2toolify.ai+10arxiv.org+10adasci.org+10.
4. Résultats et benchmark
- Évalué sur Step‑Video‑T2V‑Eval (128 prompts, 11 catégories), il dépasse la plupart des modèles open‑source et concurrents commerciaux stepvideot2v.com+13arxiv.org+13github.com+13.
- Performances comparables à celles de modèles commerciaux tels que Runway Gen‑3, avec des mouvements plus dynamiques, malgré une résolution limitée à 540 pixels arxiv.org.
5. Points forts et limites
Points forts :
- Open‑source, gratuit et bilingue (anglais + chinois) github.com+12toolify.ai+12youtube.com+12.
- Compression vidéo efficace ; modèle large.
- Réduction des artefacts via le video‑DPO.
Limites :
- Exige GPU puissant (≥ 80 GB) pour l’inférence stepfunt2v.com+1news9live.com+1toolify.ai+8toolify.ai+8stepfunt2v.com+8.
- Difficultés sur des actions complexes ou cinématiques précises, ainsi que sur la génération de texte complexe à l’écran, notamment en chinois .
6. Accès et usage
- Code, modèles (original et version “Turbo” distillée), documentation et démo sont disponibles sur GitHub et Hugging Face .
- Prérequis techniques : Linux, Python ≥ 3.10, PyTorch ≥ 2.3, GPU CUDA avec ~80 Go de VRAM minimum stepfunt2v.com+1toolify.ai+1.
- Démo accessible en ligne sur yuewen.cn/videos