Qu’est‑ce que FoleyCrafter ?
FoleyCrafter est un modèle d’IA de type vidéo-à-audio, capable de générer automatiquement des effets sonores de haute qualité pour des vidéos muettes. Il a été développé par le Shanghai AI Lab et l’Université chinoise de Hong Kong, Shenzhen aibase.com+11foleycrafter.github.io+11foleycrafter.github.io+11.
Principales caractéristiques
- Haute qualité audio
Il repose sur un modèle de génération texte-à-audio pré-entraîné (comme Auffusion), garantissant une qualité sonore élevée et réaliste github.com+2foleycrafter.github.io+2github.com+2foleycrafter.github.io+4arxiv.org+4github.com+4. - Alignement sémantique
Grâce à un semantic adapter (module d’adaptation sémantique), FoleyCrafter prend en compte les éléments visuels pour générer automatiquement des sons cohérents avec ce qui se passe à l’écran (par exemple, un chien qui aboie lorsqu’il apparaît) github.com+5arxiv.org+5arxiv.org+5. - Synchronisation temporelle précise
Il intègre un temporal controller, constitué d’un détecteur d’« onsets » (début des sons) et d’un adaptateur temporel, pour aligner précisément effets sonores et actions visuelles (ex. : bruit de porte au moment exact où elle se ferme) arxiv.org+1foleycrafter.github.io+1. - Contrôle textuel
L’utilisateur peut guider la génération sonore via des prompts textuels. Exemple : en ajoutant « seagulls » ou « noisy, people talking », on peut influencer la nature des bruits générés foleycrafter.github.io+2foleycrafter.github.io+2github.com+2.
Démonstration & accès
- Une démo en ligne est disponible sur Hugging Face Spaces : les utilisateurs téléchargent une vidéo, ajoutent un prompt et obtiennent instantanément la version bruitée huggingface.co+1huggingface.co+1.
- Le code open‑source est hébergé sur GitHub (licence Apache‑2.0), avec scripts pour configurer l’environnement, exécuter des inférences et contrôler les prompts .
Applications et potentiel
- Post‑production vidéo et cinéma, pour créer des effets Foley sans recourir à un studio spécialisé.
- Créateurs de contenu (YouTube, Twitch…), pour enrichir facilement leurs séquences muettes.
- Jeux vidéo et animations, où un apport rapide et flexible d’effets sonores améliore l’immersion