Text-to-video (texte vers vidéo)
Mis à jour le
Le text-to-video génère une séquence vidéo à partir d'une description textuelle, en assurant la cohérence temporelle entre les images.
📖 Définition
💬 En termes simples
C'est comme dicter un mini scénario à un studio d'animation instantané : vous décrivez « un chat astronaute qui flotte dans une cuisine », et la machine tourne et monte les images, plan par plan, en veillant à ce que le chat reste le même tout au long du clip.
🎯 Exemple concret
À partir du prompt « une vague géante déferle au ralenti sur une plage au coucher du soleil », un modèle text-to-video produit un clip de quelques secondes montrant la vague en mouvement, avec lumière et écume cohérentes d'une image à l'autre.
💡 Le saviez-vous ?
Le plus dur en text-to-video n'est pas de faire de belles images, mais d'assurer la cohérence temporelle : sans elle, un personnage changerait de visage ou de vêtements à chaque image. C'est pourquoi ces modèles raisonnent sur des « morceaux » d'espace ET de temps à la fois.