Wan | v2.2 A14B | Text to Video | Turbo - AI Model

Wan 2.2 A14B Text-to-Video transforme des instructions textuelles détaillées en vidéos de 5 secondes en 720p à 24 images par seconde, offrant un mouvement cinématographique et des scènes cohérentes. Basé sur un diffuseur-transformateur avec un VAE hautement compressé, il prend en charge à la fois la conversion de texte en vidéo et d'image en vidéo dans un seul flux de travail et peut fonctionner sur des GPU grand public (par exemple, RTX 4090) avec des optimisations de mémoire. Attendez-vous à des scènes multi-objets, une cohérence temporelle et des ratios d'aspect flexibles. Pour de meilleurs résultats, écrivez des instructions spécifiques décrivant les sujets, l'éclairage, le mouvement et la composition. L'inférence sur un seul GPU peut prendre environ 9 minutes; les configurations multi-GPU accélèrent considérablement. Si la VRAM est limitée, utilisez le déchargement et la conversion de type ou essayez la variante plus petite 5B.

Exemple de sortie

Prompt utilisé

A hero bursts through a metal door, sprinting forward as a massive explosion erupts behind him, fire and debris blasting outward. The camera follows in dynamic motion, showing dust and sparks flying as the blast lights up the scene. In slow motion, the hero dives forward while the fiery glow illuminates his silhouette, creating an intense cinematic escape moment.