Wan-AIWan 2.2 A14B Text-to-Video transforme des instructions textuelles détaillées en vidéos de 5 secondes en 720p à 24 images par seconde, offrant un mouvement cinématographique et des scènes cohérentes. Basé sur un diffuseur-transformateur avec un VAE hautement compressé, il prend en charge à la fois la conversion de texte en vidéo et d'image en vidéo dans un seul flux de travail et peut fonctionner sur des GPU grand public (par exemple, RTX 4090) avec des optimisations de mémoire. Attendez-vous à des scènes multi-objets, une cohérence temporelle et des ratios d'aspect flexibles. Pour de meilleurs résultats, écrivez des instructions spécifiques décrivant les sujets, l'éclairage, le mouvement et la composition. L'inférence sur un seul GPU peut prendre environ 9 minutes; les configurations multi-GPU accélèrent considérablement. Si la VRAM est limitée, utilisez le déchargement et la conversion de type ou essayez la variante plus petite 5B.
