Wan-AI"Wan 2.2 A14B Text-to-Video verwandelt detaillierte Textvorgaben in 5-sekündige 720p-Videos mit 24 fps, die kinematische Bewegungen und kohärente Szenen liefern. Auf einem Diffusions-Transformer mit einem stark komprimierten VAE aufgebaut, unterstützt es sowohl Text-zu-Video als auch Bild-zu-Video in einem Workflow und kann auf Verbraucher-GPUs (z. B. RTX 4090) mit Speicheroptimierungen ausgeführt werden. Erwarten Sie Szenen mit mehreren Objekten, zeitliche Konsistenz und flexible Seitenverhältnisse. Schreiben Sie für beste Ergebnisse spezifische Vorgaben, die Themen, Beleuchtung, Bewegung und Komposition beschreiben. Die Inferenz mit einem einzelnen GPU kann etwa 9 Minuten dauern; Multi-GPU-Setups beschleunigen signifikant. Wenn der VRAM begrenzt ist, verwenden Sie Auslagerung und dtype-Konvertierung oder versuchen Sie die kleinere 5B-Variante."
