Wan | v2.2 A14B | Text to Video | Turbo - AI Model

Wan 2.2 A14B Text-to-Video convierte instrucciones detalladas de texto en videos de 5 segundos en 720p a 24 fps, ofreciendo un movimiento cinematográfico y escenas coherentes. Basado en un difusor-transformador con un VAE altamente comprimido, admite tanto la conversión de texto a video como de imagen a video en un flujo de trabajo y puede ejecutarse en GPUs de consumo (por ejemplo, RTX 4090) con optimizaciones de memoria. Espere escenas con múltiples objetos, consistencia temporal y relaciones de aspecto flexibles. Para obtener mejores resultados, escriba instrucciones específicas que describan los sujetos, la iluminación, el movimiento y la composición. La inferencia con una sola GPU puede llevar alrededor de 9 minutos; las configuraciones con múltiples GPU aceleran significativamente. Si la VRAM es limitada, utilice la descarga y la conversión de tipo, o pruebe la variante más pequeña 5B.

Ejemplo de salida

Prompt utilizado

A hero bursts through a metal door, sprinting forward as a massive explosion erupts behind him, fire and debris blasting outward. The camera follows in dynamic motion, showing dust and sparks flying as the blast lights up the scene. In slow motion, the hero dives forward while the fiery glow illuminates his silhouette, creating an intense cinematic escape moment.