Wan-AIWan 2.2 A14B Text-to-Video convierte instrucciones detalladas de texto en videos de 5 segundos en 720p a 24 fps, ofreciendo un movimiento cinematográfico y escenas coherentes. Basado en un difusor-transformador con un VAE altamente comprimido, admite tanto la conversión de texto a video como de imagen a video en un flujo de trabajo y puede ejecutarse en GPUs de consumo (por ejemplo, RTX 4090) con optimizaciones de memoria. Espere escenas con múltiples objetos, consistencia temporal y relaciones de aspecto flexibles. Para obtener mejores resultados, escriba instrucciones específicas que describan los sujetos, la iluminación, el movimiento y la composición. La inferencia con una sola GPU puede llevar alrededor de 9 minutos; las configuraciones con múltiples GPU aceleran significativamente. Si la VRAM es limitada, utilice la descarga y la conversión de tipo, o pruebe la variante más pequeña 5B.
