Qwen Image - AI Model

Qwen-Image ist ein leistungsstarkes Open-Source-Grundlagenmodell für die Generierung und Bearbeitung von Bildern, das auf einem von MoE angetriebenen Multimodal Diffusion Transformer aufbaut. Es zeichnet sich durch die saubere und präzise Darstellung von Texten direkt in Bildern aus (Englisch und Chinesisch) und verfügt über eine starke Layout-Kohärenz bei mehrzeiligen und Absatzlayouts. Neben der Text-zu-Bild-Funktion unterstützt es fortgeschrittene Bearbeitungen wie Stiltransfer, Objekteinfügung/-entfernung, Posemanipulation und Detailverbesserung sowie die Mehrbildbearbeitung für konsistente Person-zu-Produkt- oder Szenekompositionen. Es integriert sich mit ComfyUI und bietet GGUF-Quantisierung für die lokale Verwendung. Geben Sie spezifische, strukturierte Anweisungen an und verwenden Sie ControlNet-Eingaben (Tiefe/Kanten/Schlüsselpunkte) für präzise Steuerung. Ideal für Marketing-Visuals, E-Commerce-Poster, Comics und mehrsprachiges Design.

Beispielausgabe

Verwendeter Prompt

A steampunk astronaut playing a grand piano on the edge of a floating cliff in the sky, under a golden sunset. The cliff is covered in moss and rusted metal pipes, with small mechanical birds perched around. The astronaut’s suit is detailed with brass, leather straps, and glowing blue tubes. Clouds drift below, while distant airships pass in the background. The lighting is dramatic, casting long shadows and warm reflections on the piano’s surface. Ultra-detailed, cinematic composition, dreamy and surreal atmosphere, 8K.