Und hier kommt mein Ninja.

Fangen wir mit einer kleinen Auflösung von 1304 x 768 an.
Als Zusatzmodell, ein sogenanntes Lora-Modell (steht für
Low-Rank Adaptation) nutzen wir
Into Darkness.
Man darf sich das als eine Art direkteinspritzung für das Hauptmodell vorstellen, damit beispielweise gewisse Effekte, oder Charaktere hinzugefügt werden können.
Das Ergebnis:
Prompt:
<lora:Into_Darkness:1> dark photo of a ninja with a single detailed black katana standing at a glowing sea with blue particles flying arround, idyllic atmosphere and skybox, night, 35mm cinematic, film, bokeh, professional, 4k, highly detailed
Negative prompt: painting, cartoon, anime, flashes,
Steps: 50, Sampler: DPM++ 3M SDE Karras, CFG scale: 7, Seed: 1349287405, Size: 1304x768, Model hash: 673887ace8, Model: OpenDalleV1.1, Lora hashes: "Into_Darkness: a19db05b8920", Version: v1.7.0
Da mir die Auflösung allerdings nicht hoch genug war, ging es von txt2img zu img2img. Anstatt also nur den Prompt als mittel zu benutzen, nehmen wir das generierte Bild als Basis um eine höhere Auflösung zu erreichen.
Mit hilfte von Extensions wie ControlNet und Ultimate SD Upscale, können wir während des Prozesses die Bilder aufteilen um so den benötigten Grafikspeicher zu reduzieren. Ultimate SD Upscale ist für das Aufteilen und maskieren (wir wollen ja, dass die einzelnen Tiles nahtlos wieder aneinander gehen) der benötigten stellen verantwortlich. Hier zu stellen wir in den Settings den Typ auf "Chess" und bringen noch einen Half tiles offset pass mit rein, der sich dann direkt um die Stellen kümmert, wo die tiles aneinander treffen.
Als Upscaler nehmen wir das altbewährte Lanczos.
Warum keinen KI-Upscaler?
KI Upscaler sind in einigen Szenarien sehr gut zu gebrauchen, aber in vielen Bereichen überstrapazieren sie das Ergebnis. Das Ergebnis wird einfach viel zu sauber, was bei Portraitfotos z.b. einfach unnatürlich wirkt.
Effekte wie ein Grundrauschen, welches dem Bild einen persönlichen Touch verleihen werden rausgefiltert. Haut wirkt unnatürlich plastisch. All das kann mit einem herkömlichen Upscaler vermieden werden.
Auch kommen KI-Upscaler mit kleinen Details im Hintergrund nicht immer klar. Sobald man dann reinzoomed, erkennt man wie die KI dann wirklich geschmiert hat. Das geht es um jeden preis zu vermeiden.
Außerdem baut img2img uns das Bild so schon neu auf, wir verhindern somit gleichzeitig eine überschärfung des Bildes.
Zu ControlNet:
ControlNet hat die Ehre uns eine Depthmap zu erstellen. Als Preprocessor nehmen wir das neue
Depth Anything und als zusätzliche Unit schalten wir noch einen Reference Preprocessor dazu um eine gewisse Stabilität zu erreichen.
Da ich als Basis ein SD XL (Stable Diffusion XL) Modell genommen habe, fehlt mir eine gewisse Tile Unit um sauber höhere Auflösungen zu erreichen. Die beiden erst genannten helfen dabei, dennoch ein akzeptables Ergebnis zu erzielen:
Auflösung: 3260x1920
Positiv:
<lora:Into_Darkness:1> dark photo of a ninja with a single detailed black katana standing at a glowing sea with blue particles flying arround, idyllic atmosphere and skybox, night, 35mm cinematic, film, bokeh, professional, 4k, highly detailed
Negative prompt: painting, cartoon, anime, flashes,
Steps: 40,
Sampler: DPM++ 3M SDE Karras,
CFG scale: 7,
Seed: 1349287405,
Size: 3260x1920,
Model hash: 673887ace8,
Model: OpenDalleV1.1,
Denoising strength: 0.85,
Ultimate SD upscale upscaler: Lanczos,
Ultimate SD upscale tile_width: 1216,
Ultimate SD upscale tile_height: 1216,
Ultimate SD upscale mask_blur: 64,
Ultimate SD upscale padding: 128,
ControlNet 0: "Module: depth_anything,
Model: diffusers_xl_depth_full [2f51180b],
Weight: 1, Resize Mode: Crop and Resize,
Low Vram: False,
Processor Res: 512,
Guidance Start: 0,
Guidance End: 1,
Pixel Perfect: True,
Control Mode: Balanced,
Hr Option: Both,
Save Detected Map: True",
ControlNet 1: "Module: reference_only,
Model: None, Weight: 2,
Resize Mode: Crop and Resize,
Low Vram: False,
Threshold A: 0.5,
Guidance Start: 0,
Guidance End: 1,
Pixel Perfect: True,
Control Mode: Balanced,
Hr Option: Both,
Save Detected Map: True",
Lora hashes: "Into_Darkness: a19db05b8920",
Version: v1.7.0
Das selbe nochmal in kleinerer Auflösung in besserer Konsistenz:
Die Renderzeit für das große betrugt etwa 10-20 Minuten bei einer RTX 4090, hab da jetzt nicht genau drauf geachtet.
ach und so sieht es noch aus, wenn man falsche Settings nimmt (oder es immer noch kein Tile Controlnet Modell für XL gibt (╯°□°)╯︵ ┻━┻):