Bilderthread Der K.I. Bilderthread

mir bringt es schon was, ich wüsste schonmal gar nicht wie ich annähernd solche Bilder beschreibe.
Wobei Nvidia extra ein Tool zur Verfügung stellt, in welchem man ein KI BIld hochlädt und er sagt dir dann wie man es beschreiben würde ;)
Was für ein Tool?

Die Google Bildgenerator von Bard kann man noch in die Tonne kloppen. Völliger Müll was da rauskommt. Also zumindest bei meinem ersten Test die Tage. ^^
 
Was für ein Tool?
Also ChatGPT/CoPilot kann dir ein Foto analysieren, das ist schon recht cool, war ich gestern überrascht.
Und bei Nvidia gabs mal "NeMo", und hat dir gesagt: wenn du das Bild (etwa ein AI Bild) hochlädtst, mit welchem Prompt du auch zu sowas (oder sowas ähnlichem) kommen würdest. Das wurde aber inzwischen weiterentwickelt und er beschreibt dir jetzt auch schon Fotos, vermutlich kann man mit dieser Beschreibung wieder Bilder erzeugen

ich habs kurz ausprobiert und ein Random Bild hochgeladen, gefragt welcher Prompt wohl notwendig wäre:
1706999887581.png


herausgekommen ist nach der Eingabe sowas:
1707000101654.jpeg

1707000129938.jpeg

Hier mehr AI Tools auf der NV Seite:
 
Zuletzt bearbeitet:
Gute Frage. Wenn du es herausgefunden hast, sag Bescheid. :D Ich würde versuchen spezifischer beim Aussehen zu sein. Slawischer Typ, etc. Style von einem Fotografen erwähnen..
 
Sieht doch super aus. :) Ja, Schrift ist immer schwer. Man muss ganz genau sein, damit die KI das auch ernst nimmt und man muss auch mehrere Iterationen machen.
 
Zuletzt bearbeitet von einem Moderator:
ja was hast du denn eingegeben ;) ?
Erstelle mir ein realistisches Foto mit mit 3 Frauen. Die linke hat blondes langes Haar und trägt ein Blaues Top mit dem Intel Logo auf der Brust. Die mittlere hat schwarzes langes Haar und Tragt ein grünes Top mit Nvidia Logo auf der Brust. Die rechte hat Rotes langes Haar trägt ein Rotes Top mit AMD Logo auf der Brust. Alle 3 Posieren vor einer Messehalle
 
Ich hatte hier eingegeben "Weiblicher Roboter Martial Arts"

Mit "Sexy" und "Aufreizend" hatte ich es auch probiert. Das wurde aber blockiert. :ugly:

_4ed590fe-8207-4261-839e-7d1d90f24e5e.jpg _cb3bdd75-495c-49b2-97b5-51f5aabc3bed.jpg _a81ba993-4269-44d1-b68d-073cb5f21eb2.jpg _d371c4fd-e3af-4c8b-9df4-0ffaff0aba32.jpg
 
in englisch (wenn ich was nicht weiß - benutze ich einen Translator) - schreibe auch keine Sätze, sondern nur Stichworte.
doll warrior_4.jpg

Warrior_1.jpg

Warrior_2.jpg

Außerdem speichere ich jeden Text der ein einigermaßen zufriedenstellendes Ergebnis erzeugt hat ab, und probiere alte Beschreibungen monate später wieder, umzusehen ob sich an der KI was verändert hat, außerdem feile ich so auch an den Beschreibungen.
 
Zuletzt bearbeitet:
Und hier kommt mein Ninja. :D Fangen wir mit einer kleinen Auflösung von 1304 x 768 an.
Als Zusatzmodell, ein sogenanntes Lora-Modell (steht für Low-Rank Adaptation) nutzen wir Into Darkness.
Man darf sich das als eine Art direkteinspritzung für das Hauptmodell vorstellen, damit beispielweise gewisse Effekte, oder Charaktere hinzugefügt werden können.

Das Ergebnis:

00013-1349287405.png
Prompt:
<lora:Into_Darkness:1> dark photo of a ninja with a single detailed black katana standing at a glowing sea with blue particles flying arround, idyllic atmosphere and skybox, night, 35mm cinematic, film, bokeh, professional, 4k, highly detailed
Negative prompt: painting, cartoon, anime, flashes,
Steps: 50, Sampler: DPM++ 3M SDE Karras, CFG scale: 7, Seed: 1349287405, Size: 1304x768, Model hash: 673887ace8, Model: OpenDalleV1.1, Lora hashes: "Into_Darkness: a19db05b8920", Version: v1.7.0

Da mir die Auflösung allerdings nicht hoch genug war, ging es von txt2img zu img2img. Anstatt also nur den Prompt als mittel zu benutzen, nehmen wir das generierte Bild als Basis um eine höhere Auflösung zu erreichen.
Mit hilfte von Extensions wie ControlNet und Ultimate SD Upscale, können wir während des Prozesses die Bilder aufteilen um so den benötigten Grafikspeicher zu reduzieren. Ultimate SD Upscale ist für das Aufteilen und maskieren (wir wollen ja, dass die einzelnen Tiles nahtlos wieder aneinander gehen) der benötigten stellen verantwortlich. Hier zu stellen wir in den Settings den Typ auf "Chess" und bringen noch einen Half tiles offset pass mit rein, der sich dann direkt um die Stellen kümmert, wo die tiles aneinander treffen.
Als Upscaler nehmen wir das altbewährte Lanczos.

Warum keinen KI-Upscaler?
KI Upscaler sind in einigen Szenarien sehr gut zu gebrauchen, aber in vielen Bereichen überstrapazieren sie das Ergebnis. Das Ergebnis wird einfach viel zu sauber, was bei Portraitfotos z.b. einfach unnatürlich wirkt.
Effekte wie ein Grundrauschen, welches dem Bild einen persönlichen Touch verleihen werden rausgefiltert. Haut wirkt unnatürlich plastisch. All das kann mit einem herkömlichen Upscaler vermieden werden.
Auch kommen KI-Upscaler mit kleinen Details im Hintergrund nicht immer klar. Sobald man dann reinzoomed, erkennt man wie die KI dann wirklich geschmiert hat. Das geht es um jeden preis zu vermeiden.
Außerdem baut img2img uns das Bild so schon neu auf, wir verhindern somit gleichzeitig eine überschärfung des Bildes.

Zu ControlNet:
ControlNet hat die Ehre uns eine Depthmap zu erstellen. Als Preprocessor nehmen wir das neue Depth Anything und als zusätzliche Unit schalten wir noch einen Reference Preprocessor dazu um eine gewisse Stabilität zu erreichen.
Da ich als Basis ein SD XL (Stable Diffusion XL) Modell genommen habe, fehlt mir eine gewisse Tile Unit um sauber höhere Auflösungen zu erreichen. Die beiden erst genannten helfen dabei, dennoch ein akzeptables Ergebnis zu erzielen:
00054-1349287405.png

Auflösung: 3260x1920
Positiv:
<lora:Into_Darkness:1> dark photo of a ninja with a single detailed black katana standing at a glowing sea with blue particles flying arround, idyllic atmosphere and skybox, night, 35mm cinematic, film, bokeh, professional, 4k, highly detailed
Negative prompt: painting, cartoon, anime, flashes,

Steps: 40,
Sampler: DPM++ 3M SDE Karras,
CFG scale: 7,
Seed: 1349287405,
Size: 3260x1920,
Model hash: 673887ace8,
Model: OpenDalleV1.1,
Denoising strength: 0.85,
Ultimate SD upscale upscaler: Lanczos,
Ultimate SD upscale tile_width: 1216,
Ultimate SD upscale tile_height: 1216,
Ultimate SD upscale mask_blur: 64,
Ultimate SD upscale padding: 128,
ControlNet 0: "Module: depth_anything,
Model: diffusers_xl_depth_full [2f51180b],
Weight: 1, Resize Mode: Crop and Resize,
Low Vram: False,
Processor Res: 512,
Guidance Start: 0,
Guidance End: 1,
Pixel Perfect: True,
Control Mode: Balanced,
Hr Option: Both,
Save Detected Map: True",
ControlNet 1: "Module: reference_only,
Model: None, Weight: 2,
Resize Mode: Crop and Resize,
Low Vram: False,
Threshold A: 0.5,
Guidance Start: 0,
Guidance End: 1,
Pixel Perfect: True,
Control Mode: Balanced,
Hr Option: Both,
Save Detected Map: True",
Lora hashes: "Into_Darkness: a19db05b8920",
Version: v1.7.0

Das selbe nochmal in kleinerer Auflösung in besserer Konsistenz:
00046-1349287405.png



Die Renderzeit für das große betrugt etwa 10-20 Minuten bei einer RTX 4090, hab da jetzt nicht genau drauf geachtet.

ach und so sieht es noch aus, wenn man falsche Settings nimmt (oder es immer noch kein Tile Controlnet Modell für XL gibt (╯°□°)╯︵ ┻━┻):

00008-1349287405.png
 
Zurück