Bilderthread Der K.I. Bilderthread

Gast1719868203 · 3. Februar 2024

Rollora schrieb:
mir bringt es schon was, ich wüsste schonmal gar nicht wie ich annähernd solche Bilder beschreibe.
Wobei Nvidia extra ein Tool zur Verfügung stellt, in welchem man ein KI BIld hochlädt und er sagt dir dann wie man es beschreiben würde

Was für ein Tool?

Die Google Bildgenerator von Bard kann man noch in die Tonne kloppen. Völliger Müll was da rauskommt. Also zumindest bei meinem ersten Test die Tage. ^^

Rollora · 3. Februar 2024

JackTheHero schrieb:
Was für ein Tool?

Also ChatGPT/CoPilot kann dir ein Foto analysieren, das ist schon recht cool, war ich gestern überrascht.
Und bei Nvidia gabs mal "NeMo", und hat dir gesagt: wenn du das Bild (etwa ein AI Bild) hochlädtst, mit welchem Prompt du auch zu sowas (oder sowas ähnlichem) kommen würdest. Das wurde aber inzwischen weiterentwickelt und er beschreibt dir jetzt auch schon Fotos, vermutlich kann man mit dieser Beschreibung wieder Bilder erzeugen

NVIDIA NIM | neva-22b

Experience the leading models to build enterprise generative AI apps now.

catalog.ngc.nvidia.com

ich habs kurz ausprobiert und ein Random Bild hochgeladen, gefragt welcher Prompt wohl notwendig wäre:

herausgekommen ist nach der Eingabe sowas:

Hier mehr AI Tools auf der NV Seite:

GPU-optimized AI, Machine Learning, & HPC Software | NVIDIA NGC

Gast1719868203 · 4. Februar 2024

Das is ziemlich cool!

Rizoma · 4. Februar 2024

@JackTheHero hast die beiden Mädels direkt als Avatar genommen

da fehlt aber noch nen Blaues Girl

Was muss man beim Bing image creator eingeben das die Mädels nicht so künstlich aussehen?

Gast1719868203 · 4. Februar 2024

Gute Frage. Wenn du es herausgefunden hast, sag Bescheid.

Ich würde versuchen spezifischer beim Aussehen zu sein. Slawischer Typ, etc. Style von einem Fotografen erwähnen..

Rizoma · 4. Februar 2024

Dann eben Im Anime Style

Das erste gefällt mir eigentlich besser wenn es die KI mit den Logos nicht verkackt hätte.

Rollora · 4. Februar 2024

Rizoma schrieb:
Was muss man beim Bing image creator eingeben das die Mädels nicht so künstlich aussehen?

ja was hast du denn eingegeben

?
Und probiers doch mal mit anderen Generatoren

Gast1719868203 · 4. Februar 2024

Sieht doch super aus.

Ja, Schrift ist immer schwer. Man muss ganz genau sein, damit die KI das auch ernst nimmt und man muss auch mehrere Iterationen machen.

Rizoma · 4. Februar 2024

Rollora schrieb:
ja was hast du denn eingegeben ?

Erstelle mir ein realistisches Foto mit mit 3 Frauen. Die linke hat blondes langes Haar und trägt ein Blaues Top mit dem Intel Logo auf der Brust. Die mittlere hat schwarzes langes Haar und Tragt ein grünes Top mit Nvidia Logo auf der Brust. Die rechte hat Rotes langes Haar trägt ein Rotes Top mit AMD Logo auf der Brust. Alle 3 Posieren vor einer Messehalle

Acgira · 4. Februar 2024

JoM79 · 4. Februar 2024

Schreibt ihr eure Beschreibungen eigentlich auf deutsch oder auf englisch?

soulstyle · 4. Februar 2024

Ich in Englisch / English

Hellhammer · 4. Februar 2024

Meine wenigen Versuche waren in Deutsch.

Rizoma · 4. Februar 2024

ich schreibe in deutsch

JoM79 · 4. Februar 2024

Ich schreibe immer in englisch.

RyzA · 4. Februar 2024

Ich hatte hier eingegeben "Weiblicher Roboter Martial Arts"

Mit "Sexy" und "Aufreizend" hatte ich es auch probiert. Das wurde aber blockiert. :ugly:

Gast1719868203 · 4. Februar 2024

immer english

Acgira · 4. Februar 2024

in englisch (wenn ich was nicht weiß - benutze ich einen Translator) - schreibe auch keine Sätze, sondern nur Stichworte.

Außerdem speichere ich jeden Text der ein einigermaßen zufriedenstellendes Ergebnis erzeugt hat ab, und probiere alte Beschreibungen monate später wieder, umzusehen ob sich an der KI was verändert hat, außerdem feile ich so auch an den Beschreibungen.

Moppel127 · 4. Februar 2024

Und hier kommt mein Ninja.

Fangen wir mit einer kleinen Auflösung von 1304 x 768 an.
Als Zusatzmodell, ein sogenanntes Lora-Modell (steht für Low-Rank Adaptation) nutzen wir Into Darkness.
Man darf sich das als eine Art direkteinspritzung für das Hauptmodell vorstellen, damit beispielweise gewisse Effekte, oder Charaktere hinzugefügt werden können.

Das Ergebnis:

Prompt:
<lora:Into_Darkness:1> dark photo of a ninja with a single detailed black katana standing at a glowing sea with blue particles flying arround, idyllic atmosphere and skybox, night, 35mm cinematic, film, bokeh, professional, 4k, highly detailed
Negative prompt: painting, cartoon, anime, flashes,
Steps: 50, Sampler: DPM++ 3M SDE Karras, CFG scale: 7, Seed: 1349287405, Size: 1304x768, Model hash: 673887ace8, Model: OpenDalleV1.1, Lora hashes: "Into_Darkness: a19db05b8920", Version: v1.7.0

Da mir die Auflösung allerdings nicht hoch genug war, ging es von txt2img zu img2img. Anstatt also nur den Prompt als mittel zu benutzen, nehmen wir das generierte Bild als Basis um eine höhere Auflösung zu erreichen.
Mit hilfte von Extensions wie ControlNet und Ultimate SD Upscale, können wir während des Prozesses die Bilder aufteilen um so den benötigten Grafikspeicher zu reduzieren. Ultimate SD Upscale ist für das Aufteilen und maskieren (wir wollen ja, dass die einzelnen Tiles nahtlos wieder aneinander gehen) der benötigten stellen verantwortlich. Hier zu stellen wir in den Settings den Typ auf "Chess" und bringen noch einen Half tiles offset pass mit rein, der sich dann direkt um die Stellen kümmert, wo die tiles aneinander treffen.
Als Upscaler nehmen wir das altbewährte Lanczos.

Warum keinen KI-Upscaler?
KI Upscaler sind in einigen Szenarien sehr gut zu gebrauchen, aber in vielen Bereichen überstrapazieren sie das Ergebnis. Das Ergebnis wird einfach viel zu sauber, was bei Portraitfotos z.b. einfach unnatürlich wirkt.
Effekte wie ein Grundrauschen, welches dem Bild einen persönlichen Touch verleihen werden rausgefiltert. Haut wirkt unnatürlich plastisch. All das kann mit einem herkömlichen Upscaler vermieden werden.
Auch kommen KI-Upscaler mit kleinen Details im Hintergrund nicht immer klar. Sobald man dann reinzoomed, erkennt man wie die KI dann wirklich geschmiert hat. Das geht es um jeden preis zu vermeiden.
Außerdem baut img2img uns das Bild so schon neu auf, wir verhindern somit gleichzeitig eine überschärfung des Bildes.

Zu ControlNet:
ControlNet hat die Ehre uns eine Depthmap zu erstellen. Als Preprocessor nehmen wir das neue Depth Anything und als zusätzliche Unit schalten wir noch einen Reference Preprocessor dazu um eine gewisse Stabilität zu erreichen.
Da ich als Basis ein SD XL (Stable Diffusion XL) Modell genommen habe, fehlt mir eine gewisse Tile Unit um sauber höhere Auflösungen zu erreichen. Die beiden erst genannten helfen dabei, dennoch ein akzeptables Ergebnis zu erzielen:

Auflösung: 3260x1920
Positiv:
<lora:Into_Darkness:1> dark photo of a ninja with a single detailed black katana standing at a glowing sea with blue particles flying arround, idyllic atmosphere and skybox, night, 35mm cinematic, film, bokeh, professional, 4k, highly detailed
Negative prompt: painting, cartoon, anime, flashes,

Steps: 40,
Sampler: DPM++ 3M SDE Karras,
CFG scale: 7,
Seed: 1349287405,
Size: 3260x1920,
Model hash: 673887ace8,
Model: OpenDalleV1.1,
Denoising strength: 0.85,
Ultimate SD upscale upscaler: Lanczos,
Ultimate SD upscale tile_width: 1216,
Ultimate SD upscale tile_height: 1216,
Ultimate SD upscale mask_blur: 64,
Ultimate SD upscale padding: 128,
ControlNet 0: "Module: depth_anything,
Model: diffusers_xl_depth_full [2f51180b],
Weight: 1, Resize Mode: Crop and Resize,
Low Vram: False,
Processor Res: 512,
Guidance Start: 0,
Guidance End: 1,
Pixel Perfect: True,
Control Mode: Balanced,
Hr Option: Both,
Save Detected Map: True",
ControlNet 1: "Module: reference_only,
Model: None, Weight: 2,
Resize Mode: Crop and Resize,
Low Vram: False,
Threshold A: 0.5,
Guidance Start: 0,
Guidance End: 1,
Pixel Perfect: True,
Control Mode: Balanced,
Hr Option: Both,
Save Detected Map: True",
Lora hashes: "Into_Darkness: a19db05b8920",
Version: v1.7.0

Das selbe nochmal in kleinerer Auflösung in besserer Konsistenz:

Die Renderzeit für das große betrugt etwa 10-20 Minuten bei einer RTX 4090, hab da jetzt nicht genau drauf geachtet.

ach und so sieht es noch aus, wenn man falsche Settings nimmt (oder es immer noch kein Tile Controlnet Modell für XL gibt (╯°□°)╯︵ ┻━┻):

Acgira · 4. Februar 2024

Cyberworld

Bilderthread Der K.I. Bilderthread

Gast1719868203

Guest

Kokü-Junkie (m/w)

Gast1719868203

Guest

PCGH-Community-Veteran(in)

Gast1719868203

Guest

PCGH-Community-Veteran(in)

Kokü-Junkie (m/w)

Gast1719868203

Guest

PCGH-Community-Veteran(in)

BIOS-Overclocker(in)

Trockeneisprofi (m/w)

Lötkolbengott/-göttin

Community-Legende

PCGH-Community-Veteran(in)

Trockeneisprofi (m/w)

PCGH-Community-Veteran(in)

Gast1719868203

Guest

BIOS-Overclocker(in)

Schraubenverwechsler(in)

BIOS-Overclocker(in)