News Extreme KI-Kompression: Bilder können mit nur wenigen Bytes gespeichert werden

PCGH-Redaktion

Kommentar-System
Teammitglied
Mithilfe eines KI-Modells können Bilder sehr stark komprimiert werden. Derartige Verfahren sind aber nicht verlustfrei und es gibt keine Garantie, dass sich keine Verfälschungen ergeben.

Was sagt die PCGH-X-Community zu Extreme KI-Kompression: Bilder können mit nur wenigen Bytes gespeichert werden

Bitte beachten: Thema dieses Kommentar-Threads ist der Inhalt der Meldung. Kritik und allgemeine Fragen zu Online-Artikeln von PC Games Hardware werden hier gemäß der Forenregeln ohne Nachfrage entfernt, sie sind im Feedback-Thread besser aufgehoben.
 
Mich würde mal interessieren wieviele KB oder MB gegenüber anderen Kompressionsverfahren wie z.B.JPEG eingespart werden können.

Und ob die Fehleranfälligkeit nur bei maximaler Kompressionsstufe vorhanden ist.
 
Die Fehlerwahrscheinlichkeit wird hier unabhängig vom Verkleinerungsfaktor sein: Soweit ich das Prinzip verstehe, handelt es ich überhaupt nicht um eine Kompression im herkömmlichen Sinne, also um eine Abspeicherung der Bildinhalte in vereinfachter Form. Stattdessen werden KI-Bilderkennung und KI-Bilderzeugung kombiniert und dass beinahe auf Prompt-Ebene. Eingangsseitig wird das Bild gewichtet zerlegt und lediglich der letzte Schritt, die Umwandlung der ermittelten Parameter/Tokens in eine für Menschen lesbare Aussage weggelassen. Ausgabeseitig spart man sich ebenfalls den dort ersten Schritt "lesbare Eingabe => Parameter", sondern legt direkt mit den Tokens los. Aber de facto bekommt man kein entpacktes Original zu sehen, sondern ein KI-generiertes Bild.

Übermittelt wird nur eine Beschreibung des Originals und wieviel das letztlich angezeigte mit dem Original zu tun hat, hängt einzig an der Bilderzeugungs-KI. Anzunehmen wäre, dass diese unabhängig von der Dateigröße vor allem bei abstrakten Mustern und Schrift sowie bei komplex zusammengesetzten Motiven komplett versagt, während "Bär steht im Wasser" noch einigermaßen funktioniert. Auf alle Fälle dürfte das Ergebnis bei jedem Aufruf des Bilds geringfügig anders aussehen – und jedes Mal KI-Rechenleistung benötigen. Ich bin gespannt, in welchen Anwendungsfällen sich das lohnen soll. Ebenfalls interessant: Wie skaliert das Ganze mit der Auflösung? Präzision im Detail ist bislang nicht gerade eine Stärke von KI-Bildgeneratoren oder allgemein von KIs, wenn die Modelle eine überschaubare Größe behalten sollen. Aber für ein Verkleinerungssystem, dass sich nur auf Thumbnails anwenden lässt, sehe ich irgendwie gar keinen Bedarf.
 
Moment mal, das sind zum Teil vollkommen andere Bilder!
Ich verstehe schon, dass hierbei nicht wirklich gespeichert, sondern im Prinzip Dall-E mässig nachempfunden wird aber das ist in fast allen Fällen, verzeiht mir den technischen Jargon, Verhohnepiepelung.

Man stelle sich vor, in Zukunft möchte jemand seine in der Microsoft Wolke teuer abgespeicherten Familienbilder wieder haben und da kommen ganz andere Leute heraus. "Im Kleingedruckten steht aber klar..."
Klar, als mathematisches Konzept oder für obskure Spezialanwendungen mag das sinnvoll sein, aber ehrlich gesagt fällt mir da erstmal gar nichts ein, da wenigstens halbwegs akkurate Wiedergabe eigentlich überall und jedem wichtig ist. Im Grunde ein bizarrer Schritt, da tendenzielle Qualitätsverluste immer hinnehmbar sind oder waren - diese sind nämlich logisch nachvollziehbar. Zu Forschungszwecken, zum Archivieren, zum Privatvergnügen oder was-auch-immer möchte niemand überraschend alternative Bildideen erhalten
Die Fehlerwahrscheinlichkeit wird hier unabhängig vom Verkleinerungsfaktor sein: Soweit ich das Prinzip verstehe, handelt es ich überhaupt nicht um eine Kompression im herkömmlichen Sinne, also um eine Abspeicherung der Bildinhalte in vereinfachter Form. Stattdessen werden KI-Bilderkennung und KI-Bilderzeugung kombiniert und dass beinahe auf Prompt-Ebene. Eingangsseitig wird das Bild gewichtet zerlegt und lediglich der letzte Schritt, die Umwandlung der ermittelten Parameter/Tokens in eine für Menschen lesbare Aussage weggelassen. Ausgabeseitig spart man sich ebenfalls den dort ersten Schritt "lesbare Eingabe => Parameter", sondern legt direkt mit den Tokens los. Aber de facto bekommt man kein entpacktes Original zu sehen, sondern ein KI-generiertes Bild.

Übermittelt wird nur eine Beschreibung des Originals und wieviel das letztlich angezeigte mit dem Original zu tun hat, hängt einzig an der Bilderzeugungs-KI. Anzunehmen wäre, dass diese unabhängig von der Dateigröße vor allem bei abstrakten Mustern und Schrift sowie bei komplex zusammengesetzten Motiven komplett versagt, während "Bär steht im Wasser" noch einigermaßen funktioniert. Auf alle Fälle dürfte das Ergebnis bei jedem Aufruf des Bilds geringfügig anders aussehen – und jedes Mal KI-Rechenleistung benötigen. Ich bin gespannt, in welchen Anwendungsfällen sich das lohnen soll. Ebenfalls interessant: Wie skaliert das Ganze mit der Auflösung? Präzision im Detail ist bislang nicht gerade eine Stärke von KI-Bildgeneratoren oder allgemein von KIs, wenn die Modelle eine überschaubare Größe behalten sollen. Aber für ein Verkleinerungssystem, dass sich nur auf Thumbnails anwenden lässt, sehe ich irgendwie gar keinen Bedarf.
Ja, im Grunde macht es auch weitaus mehr Sinn, bei speziellen Bedürfnissen eine eigene KI anzulernen als eine proprietäre KI Lösung zusätzlich zu bemühen, die per Definition schlechtere Ergebnisse liefert und vielleicht spontan beschliesst, ihre Server abzuklemmen.
 
Zuletzt bearbeitet:
Kompression beruht entweder darauf, Redundanzen zu eliminieren (verlustfrei) oder weniger wichtige Daten auszusparen (verlustbehaftet). Dazu gehört auch, Informationen in einen Codec auszulagern. JPEG basiert auf Eigenheiten von "natürlichen" Bildern, der Codec weiß also, wie diese aussehen und nimmt dem Datensatz diese Informationen ab. Jeder weiß ja, wie gut das mit nichtnatürlichen Inhalten wie z.B. Schrift funktioniert. Ich nehme mal an, dass hier eben die KI der Codec ist und auch allerhand Dinge kennt. Solange diese Dinge bekannt sind und es nicht zu viele werden, dürfte das gut funktionieren. Wäre sicher spannend damit mal rumzuspielen und zu gucken, ob man das Verfahren mit einem Wimmelbild in die Verzweiflung treiben kann.
 
Die Fehlerwahrscheinlichkeit wird hier unabhängig vom Verkleinerungsfaktor sein: Soweit ich das Prinzip verstehe, handelt es ich überhaupt nicht um eine Kompression im herkömmlichen Sinne, also um eine Abspeicherung der Bildinhalte in vereinfachter Form. Stattdessen werden KI-Bilderkennung und KI-Bilderzeugung kombiniert und dass beinahe auf Prompt-Ebene. Eingangsseitig wird das Bild gewichtet zerlegt und lediglich der letzte Schritt, die Umwandlung der ermittelten Parameter/Tokens in eine für Menschen lesbare Aussage weggelassen. Ausgabeseitig spart man sich ebenfalls den dort ersten Schritt "lesbare Eingabe => Parameter", sondern legt direkt mit den Tokens los. Aber de facto bekommt man kein entpacktes Original zu sehen, sondern ein KI-generiertes Bild.

Übermittelt wird nur eine Beschreibung des Originals und wieviel das letztlich angezeigte mit dem Original zu tun hat, hängt einzig an der Bilderzeugungs-KI. Anzunehmen wäre, dass diese unabhängig von der Dateigröße vor allem bei abstrakten Mustern und Schrift sowie bei komplex zusammengesetzten Motiven komplett versagt, während "Bär steht im Wasser" noch einigermaßen funktioniert. Auf alle Fälle dürfte das Ergebnis bei jedem Aufruf des Bilds geringfügig anders aussehen – und jedes Mal KI-Rechenleistung benötigen. Ich bin gespannt, in welchen Anwendungsfällen sich das lohnen soll. Ebenfalls interessant: Wie skaliert das Ganze mit der Auflösung? Präzision im Detail ist bislang nicht gerade eine Stärke von KI-Bildgeneratoren oder allgemein von KIs, wenn die Modelle eine überschaubare Größe behalten sollen. Aber für ein Verkleinerungssystem, dass sich nur auf Thumbnails anwenden lässt, sehe ich irgendwie gar keinen Bedarf.
So habe ich das auch verstanden. Prinzipiell erwarte ich hier keine Revolution. Auch KI kann die Grenzen von Physik und Mathematik nicht aufheben.

Bei so starker Komprimierung ist diese entweder Verlustbehaftet oder wird sich durch Rechenzeit zur Rekonstruktion erkauft. Auch in diesem Fall tauscht man Speicherplatz durch Rechenzeit. Man gewinnt dadurch leider nichts, sondern tauscht lediglich den Aufwand.
 
Also die Nummer möchte ich als Mensch nicht haben.
Bei einer klassischen Kompression beispielsweise eines Bildes meiner Tochter wird das Bild zwar mit zunehmender Kompressionsstärke schlechter aber es ist nach wie vor meine Tochter auf dem Bild.
Bei der Methode hier ist die Ausgabe dann ein neu generiertes Bild aus vereinfacht gesagt "kleines Mädchen mit Frisur X im Winkel Y und (hier weitere Details einfügen)". Was dort entsteht mag beliebig ähnlich aussehen, es ist aber keine real existierende Person.

Nennt mich altmodisch aber DAS will ich nicht haben, vor allem nicht vor dem Hintergrund dass moderne Bildkompressionen wie beispielsweise AVIF bereits sehr sehr gute klassische Kompression bieten - und ich selbst die (noch) nicht benutze weil auch mit dem uralten JPEG bei heutigen Speicherkosten nun wirklich kein Platzproblem entsteht im Privatbereich.
Oder anders gesagt es ist mir völlig Latte ob ein Bild meiner Tochter 500kb AVIF oder 5MB JPEG ist - da brauche ich sicher keine 5kb KI Version eines imaginären generierten Kleinkindes das dem sehr ähnlich sieht.
 
Bei einer klassischen Kompression beispielsweise eines Bildes meiner Tochter wird das Bild zwar mit zunehmender Kompressionsstärke schlechter aber es ist nach wie vor meine Tochter auf dem Bild.
Kommt wohl drauf an, ob und wie viele Beschreibungsteile man pro Objekt im Bild haben kann. Mit genug Deskriptoren wäre es ja irgendwie doch wieder deine Tochter. Die Abweichung passiert halt mit steigender Kompression nicht auf der Pixelebene, sondern der Inhaltsebene, so gesehen ist ein JPEG-Bild ja auch rekonstruiert. Dann bleibt aber wieder die Frage, wie gut und zuverlässig das dann noch komprimiert. Ich weiß auch nicht, ob es für die sehr hohe Kompression überhaupt einen Verwendungszweck gibt oder ob man in so einem Fall nicht lieber gleich eine Bildbeschreibung als Quelle nutzt, anstatt erst ein echtes Bild, das ja auch erst mal irgendwo herkommen muss, in eine solche umzuwandeln.
 
Kommt wohl drauf an, ob und wie viele Beschreibungsteile man pro Objekt im Bild haben kann. Mit genug Deskriptoren wäre es ja irgendwie doch wieder deine Tochter. Die Abweichung passiert halt mit steigender Kompression nicht auf der Pixelebene, sondern der Inhaltsebene, so gesehen ist ein JPEG-Bild ja auch rekonstruiert.
Der Übergang ist da sicherlich fließend. Der Punkt den ich da aber bemängele bzw. persönlich ablehne ist der, dass klassische Kompression vollständig deterministisch ist - bedeutet es gibt einen Algorithmus für encode und einen für decode. Du kannst diese beliebig oft auf beliebigen Rechnern ausführen und das Ergebnis wird immer das exakt gleiche sein.
KI ist was anderes: Das Ergebnis basiert auf dem zugrundeliegenden Modell, das sich prinzipbedingt bei KI über die Zeit ändert. Das bedeutet zwei grundsätzliche Dinge:
1.) Ohne das passende KI Modell ist dein Bild nicht rekonstruierbar da die tatsächlichen Bildinformationen gar nicht mehr vorhanden sind sondern nur KI-Anweisungen
2.) Das Bild kann (wird) in 10 Jahren anders aussehen als heute wenn sich das Modell abgewandelt hat.

Das sind für mich beides no-gos.
 
Man kann eine KI auch einmal trainieren und dann so belassen und einfach nur nutzen. Aber keine Ahnung, wie das in diesem Fall hier ist.
Klar kann man das - das macht aber keiner weil er dann links und rechts überholt wird von denen dies weiterentwickeln...

Und: Das ist dann ja auch alles proprietär. Wenns das Modell in 2 Jahren nicht mehr gibt warum auch immer sind alle Bildchens weg.
 
Die Fehlerwahrscheinlichkeit wird hier unabhängig vom Verkleinerungsfaktor sein: Soweit ich das Prinzip verstehe, handelt es ich überhaupt nicht um eine Kompression im herkömmlichen Sinne, also um eine Abspeicherung der Bildinhalte in vereinfachter Form. Stattdessen werden KI-Bilderkennung und KI-Bilderzeugung kombiniert und dass beinahe auf Prompt-Ebene. Eingangsseitig wird das Bild gewichtet zerlegt und lediglich der letzte Schritt, die Umwandlung der ermittelten Parameter/Tokens in eine für Menschen lesbare Aussage weggelassen. Ausgabeseitig spart man sich ebenfalls den dort ersten Schritt "lesbare Eingabe => Parameter", sondern legt direkt mit den Tokens los. Aber de facto bekommt man kein entpacktes Original zu sehen, sondern ein KI-generiertes Bild.

Übermittelt wird nur eine Beschreibung des Originals und wieviel das letztlich angezeigte mit dem Original zu tun hat, hängt einzig an der Bilderzeugungs-KI. Anzunehmen wäre, dass diese unabhängig von der Dateigröße vor allem bei abstrakten Mustern und Schrift sowie bei komplex zusammengesetzten Motiven komplett versagt, während "Bär steht im Wasser" noch einigermaßen funktioniert. Auf alle Fälle dürfte das Ergebnis bei jedem Aufruf des Bilds geringfügig anders aussehen – und jedes Mal KI-Rechenleistung benötigen. Ich bin gespannt, in welchen Anwendungsfällen sich das lohnen soll. Ebenfalls interessant: Wie skaliert das Ganze mit der Auflösung? Präzision im Detail ist bislang nicht gerade eine Stärke von KI-Bildgeneratoren oder allgemein von KIs, wenn die Modelle eine überschaubare Größe behalten sollen. Aber für ein Verkleinerungssystem, dass sich nur auf Thumbnails anwenden lässt, sehe ich irgendwie gar keinen Bedarf.
Ich experimentiere gerade mit dem Programm Winxvideo AI, welches Super Resolution und Frame Generation anbietet. Offenbar wird für jede neue Ausgabe-Auflösung ein neues KI-Modell heruntergeladen, welches um die 20 MB groß ist. Ich krieche mit 1 bis 2 FPS herum, aber die Ergebnisse sind meist sehr beindruckend. Das Programm macht so gut wie keine Fehler.
 
Dürfte wohl ein trainiertes Modell des Prinzips Image2Text sein mit ein paar "Erweiterungen".
Wer das schon selbst einmal mit einem VIT-Modell probiert hat, wird wissen, dass die Ergebnisse höchst, sagen wir mal, "interessant" sind.

Und wie Incredible Alk bereits erwähnt hat, geht das rückwandeln nur mit der Modellversion mit der auch komprimiert wurde. Erweiterungen/Ergänzungen bei den 307 Millionen Parametern werden wahrscheinlich zu einem anderem Ergebnis führen.
Um das Ergebnis zu verbessern wird das Modell mit mehr Parametern gefüttert werden müssen, was letztlich die Modelldatei immer mehr wachsen lässt.

Und sobald die Modelldatei mehr Gigabytes belegt, als die Bilder auf der Platte wird es zumindest für den Privatanwender uninteressant. Von der benötigten Rechen-, und Energieleistung und zeitlichen Verzögerung mal ganz abgesehen.
Bei Bildern/Videos von den "Großen" in der Branche, die damit komprimiert werden, hätte ich dann aber immer einen letzten Zweifel, ob der Hund am Rande des Bilds nicht doch vielleicht eine große Katze war. :D
 
Klar kann man das - das macht aber keiner weil er dann links und rechts überholt wird von denen dies weiterentwickeln...

Und: Das ist dann ja auch alles proprietär. Wenns das Modell in 2 Jahren nicht mehr gibt warum auch immer sind alle Bildchens weg.
Naja, in vielen Fällen gibt es ja auch eine Versionierung. Aber ja, zumindest aktuell wirst du da vermutlich Recht behalten und vor allem die Proprietät ist ein gutes Argument, aber das sind schon Einschränkungen, die sich über die Zeit relativieren könnten. Aber das sind ja auch nicht die einzigen und einige werden wohl bleiben.
 
Aber das sind ja auch nicht die einzigen und einige werden wohl bleiben.
Langfristig wird das so kommen. Das sind aber sehr langsame Prozesse. Bis da ein Format abgesegnet ist dauert Jahre. Bis sich unter den zig Formaten ein zwei wenige durchgesetzt haben viele weitere Jahre. Und bis diese sich dann durchgesetzt haben in der Bevölkerung und breit/selbstverständlich unterstützt werden nochmal gefühlt Jahrzehnte, insbesondere wenn kein wirklicher Druck dahinter ist wie hier da Speicher billig ist.

Noch heute ist die breite Masse auf uralten Formaten wie Jpeg, MP3, h.264 usw. unterwegs obwohl es Welten effizientere Formate wie AVIF, OPUS, AC4, AV1 usw. gibt. Einfach weil die Leute keine Notwendigkeit haben umzusteigen und die uralten Formate den Vorteil haben auf jeder ähnlich alten Kartoffel abspielbar zu sein.
 
Dürfte wohl ein trainiertes Modell des Prinzips Image2Text sein mit ein paar "Erweiterungen".
Wer das schon selbst einmal mit einem VIT-Modell probiert hat, wird wissen, dass die Ergebnisse höchst, sagen wir mal, "interessant" sind.

Und wie Incredible Alk bereits erwähnt hat, geht das rückwandeln nur mit der Modellversion mit der auch komprimiert wurde. Erweiterungen/Ergänzungen bei den 307 Millionen Parametern werden wahrscheinlich zu einem anderem Ergebnis führen.
Um das Ergebnis zu verbessern wird das Modell mit mehr Parametern gefüttert werden müssen, was letztlich die Modelldatei immer mehr wachsen lässt.

Und sobald die Modelldatei mehr Gigabytes belegt, als die Bilder auf der Platte wird es zumindest für den Privatanwender uninteressant. Von der benötigten Rechen-, und Energieleistung und zeitlichen Verzögerung mal ganz abgesehen.
Bei Bildern/Videos von den "Großen" in der Branche, die damit komprimiert werden, hätte ich dann aber immer einen letzten Zweifel, ob der Hund am Rande des Bilds nicht doch vielleicht eine große Katze war. :D
Es ist nicht gesagt, daß die Modelldatei so groß werden muß. Die großen Sprachmodelle enthalten in Form von Tokens das gesammelte Wissen der Menschheit. Deswegen können sie dir zu allen möglichen Themen eine (meist) realitätsnahe Antwort geben.
Solches Wissen ist für Kompression nicht erforderlich, nehme ich mal an. Warten wir es also ab.
 
Ich experimentiere gerade mit dem Programm Winxvideo AI, welches Super Resolution und Frame Generation anbietet. Offenbar wird für jede neue Ausgabe-Auflösung ein neues KI-Modell heruntergeladen, welches um die 20 MB groß ist. Ich krieche mit 1 bis 2 FPS herum, aber die Ergebnisse sind meist sehr beindruckend. Das Programm macht so gut wie keine Fehler.

Das nutzt aber deutlich größere Eingangsinformationen und versucht diese nur aufzuhübschen, oder?
64× 12 Bit Ausgangs-Tokens hier entsprechen dem Informationsgehalt eines Bilds von 8 × 8 Pixeln mit 4 Bit zudem nur 16 Helligkeitsabstufungen je Farbkanal. Daraus wird ein Bild von 256 × 256 Pixeln generiert, also 32-fache Auflösung mit vermutlich den üblichen 256 Abstufungen. Das eine größere Spanne als Upscaling von einem Game Boy Color auf 4K Dolby-Vision-HDR. Wenn du mir eine KI zeigst, die das Artefakt frei hinbekommt, bin ich schwer beeindruckt.

(Natürliche Gameboy-Color-Inhalte gab es natürlich nicht, aber hier mal eine Komposition aus Bildern der zugehörigen Kamera. Die Auflösung kommt hin, Farbtiefe ist noch einen Tick schlechter, aber ich denke das macht bei DEM Abstand zu 4K keinen entscheidenden Unterschied: https://en.wikipedia.org/wiki/File:Sky_trees_game_boy_camera_color.png)

Es ist nicht gesagt, daß die Modelldatei so groß werden muß. Die großen Sprachmodelle enthalten in Form von Tokens das gesammelte Wissen der Menschheit. Deswegen können sie dir zu allen möglichen Themen eine (meist) realitätsnahe Antwort geben.
Solches Wissen ist für Kompression nicht erforderlich, nehme ich mal an. Warten wir es also ab.

Eine universelle Bildkompression müsste die gesammelten Anblicke des Universums und zusätzlich noch des menschlichen Erfindungsgeists beinhalten. Dagegen ist eine eingeschränkte Auswahl von Online zugänglichen Texten eher wenig.
 
Das nutzt aber deutlich größere Eingangsinformationen und versucht diese nur aufzuhübschen, oder?
64× 12 Bit Ausgangs-Tokens hier entsprechen dem Informationsgehalt eines Bilds von 8 × 8 Pixeln mit 4 Bit zudem nur 16 Helligkeitsabstufungen je Farbkanal. Daraus wird ein Bild von 256 × 256 Pixeln generiert, also 32-fache Auflösung mit vermutlich den üblichen 256 Abstufungen. Das eine größere Spanne als Upscaling von einem Game Boy Color auf 4K Dolby-Vision-HDR. Wenn du mir eine KI zeigst, die das Artefakt frei hinbekommt, bin ich schwer beeindruckt.

(Natürliche Gameboy-Color-Inhalte gab es natürlich nicht, aber hier mal eine Komposition aus Bildern der zugehörigen Kamera. Die Auflösung kommt hin, Farbtiefe ist noch einen Tick schlechter, aber ich denke das macht bei DEM Abstand zu 4K keinen entscheidenden Unterschied: https://en.wikipedia.org/wiki/File:Sky_trees_game_boy_camera_color.png)
Aufhübschen geschieht auch, aber der Fokus liegt auf Details. Das Modell heißt Gen Detail v2.

Das Bild habe ich mal ausprobiert.

x4:

Dieses nochmal x4:

Die Modell-Dateien:



Eine universelle Bildkompression müsste die gesammelten Anblicke des Universums und zusätzlich noch des menschlichen Erfindungsgeists beinhalten. Dagegen ist eine eingeschränkte Auswahl von Online zugänglichen Texten eher wenig.
Es handelt sich um 45 TB reinen Text, der in wenige GB große Sprachmodelle integriert wurde. Hinzu kommen noch diverse Konversationen.

"Das gesamte im Internet verfügbare Wissen ist in ChatGPT durch seine 175 Milliarden Parameter enthalten."
 
Zurück