Nvidia: Butterweiche Superzeitlupe dank Deep Learning

Jedes halbwegs aktuelle Smartphone kann heutzutage gute Zeitlupenvideos aufnehmen (iPhone X mit 240 Frames pro Sekundein FullHD). Mir entzieht sich der Sinn einer "Zeitlupen KI".

Vielleicht dann interessant, wenn man nur eine ganz normale Szene aufnimmt und vorher mit keiner Zeitlupe rechnet. Aber jeder der seine Videos schneidet, wird einzelne Szenen machen und wenn dort eine Zeitlupe vorkommt, wird auch als Zeitlupe aufgenommen. Oder sehe ich das falsch?

Ansich schon, aber vielleicht gibt es ja auch schöne Clips in der Sammlung, die nicht in hoher Bildrate vorliegen. Die könnte man für ganz andere Sachen wiederverwenden.
Am Ende nutzen es wieder die Gamer, um ihren Headshot in Slowmo zu präsentieren :D.
 
Um mal das Beispiel partikelbasierter Simulationen aufzugreifen: da zählen Statistiken, keine Animationen. Typisches Problem: die Simulation erzeugt pro Zeitschritt einen Datensatz mit mehreren GB, teilweise TB. Will man also -zusätzlich zur gewissenhaften Auswertung der Simulationsdaten- noch eine hübsche Animation erstellen um z.B. Geldgeber zu beeindrucken kann man oft nicht beliebig viele Zeitschritte in beliebig kleinen Intervallen verwenden. Wenn man hier z.B. nur jeder vierte Frame tatsächlich erzeugen muss und den Rest interpolieren kann damit die Animation besser aussieht ist viel gewonnen.
Da muss mir niemand mit der "Instagram-Generation" kommen, ich bin älter also die. Richtig eingesetzt habe ich überhaupt kein Problem damit, die wichtigen Erkenntnisse stecken nicht in einer Animation. Im übrigen steckt hinter den meisten hübschen Bildern und Animationen im wissenschaftlichen und technischen Bereich auch so schon viel post-processing. Manchmal wird es erwähnt, oft nicht.
 
Meiner Meinung nach ist das gar nicht besonders beeindruckend, denn der Bildinhalt entspricht nicht der Realität.
Es ist etwas anderes, ob man ein Bild tatsächlich festhält, oder ob dieses generiert wird und Teile davon möglicherweise mit der Realität übereinstimmen. Vielleicht findet sich ja irgendwo ein Anwendungszweck dafür, aber in der Regel wendet man eine Zeitlupe an um ein reales Detail hervorzuheben z.B. beim Fußball um ein Foul zu erkennen. Derartiges ist mit dieser Technik nur sehr eingeschränkt möglich.
Es ist garnicht möglich. Die Software macht nichts anderes als raten, wie die Szene zwischen den Bilden abläuft und konstruiert dies hinzu. Das immer besser werden im Raten wie so eine Szene üblicherweise abläuft, ist der Prozess des Deep Learning.

Wenn man aber den tatsächlichen Inhalt der Szene sehen will, bringt das ganze Verfahren überhaupt nichts. Ganz im Gegenteil. Es wird sogar im Zweifel eine Szenerie berechent, die nie stattgefunden hat, weil die tatsächliche Szene nicht üblich (bzw. hinreichend wahrscheinlich) ist.

Wenn man zuviel Geld hat, steckt man Ressourcen in solche nutzlose Forschung. Nvidia hat offensichtlich zuviel Geld.

Maschnielles Lernen kann keine künstliche Intelligenz erschaffen. Es macht nichts anderes als eine riesige Datenbank aus auswendig gelernten Szenerien anzulegen und abzurufen.

Geldgeber zu beeindrucken [...] Wenn man hier z.B. nur jeder vierte Frame tatsächlich erzeugen muss und den Rest interpolieren kann damit die Animation besser aussieht ist viel gewonnen.
Na wenn Geldgeber beindrucken der brauchbarste Zweck ist, dann ist es noch nutzloser.
 
Zuletzt bearbeitet:
weil die tatsächliche Szene nicht üblich (bzw. hinreichend wahrscheinlich) ist.
Der Zweck solcher Verfahren ist nicht zusätzliche Information zu erzeugen. Wenn der Fall tatsächlich auftreten kann dass das interpolierte Bild sich signifikant von seinen Stützpunkten unterscheiden kann (und dieser Unterschied wichtig ist) dann hat man das Verfahren falsch angewendet.

Fußballbeispiel:
Will ich wissen ob zwischen zwei aufgenommenen Frames ein Handspiel stattgefunden hat ist diese Methode ungeeignet.
Will ich hingegen zeigen wie schön der Ball bei einem Freistoß in Zeitlupe fliegt kann man so etwas hier verwenden. Macht natürlich niemand, im Profifußball steckt genügend Geld für echte Zeitlupen :ugly:
 
Ist natürlich nichts neues, aber die Artefaktbildung ist geringer, als bei aktuell erhältlichen Tools und der Verlangsamsungfaktor von 8 bei 30 FPS Ausgangsmaterial ist auch extrem hoch.
Von daher schon ziemlich beeindruckend.

Wozu das jetzt gebraucht wird? Keine Ahnung. Für Echtzeit Zwischenbildberechung ist es eh zu aufwändig bzw. bis es in echtzeit möglich ist, wird eh alles mit genügend FPS aufgenommen werden.

Wenns nach mir ginge, würde ich die Forschung eher bei Videostabilisierung ansetzen. Das ist praktisch eher relevant und ein ständiges Problem, das vor allem Softwareseitig schwer zu lösen ist.

Es wäre auch eine Anwendung interessant, die aus niedrig aufgelösten Bildern hochauflösende macht. Ich glaube da gabs sogar in den letzten Monaten ne News bezüglich deep Learning.

An sich wäre das nicht verkehrt. Auch wenn man nicht die Volle Auflösung ausnutzen will, wärs sicherlich genial, ein etwas weniger scharfes bzw. detailliertes Bild mit plausiblen detailinformationen aufblasen zu lassen, um es dann wieder auf die ursprüngliche Größe downzusamplen.
Da der Informationsgehalt dann größer ist, sollte das Bild subjektiv auch deutlich an Details gewinnen. Ob die zusätzlichen Bildinformationen echt sind oder nicht ist ja egal. Was zählt ist die wahrgenommene Bildschärfe bzw. das Vorhandensien feiner Details. Selbst simples Bildrauschen trickst das Auge ja schon aus, und täuscht mehr Details vor, da sollte mit deep Learning deutlich mehr möglich sein.
 
Zuletzt bearbeitet:
Das "neue" an diesem verfahren ist nicht das Konzept dahinter - das ist hinreichend bekannt und alt - sondern die Implementierung:
Schnell und recht akkurate, weitaus besser als die hier bereits verlinkten Tools sind.
Es gibt noch immer genügend Szenarien wo die Fehler deutlich sichtbar werden, aber fürs Aufhübschen von Filmen ist es alle mal geeignet. Und: Auch heute wird diese Technik in vielen gebieten eingesetzt - zB bei vielen der 200/400Hz Fernseher, beim film-rendern usw.

Ich glaube ein Objekterkenender Algorithmus aus Grundlage würde das ganze aber noch deutlich verbessern. Als beispiel kann man sich das Netz des Eishockeytors anschauen:
Da der Algorithmus keine Objekte an sich kennt wird beim Interpolieren das netz mit dem Körper mit verzerrt. Mit einem ContentAware Ansatz könnte das Netz als eigenständiges Objekt verstanden und ohne Verzerrungen wiedergegeben werden.




Jedes halbwegs aktuelle Smartphone kann heutzutage gute Zeitlupenvideos aufnehmen (iPhone X mit 240 Frames pro Sekundein FullHD). Mir entzieht sich der Sinn einer "Zeitlupen KI".

XDDD guter Scherz.
 
Will man also -zusätzlich zur gewissenhaften Auswertung der Simulationsdaten- noch eine hübsche Animation erstellen um z.B. Geldgeber zu beeindrucken kann man oft nicht beliebig viele Zeitschritte in beliebig kleinen Intervallen verwenden. Wenn man hier z.B. nur jeder vierte Frame tatsächlich erzeugen muss und den Rest interpolieren kann damit die Animation besser aussieht ist viel gewonnen.
Das hängt stark vom Themenbereich ab. In meinem Bereich z.B. lassen sich die Geldgeber nicht durch schicke Animationen breitschlagen. Da sitzen Gremien, die Zahlen und Argumente sehen wollen.

Um mal das Beispiel partikelbasierter Simulationen aufzugreifen: da zählen Statistiken, keine Animationen.
Es gibt auch Messungen , z.B. von Turbulenzen, in denen kleine Partikel als Tracking-Partikel verwendet werden. Da wird dann mit einem Laser beleuchtet und mit einer Hochgeschwindigkeitskamera wird der aktuelle Zustand der Trackingpartikel aufgenommen.
Wenn dabei dann so eine "Rate-Slowmotion" herumpfuschen würde, wäre das absolut katastrophal.

Aber ich glaube, wir meinen beide das selbe: Dass es auf den Anwendungsbereich angekommt, oder?
Im Entertainment - super!
Wenn es um relevante Bildinformationen geht - gefährlich!

Das ist übrigens heutzutage ein wichtiger Punkt:
Wir müssen immer wieder verdammt aufpassen, dass sich nicht irgendwelche "Super-Duper-Automatik-Postprocessing-Verschlimmbesserer"-Funktionen an unseren Rohdaten vergreifen.
Einige Hersteller von Messgeräten scheinen es sehr gut zu meinen mit diesen Autokorrekturen. Aber leider sind diese Funktionen meistens entweder zu undurchsichtig, wie sie wirklich funktionieren, oder sind nicht zuverlässig genug. Beides kann nicht zu guter wissenschaftlicher Praxis führen.
 
Ich glaube wir meinen fast das Gleiche. Ich würde den Anwendungsbereich nicht auf ein bestimmtes Themengebiet wie z.B. "Entertainment" beschränken.
Wenn man weiß was man tut kann man es auch im technischen und wissenschaftlichen Bereich anwenden. Eine der Kernkompetenzen hier ist ja die richtige Methode für das gegebene Problem auszuwählen.
PIV-Messdaten mit so etwas zu verhunzen käme mir auch nicht unter ;)
 
Zurück