AW: GK110: Weitere Details zur größten GPU der Welt
Warum der Daumen runter?
Das ist glaub ich ein offensichtlicher Fehler

Da hat sich eine gemeine 2 rein geschlichen

Hab ich mal gefixed

Ich glaub man hat aber direkt erkannt, dass das so keinen Sinn macht. Trotzdem danke für den Hinweis
Von der Session selbst gibt's kein Video, soweit ich weiß.
Schade
Der Texturcache ist nicht soo dramatisch komplex, er muss nur explizit verwaltet werden und läuft nicht automatisch mit wie der L2.
Dass die Verwendung davon an und für sich nicht komplex ist, ist klar, und auch "nur" expliziet verwaltet werden muss. Aber dieses "nur" ist es halt. Es ist ja nicht so, dass es trivial ist, effiziente Algorithmen für GPUs zu schreiben, und mit dem Texturcache hat man jetzt halt noch eine Stellschraube "mehr", wobei es die natürlich vorher auch schon gab, und noch VIEL Hässlicher zu nutzen war... Von daher ist es natürlich jetzt deutlich besser als zuvor, aber eben noch immer nicht toll.
Man muss sich ja nun immer überlegen, was ich da rein pack, und was nicht, und wann macht es Sinn, nen Kernel neu zu starten mit neuen Daten, anstatt den Cache mit den alten Daten nicht mehr verwenden zu können usw. usw.
Vorher hatte man ja eine "berechtigte" Ausrede mit den Texturen, die den Overhead einfach so groß gemacht haben, das man die paar Prozent halt gelassen hat. Jetzt geht es halt einfach, aber man muss sich noch immer die gleichen Gedanken machen :/ Vor allem, wenn man halt jetzt Kernels in Kernels starten kann, wird das halt schon interessant, wie man damit das Read-Only des Texturcaches eventuell umgehen kann.
Bei den Registern ist ja immer die Frage ob du global knapp an Registern bist und warum. Es gibt vielleicht auch Fälle in denen du einfach wenige Kernel brauchst um eine gute Auslastung zu erzielen, die einzelnen Kernel aber sehr registerintensiv sind. Oder andersrum halt.
Die Änderungen bei den Registern sind durchweg positiv, da es keine Nachteile mit sich bringt, sondern nur Vorteile, die manche Nutzen können, und eben für andere nicht von belang sind. Solche Entwicklungen sind immer gut.
Was die Programmierbarkeit angeht stimme ich nicht zu. Alleine dadurch, dass du zum Beispiel datenrekursive Algorithmen nun der GPU überlassen kannst, ohne jede Baumstruktur explizit zu managen, sollte dein Leben leichter machen als Programmierer. OK, wenn du nicht mit solchen Algorithmen arbeitest, dann vielleicht nicht...
Das ist ja auch wieder ein GANZ anderes Thema und hat mit den Caches nichts zu tun. Dass die Rekursionen endlich möglich sind, ist auch überfällig gewesen. Wie Effizient man das jetzt nutzen kann ist ein ganz anderes Thema, aber es macht auf jeden Fall viele Sachen einfacher, auch wenn man (wenn ich mich jetzt nicht ganz Täusche, sollte es dazu ein Lemma/Satz geben), jede Rekursive Funktion in eine Funktion mit Schleife umwandeln kann und umgekehrt, macht es den Programmierern das Leben doch einfacher, was immer begrüßenswert ist. Da gebe ich dir Recht.
Naja, das hängt ja lediglich an der Anzahl der ROP/Speichercontroller, die fest mit ihren 256 kiB L2 verdrahtet sind.
Der Grund ist mir hier mal absolut Jacke wie Hose. Ich freu mich einfach über den größeren Cache
