Locuza
Lötkolbengott/-göttin
Nein, auch von der praktischen.Du sprichst von der Theoretischen Rechenleistung oder?
Weil das war ja schon immer ein gewisses "ATI" bzw "AMD Problem" - dass man eben teils deutlich mehr Rechenleistung hatte, aber in der Praxis wenig dabei rumkam.
Ich lass mich aber gerne positiv überraschen, dass man die Flaschenhälse gefunden hat und ein richtig effizienter, gut ausgelasteter Chip rauskommt.
Und natürlich ist auch spannend, wie weit der 14nm Prozess gegenüber dem 16nm Prozess einen Vorteil bietet. Zumindest in der Chipgröße wird sich etwas tun (wie man ja bei Apples A9 gesehen hat)
Das GCN-Shader-Array pumpt ordentlich durch:
AMD's Radeon R9 Fury X graphics card reviewed - The Tech Report - Page 4
Bei passenden Code erreichst du nahezu Peak-Performance und die Latenz fällt bei AMD noch am Besten aus.
Praktisch ist es auch so das AMD pro Einheit wesentlich mehr Register und Cache zur Verfügung hat und mehr Threads in flight handeln kann.
AMD GCN SIMD: 64 ALUs mit 4 Instruction Buffer mit 10 Wavefronts (Eine Wavefront = 64 Threads) in flight = 2560 Threads
256KB Vector Register + 64 KB LDS (shared-memory)
Kepler ist effektiv ein kaputtes Design.
Die Register-Bandbreite reicht nicht aus um alle 192 ALUs zu füttern, im theoretischen Test oben sieht man auch das Kepler weit weg von seiner theoretischen Leistung ist.
Kepler war ein hässliches und ineffizientes Shader-Design.
Maxwell ist wesentlich besser, aber noch nicht auf GCN Level:
Nvidia Maxwell SM: 128 ALUs x 4 Instruction buffer mit 16 Warps (Ein Warp = 32 Threads) in Flight = 2048 Threads.
256KB Vector Register + 96 KB LDS (shared-memory)
Effektiv hat eine GCN Unit aber doppelt so viele Ressourcen zur Verfügung, 64 ALUs teilen sich fast soviele Ressourcen wie Maxwell bei 128.
Pascal nähert sich übrigens stark GCN an, weil mit Pascal reduziert Nvidia die ALU-Anzahl pro Cluster, von 128 auf 64, wie bei GCN.
GCN hat aber noch den Vorteil eine Skalare-Unit zu haben, die zusätzlich Effizienz beisteuert.
Nvidia verbaut so etwas vermutlich erst mit Volta.
Ein echtes Problem für AMD ist das ganze drum herum, AMDs Graphics Frontend ist sehr schwach, das Backend auch nicht ganz auf Nvidias-Level und AMDs Shader-Compiler scheint ein gutes Stück besser sein zu können.
AMD scheint mit Polaris das meiste davon endlich zu beheben und die GCN Einheiten werden noch besser, aber gleichzeitig hat Nvidia natürlich auch bei Pascal an anderen Stellen ordentlich draufgelegt, die Shader werden wesentlich stärker.
Übrigens wäre ich vorsichtig was die 14nm vs. 16nm Geschichte angeht.
Ein Apple-Vergleich ist ein Beispiel, dass sollte man nicht zu leichtfertig auf andere Unternehmen und Chip-Kategorien übertragen.
Bei Apple war Samsung kleiner aber nicht so effizient, dass muss aber nicht einzig und allein am Prozess liegen, Apple hat vielleicht die Maske für TSMC besser optimiert oder ist teilweise andere Kompromisse eingegangen.
In Zukunft ist das aber aus meiner Sicht etwas "traurig" das wir keine neutralen Vergleiche mehr in der Zukunft an dieser Stelle anstellen können.
Jetzt kann man nicht mehr ganz so genau sagen, wer einen "besseren" Job gemacht hat.
Zuletzt bearbeitet:

).