Bei Wolfenstein II bringt das Geometrie-Culling 0% bei Vega64.
Ebenso stellt das Shading im Schnitt einen größeren Teil der Arbeitslast dar, als die Geometrieverarbeitung und dort hilft der Draw Stream Binning Rasterizer, der unnötiges Shading reduziert und die Leistung stieg bei Vega64 deswegen um keine 10% im Schnitt (Seite 17).
https://www.hotchips.org/wp-content...b/HC29.21.120-Radeon-Vega10-Mantor-AMD-f1.pdf
Ähnliches sieht man auch bei Raven Ridge, welcher dank Bandbreitenmangel relativ mehr davon profitiert, aber massiv sieht es nicht aus:
https://fuse.wikichip.org/wp-content/uploads/2018/08/hc30-amd-rr-scaling.png
Die Folie inkludiert nämlich alles was Raven-Ridge gegenüber Bristol-Ridge mitbringt.
Seit GCN4 filtert AMD Geometrie heraus, welche unter die Größe eines darstellbaren Pixels fällt und damit sind die Worst-Case-Szenarien, vor allem bei Tessellation, schon mal weg.
Computerbase hat GCN4 mit GCN3 bei gleicher Rohleistung und Bandbreite verglichen, im Schnitt war GCN4 7% schneller, deutlich mehr wenn man Spiele mit Tessellation anschaut, aber alleine deswegen ist der Vorsprung vermutlich nicht einmal zweistellig.
AMD Polaris: So viel Leistung bringt die 4. Generation GCN (Seite 2) - ComputerBase
GCN5 hat noch größere Parameter-Buffer bei den Geometrie-Engines.
Also wenn Vega64 dank dem DSBR im Schnitt keine 10% gewinnt oder bei Raven-Ridge im eher mittleren zweistelligen Bereich, dann wird das Geometrie-Culling über Primitive Shader wahrscheinlich weniger leisten und das würde ich dann nicht als massiv bezeichnen.
Das Front-End besteht aus Rasterizern und Geometrie-Engines, dass Backend stellen die ROPs dar.
Die Primitive Shader wären vor allem dazu da die Limitierungen vom Front-End zu verbessern, da AMD bisher maximal 4 Geometrie-Engines verbaut und jede davon eine limitierte Anzahl an Daten-Puffer hat.
Es ist ziemlich aufwendig mehr Engines miteinander zu verschalten und kostet Energie und wenn der Daten-Puffer bei einer Engine limitiert müssen alle anderen Engines im Falle einer notwendigen Synchronisation darauf warten, bis die Arbeit von der einen erledigt wurde.
Über Primitive Shader würde AMD die Last vom Front-End auf das Compute-Array verlagern, dort gibt es schon eine massive Verschaltung zwischen den Einheiten, weswegen man das ausnützen kann, anstatt an anderer Stelle es noch komplizierter zu machen.