@Grestorn
Jetzt nur auf GPU´s bezogen hat bei AMD eigentlich erst zum Ende von GCN ein Umdenken in die Richtung stattgefunden, dass anstatt der Speicherkapazität zukünftig die Speicherbandbreite immer relevanter werden würde.
Vor dem Vega-Release gab es da von RajaKoduri ein tolles Interview wo das meinem Wissen nach das erste mal so deutlich herausgestellt wurde. Klar, den Anfang hat eigentlich Fiji mit HBM1 an 4096bit gemacht, aber das waren nur die ersten Gehversuche unter extrem knappen finanziellen Voraussetzungen.
Bei Vega mit HBM2 und seinen HBCC-Auswüchsen hat man dann etwas mehr versucht, der Ansatz wurde mit HBM2, vergossenem Interposer etc. aber womöglich echt zu teuer für die Masse, wodurch eine Vega64 am Ende ja sogar eine geringere Bandbreite hatte als ein zwei Jahre ältere FuryX von 2015, weil Vega eben nur noch auf 2 anstatt 4 HBM-Stacks setzte. Da war AMD seiner Zeit auch nicht glücklich, dass der HBM2 nur auf 945MHz kam und nicht die anvisierten 1000MHz erreichte.
Im HPC-Bereich konnte man eineinhalb Jahre später mit der Radeon VII, 4 HBM -Stacks und 1TB/s dann mal einen raushauen. Dass diese dann als "limitierte" Gamingkarte kam hatte einen stark ungläubigen Jensen Huang zur Folge wenn ich mich nicht irre^^ Am Ende aber halt wohl definitiv zu teuer, dazu die ganzen GCN-Leichen im Schlepptau, nicht der Megadurchbruch.
Mit Navi konnte man sich dann neu aufstellen, mal so langsam alte Zöpfe abschneiden und am Ende ist es denke ich ein kluger Gedankengang den Bedarf nach höherer Bandbreite nicht ausschließlich durch breitere Interfaces oder schnellere Speichermodule zu erschlagen, sondern das Problem schon an den Wurzeln, oder eher schon im L1/L2 Cache, zu packen.
Schaut man sich die L1 Speicherinhalte der einzelnen Core´s in einer GPU an, sieht man, dass in unglaublich vielen die gleichen Informationen vorhanden sind.
Das meinte ich vorhin mit Verhinderung von Datenreplikationen in RDNA2 durch die neue shared-Funktion.
Entscheidend ist halt, dass eine Kommunikation zwischen allen einzelnen Core´s und allen L1 Speicherbereichen möglich ist. Dies war in den alten GPU-Designs meinem Verständnis nach nicht vorgesehen und jetzt erst durch die Implementierung eines entsprechenden Interconnect´s ermöglicht.
So kann zukünftig dann Core 529 auf den L1 Speicherbereich von Core 5119 zugreifen und andersherum, anstatt dass beide die gleich Daten vorhalten müssen.
Vllt etwas weit ausgeholt, schwafel schwafel, sorry dafür
