Wozu passen sie denn. 512bit oder 4096bit?
"Passen" ist hier nicht ganz der richtige Ausdruck. Ein GDDR6-BGA verwendet 32 Datenleitungen (bei insgesamt 180 Balls unter dem Gehäuse). Auf HighEnd-Karten werden bspw. 12 GiB dementsprechend mittels eines 384 Bit-Speicherinterfaces realisiert, also 12 Speichercontroller auf dem GPU-Die, so bspw. auf dem TU102 (RTX 2080 Ti bis Quadro RTX 8000).
Noch mehr Controller im Chip verbrauchen mehr Strom, erfordern das Nach-außen-führen von mehr Leitungen und verteuern ggf. gar das PCB, da man möglicherweise mehr Lagen verwenden muss. Und natürlich erfordern noch mehr Chips auch mehr Platz auf dem PCB, was das Layout und die Kühlung auch noch einmal etwas verkompliziert.
WIll man nun etwas untypischere Kombination anbieten, hat man im Wesentlichen zwei Möglichkeiten.
a) Man kann größere GDDR6-BGAs mit mehr Kapazität verwenden. Typischerweise werden heute 1 GiB-BGAs verwendet. Das typische obere Limit dürfte hier massenfertigungstechnisch bei 2 GiB-BGAs liegen. Beispielsweise die Titan RTX und Quadro RTX 6000 nutzen diesen Weg und kombinieren den TU102 mit 24 GiB GDDR6 mit weiterhin 12 Chips, diesmal aber jeweils mit doppelter Kapazität (d. h. die Speicherbandbreite ändert sich nicht).
b) Man kann durch eine Aufteilung der Datenleitungen zwei BGA-Chips an einen Speichercontroller anschließen (wärend die Adressleitungen für beide Chips verwendet werden können). Die Gesamtbandbreite pro Controller bleibt damit unverändert und man kann die Kapazität erhöhen. Beispielsweise die Quadro RTX 8000 nutzt dieses Verfahren. Das Design der kleineren RTX 6000 nutzt bereits 2 GiB-Chips, d. h. eine weitere Erhöhung ist hier nicht möglich mit dem 384 Bit-Interface, da es 4 GiB-Chips entweder kaum gibt oder diese gar überhaupt nicht gefertigt werden. Entsprechend werden hier zwei 2 GiB-BGAs an einen Controller angeschlossen, sodass die Karte nun 48 GiB GDDR6 besitzt, die dann jedoch über 24 BGAs realisiert werden, die man zur Hälfte auf die Rückseite des PCBs verlagern musste, da auf der Vorderseite um die GPU herum nicht mehr genügend Platz ist.
c) Als eher unwahrscheinliche dritte Varainte wäre natürlich theoretisch zumindest auch noch eine Kombination zwischen a) und b) denkbar.
Unterm Strich, wie bereits gesagt, vollkommen abwegig wären 16 GiB über 384 Bit nicht. AMD hat bereits für Microsoft's Konsolen-SoC 16 GiB mittels 320 Bit realisiert (Microsoft brauchte die etwas höhere Speicherbandbreite offensichtlich, um ihre größere GPU mit ausreichend Daten versorgen zu können). Vielleicht hat der Kostendruck AMD nun dazu gezwungen das Vorgehen auch für den großen RDNA2-PC-Chip zu übernehmen? HBM ist nach wie vor teuerer und AMDs Marktanteile sind geringerer, d. h. die können mit weniger Umsatz rechnen, was die Amortisierung erschwert, sodass man bzgl. der Fertigungskosten aufpassen muss, wenn es wirtschaftliche sein soll.
Grundsätzlich hätte ich ab einer Speichermenge von 16 GiB auch eher die Verwendung von HBM2 erwartet. Das Problem ist nur, dass AMDs Absatzzahlen in diesem Segment deutlich geringer sein werden als die von nVidia, selbst wenn man noch die Radeon Pro's einrechnet, die zweifelsfrei auch RDNA2 verwenden werden. Hätte/würde AMD den HighEnd-Chip auf HBM2 auslegen, hätte man keine wirtschaftliche Möglichkeit zum Downgrading mehr, wie es bspw. nVidia mit dem TU102 macht (den sie über eine sehr weite Produktspanne hinweg nutzen), denn für etwas runtergestrippte Chipvarianten stünde dann weiterhin nur das HBM-Interface zur Verfügung, d. h. man müsste auch auf diesen günstigeren Karten teueren HBM verwenden, was die Fertigungskosten relativ betrachtet weiter in die Höhe treiben würde (bzw. effektiv die Marge senken würde).