Vermutlich N7P, weil die Designregeln mit N7 kompatibel sind.
N7+ ist ja eine Sackgasse!
N7P wird schon für Navi1X verwendet.
Bleibt nur eine andere Cell Library oder N7+ übrig oder schlicht Marketing-Folien, die minimale Verbesserungen irgendwie bewerben wollten.
https://twitter.com/david_schor/status/1235731985475096576
Hm, wie so sollte das dann noch eine CCX Struktur sein? Es könnte auch einfach ein CCD mit Ringbus sein.
CCX würde sich wie bisher auf den Kerncluster beschränken, Core Compute Die beschreibt den ganzen Chip.
Die Designflexibilität bliebe inwieweit erhalten?
Wenn ich den Ringbus richtig verstanden habe, wäre ein "Zusammenflanschen" viel schwieriger und mit wesentlich mehr Chipfläche, bzw noch größeren Performanceeinbußen bei mehreren CCDs verbunden als beim aktuellen Chipletdesign. Man würde in meinen Augen nur mit 8Kernern einen Performancegewinn verbuchen, dafür aber Flexibilität und Performance bei mehr als 8 Kernen verlieren müssen. Ein 64Kerner würde damit quasi zu einem Chip verschmelzen, oder aber zu bspw. 4 Chips die in Intel Manier zusammengeklebt werden müssen. Bei Intel waren gerade die Skalierbarkeit ein Riesen-Nachteil und das würde auch AMD treffen. Daher sehe ich den Ringbus bei anhaltender Kernmanie als gestorben an.
Da würde sich aktuell nichts ändern, denn es würde sich nur auf das Chiplet selber beschränken.
Momentan verwendet AMD eine direkte Crossbar-Verbindung für bis zu 4-Kerne, dass kann man günstig realisieren und bietet die beste Latenz für die Kommunikation.
Aber der Kompromiss ist, dass nur 4-Kerne miteinander kommunizieren bzw. aktuell sich einen gemeinsamen L3$ teilen, darüber hinaus muss man über Infinity-Fabric mit höherer Latenz und Stromaufnahme gehen.
Code welcher lokal auf einem CCX laufen kann, läuft gut, müssen Daten aber darüber hinaus ausgetauscht werden oder ist das Datenset so groß, dass es nicht in den gemeinsamen L3$ passt, sinkt die Performance (stark) ab.
Man könnte jetzt auch direkt 8-Kerne miteinander verdrahten, aber jeden Kern direkt zueinander zu verdrahten bedeutet das der Aufwand dafür einfach explodiert, dass frisst dann ordentlich Fläche und Strom.
Deswegen würde sich eine andere Topologie anbieten, wie ein Ring oder ein Mesh-Network oder etwas noch anderes.
Bei einem Ring würde man die Daten eben über einen Ring schicken, was die Latenz in einigen Fällen erhöhen würde, da ein Kern nicht mehr direkt mit drei weiteren verbunden ist, dafür würde sich die Latenz aber zwischen 8-Kernen im Schnitt verbessern und wenn der L3$ geteilt wird, vergrößert man den Bereich, wo Daten lokal bearbeitet werden können, ohne ein CCX verlassen zu müssen.
Aktuell verwendet Rome 8 Chiplets, jedes Chiplet hat insgesamt 8-Kerne, welche aus zwei 4-Kern CCX bestehen.
Milan ändert nur Letzteres, es wären nach wie vor 8 Chiplets, aber anstatt zwei CCX pro Chiplet, wäre es ein 8-Kern CCX Chiplet.
Bei einem Ring ist die Skalierbarkeit natürlich auch begrenzt, denn je mehr Kerne man hat, desto länger dauert es Daten von einem Ende zum anderem zu schicken.
Intel hat bei Broadwell maximal 12-Kerne miteinander über einen Ring kommunizieren lassen, darüber gab es noch einen weiteren Ring und Ring-Switches zwischen mehreren Clustern.
Für Skylake hat Intel dann auf ein Mesh-Netzwerk gesetzt, was wiederum andere Kompromisse aufweist.