Wer sagt dass ich das will? Ich meine ja dass es so mit diesem Mesh und vielen Kernen nicht so funktioniert dass es im Desktop Sinn macht. Die Latenzen sind wohl das Problem. AMD kann, unabhängig vom besseren Node, viele Kerne bringen und die durschnittlichen Latenzen auf einem Niveau halten. Intel hat ab zehn Kerne aufwärts probleme mit der Skalierung [...]
Die Aussage ist so gemäß AnandTech nicht korrekt. Soband es bei AMD über den IF geht, kommen beträchtliche Latenzen hinzu, was auch nicht verwundern sollte, schlicht weil man den Chip verlässt.
Auf dem 5950X liegen Inter-CCD-Core-2-Core-Latenzen bei gemittelt 15 - 19 ns, sobald es auf das andere CCD geht, liegen die Latenzen bei 78 - 85 ns.
Bei einem 28-Kerner Cascade Lake SP in Form des Platinum 8280 dagegen liegen die Latenzen mit dem Mesh recht stabil bei 43 - 49 ns, egal von welchem zu welchem Core, d. h. der Meshbus leistet also recht ordentliche Arbeit, insbesondere, wenn man bedenkt, dass hier die weitaus höhere Kernzahl miteinander kommunizieren muss.
Und bei Epyc/Rome, so konkret dem 7742, wird es im Mittel gar noch langsamer. Hier kommunizieren nur die unmittelbar in einem CCX liegenden vier Kerne mit um die 23 ns miteinander. Alles andere auf der Server-CPU benötigt im Mittel zwischen 101 - 139 ns, wobei die höchsten Zeiten voraussichtlich in der Art zustande kommen, wenn die jeweiligen CCDs am weitesten auseinanderliegen bzgl. der Anbindung am sIOD und die besten Zeiten nahe der 100 ns, wenn es auf das gleiche CCD zurück nur auf das andere CCX geht.
Das IF-Design hilft bei der CPU-Skalierung, selbstredend kostet es aber Latenzen und kann natürlicherweise nicht mit einem monolithischen Konstrukt mithalten.
Es wird interessant zu sehen sein, was Intel's EMIB hier ermöglicht, wobei unklar ist, ob das zeitnah bei entsprechenden CPUs zum Einsatz kommt. Ice Lake SP ist weiterhin ein monolithisches Design und bei Sapphire Rapids SP (Ende 2021) wäre es denkbar, dass hier zwei komplette Dies analog Cascade Lake AP auf einem Package zusammengefasst werden, jedoch ist unklar womit die verbunden werden. (Aktuell gibt es 72-Kerner in der Gerüchteküche, d. h. 2 x 36-Core-Dies.)
*) Der 10900K (CML) verhält sich recht ähnlich zu Zen. der Großteil der Kerne kann untereinander im Bereich von 17 - 21 ns miteinander über den Ringbus kommunizieren. Offensichtlich wurde die Architektur jedoch nicht von Grund auf neugestaltet für dieses Design, denn zu zwei bestimmten Kernen auf dem Die kann die Latenz auf bis zu 23 ns ansteigen. Für einen mäßig optimierten Ringbus dennoch passabel, denn Zen2 schneidet hier im Mittel deutlich schlechter ab und bei Zen3 wird es ebenso deutlich langsamer, wenn der CCD zu verlassen ist, was aber nun aufgrund des unified CCDs (= CCX) nun seltener vorkommt.