Wie gesagt: Eine Implementation von 4.0 nur für die CPU wird durch den PCH nicht behindert. Umgekehrt dagegen schon – einen 4.0-PCH an eine 3.0-CPU zu hängen wäre von vorneherein zum scheitern verurteilt gewesen beziehungsweise durch die DMI-Limitierung sinnlos.
Laut
diesem Thread sind's beim StrongARM bis zu 30% nur für den L2! Es wird sogar ein Paper verlinkt. Inwiefern das mit x86 vergleichbar ist, weiß ich nicht. Ich mache mal ne Anfrage auf Twitter. Hab ein paar Nerds in der Follower Liste... ^^
Zusätzlich wird ein Wärmebild gezeigt weiter unten. Der L3 heizt ganz gut mit.
Nice. Beim Core-i-L3-Wärmebild halte ich aber meinen Interconnect-Hinweis aufrecht: Das der L3 vor allem mit einem Kern im Turbo-Modus zu glühen scheint, nicht aber bei verteilter Last auf allen Kernen, spricht für den Ringbus als primäre Wärmequelle. Denn der muss dann den einen Kern auch mit Daten aus der letzten Cache-Slice versorgen, die in normaler Anwendung primär von ihrem direkten Nachbarn benutzt werden würde. Dazu passt auch die intensivere Wärmeentwicklung an den
sechsmal vorhandenen Schaltungen zwischen den regelmäßigen Speicher-Strukturen: Das sind meiner Einschätzung nach die Nodes des Ringbus (4 Kerne + IGP + IMC) und keine Teile des Caches.
Wie es bei anderen Architekturen aussieht, weiß ich aber nicht. Einerseits lässt skaliert Cache sicherlich schlechter auf niedrige Leistung, weil SRAM auch beim nichtstun Energie braucht. Der Anteil am Stromverbrauch solllte bei breiten, niedrig taktenden Designs also höher liegen, weil dort die Rechenlogik viel sparsamer ist. Letztlich sind die dicken Server-ARMs und auch SPARCs ja mit ähnlichen Methoden auf Effizienz getrimmt, wie mobile-CPUs. Obiges Beispiel mit einem REE-Netburst stellt praktisch das gegenteilige Extrem dar.
Bei ARM und SPARC würde ich wegen RISC eine weitere Verschiebung erwarten: Diese CPUs müssen praktisch gar keine Leistung für Decoding aufwenden und, je nach Implementation, auch weniger bis keine für die Sprungvorhersage, weil ihre Befehlssätze direkt und mit viel kürzerer Latenz verarbeitet werden. Offizielle Zahlen zu deren Verbrauch in x86 schwanken zwar, aber wie schon in der
Zen-Analyse angesprochen: Bei modernen x86-Kernen ist der eigentliche Kern ja nur noch ein namensgebender Spitzensportler in der Mitte eines großen, energieintensiven Teams, ohne das praktisch gar nichts liefe. Umgekehrt, und da bin ich jetzt auf einem wirklich dünnem Ast unterwegs, könnten die simpleren Instruktionen bei ARM zu deutlich mehr Befehlsdurchläufen für die gleiche Rechenarbeit führen und damit auch zu mehr Load- und Storevorgängen. Dann hätte man also mehr Verbrauch im Speichersystem und gleichzeitig deutlich weniger in den Kernen, was das Verhältnis natürlich extrem verschiebt. Das ist aber, wie gesagt, hochspekulativ. Gegenüber echtem CISC müsste es stimmen, aber über die Micro-OPs von AMD und Intel weiß ich schlichtweg nicht genug, um sie mit RISC-Instruktionen vergleichen zu können.