@BigBoymann: Von "
schlechter" war ja bei mir auch nirgends zu lesen ... derartige Formulierungen versuche ich im Forum i. d. R. zu vermeiden, weil dann
zartbeseitete Gesellen zumeist schnell steil gehen (nicht auf dich bezogen!) ... aber ich weiß natürlich was du meinst.
a) Das Thema Effizienz brauche wir, denke ich, nicht weiter zu erörtern. Der Ist-Zustand 10nm SuperFin (10nm++) kommt auf jeden Fall gesichert nicht mit TSMCs ausgereiftem N7 mit. Hier kann man bereits recht gut über Tiger Lake U und Ice Lake SP hinweg ableiten.
Sollte mal Torsten (!?!? ! ! !
) einen Tiger Lake H in die Finger bekommen, könnte man gar mal einen echten, gut vergleichbaren SoC-Vergleich anstreben, aber da werden vermutlich auch keine Überraschung bei herauskommen, sondern eher nur Präzisierungen zur Einordnung.
b) "
Bzgl. der Logikdichte, waren meine Angaben die optimale Prozedur, je nach Chip verringert sich das natürlich. Aber nur weil Zen 2 nur 50M hat, bedeutet dies nicht, dass der Prozess es nicht hergibt." - Den Satz verstehe ich leider überhaupt nicht, weder den ersten, noch den zweiten Teil. Welchen Kontext übersehe ich hier? Meine Aussage gliedert sich folgendermaßen:
1) AMD implementiert in TSMCs N7 mit grob über den Daumen gepeilt 50 - 60 MTr/mm2 im Mittel (bei CPUs, bei Desktop-CPUs natürlich nur anteilig, aber wir betrachten hier ja auch nur 7nm) .
2) Den N7 gibt TSMC mit der HD Lib mit maximal etwa 92 MTr/mm2 an, wovon AMD zwar weit weg ist, Apple aber für seine low-power Designs bspw. immerhin rd. 82 MTr/mm2. erreichte; ist aber auch ein etwas anders gelagerter Anwendungszweck. (
Ein Jahr später implementierte Apple im N7P mit gar 86 MTr/mm2.)
3) Intel erreichte laut offiziellen Angaben in ihren (ursprünglichen?) 10nm bis zu 100 MTr/mm2, aber nur in der HD Lib, die 8 Fins verwendet.
Die HP Lib verwendet bereits 10 Fins und erreicht nur noch maximal 81 MTr/mm2 und mit der Ultra High Performance Lib mit 12 Fins kann man in den 10nm bestenfalls als Peak nur noch 67 MTr/mm2 implementieren.
Ein Problem bei diesen Informationen ist jedoch, dass nicht einmal klar ist, ob diese Infos für den aktuellen Prozess noch gültig sind, denn es könnte sein, dass diese sich auf den originalen Prozess in Verbindung mit Cannonlake beziehen und Intel könnte im Zuge der Prozesskorrekturen diese Eckdaten bereits nach unten korrgiert haben?
4) Unabhängig davon scheint Intel aber dennoch gar mit einer noch deutlich kleineren Logikdichte zu implementieren als bspw. den zitierten 67 MTr/mm2 und damit mit deutlich weniger als es AMD im N7 bei TSMC nutzt (oder auch nVidia mit dem GA100), denn wäre dem nicht so
und Intel wäre immer noch (nahezu) unverändert gleich effizient bzgl. der Transistornutzung unterwegs, würde das bedeuten, dass die aktuellen 10nm-Designs flächentechnisch alle deutlich kleiner ausfallen müssten.
5) Bei den aktuellen 14nm fertigt Intel derzeit im Bereich von gemittelten 13 - 15 MTr/mm2.
6) Wie gesagt, ich kann es nur grob abschätzen für 10nm, aber hier scheint es, als wenn Intel's CPU-Designs hier mit deutlich unterhalb von 40 MTr/mm2 fertig, im "worst case" (
wenn man so will) gar im hohen 20er-Bereich.
Wenn man also unbedingt so will, ja, dann ist Intel's 10nm-Prozess "schlechter", als der aktuelle N7, der ja auch bereits seit 2018 genutzt wird und daher noch ein wenig weiter gereift ist, so z. B. sicherlich auch bzgl. Leckströmen, etc.
Probleme bei der Annahme gibt es zweierlei:
a) Die mittlere Transistordichte. Die Schwankungsbreite kann ich hier nicht zuverlässig einschätzen, denn bspw. einfache I/O-Logik wird Intel vermutlich eher mit der HD-Lib, bestenfalls der HP-Lib fertigen, während für die Rechenkerne zweifellos die UHP-Lib verwendet wird. Unterschiedliche Chipbereiche haben also unterschiedliche Dichten. Zudem kommt halt noch hinzu wie eine konkrete Lib angewendet wird, denn man kann als Entwickler auch absichtlich mit einer noch geringeren Dichte implementieren, als es die verwendete Lib eigentlich zulassen würde.
Beispielsweise Qualcomm erklärte mal zu ihrem Snapdragon 855, dass das SoC im N7 weitestgehend die H240 HD-Lib (mit 8 Fins) nutzt und damit grob 90 MTr/mm2 erreicht. Der Prime-Core, ein schneller Kryo 485 Gold mit 2,84 GHz wird jedoch mit der H300 HP-Lib (mit 10 Fins) gefertigt, in der Qualcomm bestenfalls um die 65 MTr/mm2 auf dem SoC realisieren konnte.
Wenn man also bei einem HighLevelBlick auf einen Chip oder gar ein SoC von "
gemittelter Transistordichte" spricht, mittelt man da schon implizit viele unterschiedliche Werte.
Beispielsweise beim Zen2-CCD habe ich das mal zu überschlagen versucht und stellte fest, dass die Unterschiede zwischen dem großen L3 (
zwangsweise im 6T-Aufbau) und den Kernen und dem I/O = IF-Anteil nicht übermäßig groß sein können. (
Ein versuchtes Auseinanderdividieren zwischen den Cores und dem IF-Teil macht keinen Sinn, da man anhand des Die-Shots zwar die Fläche abschätzen kann, aber nicht weiß, wie sich die IF-Dichte relativ zur Core-Dichte verhält, bzw. welche Transistoranzahl auf die Cores entfällt.) Angemerkt am Rande: Das Zen2-CCD scheint die H240 HD-Lib zu nutzen (
vermutlich gar durchgehend, was auch vielleicht die geringen Dichteunterschiede erklären würde) und nicht etwa die H300 HP, wie man vielleicht vermuten könnte. Letztere wurde bspw. in Verbindung mit Vega20 genutzt, quasi AMDs 7nm-Erstlingswerk, weitestgehend ein Vega-Shrink auf rund 40 MTr/mm2.
b) Die "
Transistoreffizienz" von Intel. Wie schon erklärt, brauchte Intel hier in der Vergangenheit im Mittel auffallend weniger Transistoren als AMD für seine Designs. Ein Extrembeispiel ist das Zen2-CCD mit 3,9 Mrd. Transistoren (
theoretisch gar noch zzgl. weiterer 2,1 Mrd. Transistoren für den IOD) und bspw. Intels Broadwell EP, damals noch in den dichter packenden, ursprünglichen 14nm. Der Xeon benötigte gerade mal insgesamt nur 4,7 Mrd. Transistoren für 15 (!) Kerne mit AVX2, 35 MiB L3, vier Speicherkanälen und 40 PCIe-Lanes zzgl. der 2 QPI-Links.
Und diese "Schieflage" bestand auch schon ggü. dem Ur-Zen, der noch bei GloFo in 14LPP gefertigt wurde und ein vollständiger Chip war und für nur 8 Kerne mit 16 MiB L3 dennoch 4,8 Mrd. Transistoren veranschlagte.
Wie gesagt, das Problem ist, dass ich nicht weiß, ob sich bei Intel hier mit dem Wechsel auf ihre 10nm bzgl. dieser vermeintlichen "Transistoreffizienz" was geändert (
"verschlechtert" wenn man so will) hat. Wenn ja, dann könnte es natürlich sein, dass deren neuere Designs deutlich mehr Transistoren benötigen und damit würde zwangsweise auch die implementierte Dichte steigen.
Nachfolgender Analyseversuch scheint aber eher dagegen zu sprechen.
@PCGH_Torsten : Hier habe ich mich bei vielen Einzelwerten bedient und die in möglichst sinnvoller Art zu kombinieren versucht, oder es halt sein lassen, wenn es zu spekulativ wurde.
Unter anderem bei Skylake SP im XCC mit 28 Kernen und seinen zwei AVX-512-FMA-Einheiten pro Core, dem was man in den Die Shots von Ice Lake und Tiger Lake sieht., usw.
Das Problem ist natürlich immer, dass am Ende vieles auf eine pro Core-Betrachtung hinausläuft, diese aber dann immer gemittelte Anteile der restlichen CPU miteinbezieht.
Was ich aber auch mal gemacht habe ist die Die Shots passend skaliert gemäß der tatsächliche oder bei RKL geschätzten Größenangaben und hierbei kann man zumindest folgende Schlüsse ziehen, natürlich immer mit gewissen Rundungsfehlern, die schon dabei anfangen, dass die Die Shots ggf. falsch beschnitten sind oder was auch immer:
Jeweis für einen Kern mit zugehörigen Cache-Slices (und VRM):
- Ice Lake U (Sunny Cove in 10nm+) : ~ 1,97 x 3,49 mm ~ 6,88 mm2 (2 MiB L3)
- Tiger Lake U (Willow Cove in 10nm++): ~ 2,05 x 4,38 mm ~ 8,98 mm2 (größerer L2 und 3 MiB L3)
- Rocket Lake S (Cypress Cove in 14nm+++): ~ 2,94 x 4,53 mm ~ 13,32 mm2 (2 MiB L3, ein Sunny Cove-Backport)
- Coffee Lake (in 14nm++) : ~ 2,78 x 3,74 mm ~ 10,40 mm2 (mit 1,5 MiB L2, ggf. auch 10,72 mm2, da hier nicht ganz klar ist, wie weit der L3 reicht)
Eine vorab unbeantwortete Frage ist natürlich, ob der Backport auf 14nm+++ es möglicherweise erforderlich machte, auch ein paar Transistoren mehr zu implementieren, weil die 10nm vielleicht hier effizienter und optimierender desingned wurden? Ich gebe mal vereinfachend davon aus, dass die Transistorzahlen in etwa vergleichbar sind, d. h. dass das nicht der Fall ist.
Setze ich nun die typischerweise beobachteten, allgemein gemittelten etwa 14 MTr/mm2 (
hier meine Festlegung für bevorstehende relative Vergleiche) für Cypress Cove an, komme ich zu etwa 187 MTr. für einen Cypress Cove-Core mitsamt VRM und seinem 2 MiB L3-Slice.
Gehe ich nun davon aus, dass die gleiche Architektur in Ice Lake U mit nahezu der gleichen Transistorzahl implementiert wurde, erhalte ich hier eine Transistordichte von 27,2 MTr/mm2 in den 10nm+, also quasi die doppelte Dichte ggü. den aktuellen 14nm+++, aber weit von dem entfernt, was man aktuell typischerweise mit dem N7 nutzt (
oder etwa nVidia mit Samsung's 8LPP).
Abschätzungsversuche auf Willow Cove's 10nm++ sind ggf. problematisch, da Intel hier diesbezügflich auch von Optimierungen an den Transistoren sprach, d. h. hier
könnte sich die Dichte geringfügig geändert haben (
abgesehen vom umfangreichen Cache-Subsystem-ReDesign). Ignoriert man mögliche Dichteänderungen mit 10nm++ (
riesig werden die zweifellos nicht sein können), dann würde ein Willow Cove-Core mit seinem vergrößerten L2 und L3 also nun etwa 244 MTr. benötigen (
inkl. etwaiger weiterer, kleinerer architektonischer Anpassungen).
Abschließend noch ein 2017er Coffee Lake in 14nm++ zum Vergleich, der auf etwa 146 - 151 MTr. pro Core mitsamt seinem 1,5 MiB L3-Slice kommt. Die Varianz hier kommt daher, dass im Die Shot nicht zuverlässig erkennbar ist, wie weit der L3 reicht. (
Einige markeiren den L3 zwar bis in den Ring/Interconnect hinein, ob dem wirklich so ist, lasse ich mal unbeantwortet, die Transistorspanne ist aber noch vergleichsweise klein.)
Der Vollständigkeit halber: Die Transistorzahl könnte auch noch leicht höher liegen, sodass die Transistoranzahlvergrößerung bei den neueren Kernen im Vergleich kleiner ausfällt, denn Coffee Lake war die letzte CPU-Variante im dichter packenden, originalen 14nm-Prozess. In 2018 hat Intel die Dichte leicht reduziert um höhere Taktraten realisieren zu können. Denkbar wären also auch etwa 151 - 158 MTr?
Entsprechend kann man nun auch leicht abschätzen, was bei der Implementation von 16 großen Cores passieren würde, da Intel's Dichte anscheindn deutlich niedriger liegt. Ein monolithisches Die würde beträchtlich mehr Fläche beanspruchen.
Der Vollständigkeit halber möchte ich aber folgendes nicht unterschlagen:
Es gibt zum Compute Die (inkl. GPU und Media/Display Engine, etc.) von Lakefield die Angaben 82 mm2 und 4,05 Mrd. Tr., was effektiv zu einer mittleren Dichte von 49 MTr/mm2 führen würde. Das würde alle obigen Betrachtunge zunichte machen.
Versuche ich den Sunny Cove-Kern jedoch mit einer Skalierung über den von Ice Lake U zu legen, so hat es den anschein, als wenn das Compute Die dann deutlich über die 82 mm2 hinauswachsen würde, d. h. möglicherweise wurde das Compute Tile von Lakefield (ein 5 - 7 W LowPower-Design) mit einer deutlich höheren Dichte implementiert. Der Chip musste aufgrund des Foveros-Designs per se ein komplettes ReDesign sein, da hier u. a. auch thermische Parameter zu berücksitigen waren (bspw. Abwärmeführung durch die diversen Schichten), so dass das nicht abwegig erscheint und Lakefield möglicherweise nicht als Vergleichsobjekt herangezogen werden kann (
meiner Kenntnis nach leider der einzige Fall in den letzten 24+ Monaten, bei dem sich Intel zur Preisgabe vollständiger Angaben hat hinreißen lassen ).