Grafikkarten im Chiplet-Design: Patent von AMD aufgetaucht

RtZk

Lötkolbengott/-göttin
Wozu sollte ich, wenn ich eh informiert bin?
Du liegst wie immer falsch, bzw hast etwas erfunden oder falsch verstanden!

Bist jetzt ist jedenfalls nichts bekannt, alles nur Gerüchte und für RDNA ist das aufgrund der kosten eher unwahrscheinlich.

Für CDNA wird das sicher kommen, dort stoßen die Karten aber auch in ganz andere Preisregionen vor...

Informiert bist du schon mal ziemlich sicher nicht. Ich kann dir nur weiter raten Google zu nutzen da wirst du es ziemlich sicher ziemlich schnell finden.
Woher kommt eigentlich immer deine traurige Verbissenheit? Deine Posts strotzen nur so vor Aggression.
 

Technologie_Texter

BIOS-Overclocker(in)
Du bist ziemlich überheblich!
Aber lassen wir es einfach, du Zukunft wird dich eh bald einholen;)

Wirst schon sehen, deine Träumereien werden so nicht eintreffen...
 

PCGH_Torsten

Redaktion
Teammitglied
@gerX7a:

Ich sage nicht, dass die Erwartung von AMD-MCM-GPUs falsch ist, aber sie speißt sich nicht aus diesem Patent. Und die Logik, dass ein Produkt wird erscheinen müssen nur weil man andernfalls hinter die Konkurrenz zurückfällt, führt oft zu Trugschlüssen. Das präsenteste Beispiel dürfte wohl das komplette Intel-CPU-Line-Up seit 2017 sein. :-) Im Falle von AMD fehlen weiterhin jegliche Hinweise auf Techniken, die ohne riesige Si-Interposer auskommen, was eine Skalierung außerhalb des HPC-Marktes in meinen Augen unmöglich macht. In letztgenannten ist AMD bislang aber gar nicht mit speziell konstruierten Beschleunigern, sondern nur mit GPU-Ableitungen vertreten und bislang hat dort auch kein anderer Hersteller mehr als einen einzelnen Chip pro Generation für nötig gehalten. In kommenden Generationen sind Pläne nur von einem Hersteller bekannt, der einen heterogenen Fab-Bestand auslasten muss und, schon deutlich weniger konkret, von einem Hersteller der endlich mal zusehen muss, dass er für leistungsfähige Racks nicht mehr auf Lane-reiche Plattformen der direkten Konkurrenz zurückgreifen muss. Beides trifft auf AMD nicht zu. Und ob inter-Chip-IF energetisch weit genug skaliert oder ob AMD erst einmal etwas nach dem Vorbild von NVLink entwickeln müsste, solange ihnen EMIB-ähnliche Techniken nicht zur Verfügung stehen, weiß in der Öffentlichkeit auch niemand.


Auf der Arbeit fehlt mir leider die Zeit dir einen Roman dazu zu schreiben,nur damit du das als differenziert ansiehst.
Fakt ist,AMD ist der einzige Hersteller der damit Massenprodukte anbietet und daher über weitreichende Patente und Erfahrungen verfügt in dem Bereich.man hat also zweifelsfrei hier die Technologieführerschaft derzeit inne.

Intel hat einen potentiell sehr interessanten Interposer für solche Chiplet Varianten (Core i 8000G),Hauptproblem bei einem solchen Aufbau ist aber die Cache Hierarchie.

IBM verkauft seit über einem Jahrzehnt MCM-Prozessoren, Intels hatte das erste asymetrische MCM (sogar mit der Aufteilung Kerne + Caches <-> PCI-E + RAM) vor einem knappen Jahrzehnt in Großserie und Packages vergleichbarer oder noch höherer Komplexität sind im Mobile-Markt Standard. Korrekt ist, dass AMD die einzige aktuelle MCM-Implementation im Desktop-Endkundenmarkt und die einzige asymmetrische im x86-Servermarkt (Skylake AP ist symmetrisch, genauso wie es AMDs Magny Cours oder die Kernverdoppler in Sockel 604/771/775 waren). Aber das hat wenig mit Technologieführerschaft zu tun. In Märkten mit nur zwei bedeutenden Teilnehmern reicht es, wenn einer was anders macht als der andere und schon sind beide die "führenden" weil einzigen in ihrer jeweiligen Kategorie. Ob der jeweils bessere dann wegen diesem einen Unterschied besser ist oder weil er sonst vieles richtig macht, steht auf einem anderen Blatt Papier. Aktuell sollte man eher festhalten, dass TSMC-7-nm-Prozessoren klar vor Intel-7-nm-Designs führen. Und das sowohl unter den monolithischen als auch den MCM-Angeboten.
 

Tarjei

Komplett-PC-Käufer(in)
...

**) AMD verwendet die Chiplet-Bauweise vorrangig, weil sie die für Epyc benötigen und für die höherkerneingen Ryzens. Insbesondere für den Consumer-Massenmarkt wären auch hier monolithische Chips vorteilhafter, aber in die Gesamtbilanz passt das derzeit bei AMD noch nicht so ganz rein. Mittelfristig würde ich jedoch annehmen, dass im Mainstream bei AMD die Chiplet-CPUs wieder durch monolithische APUs ersetzt werden.
Ich verstehe schon das monolithische Dies ganz klare Vorteile haben, aber wenn man mit seinem Chiplet-Design mehr Leistung bietet als die überlegene monolithische Herangehensweise des Konkurrenten dann ist das ja einstweilen vorteilhaft genug. Man muß vor allem Achtung zollen was da aus der nicht-so-vorteilhaften Methode herausgeholt wurde. Natürlich spielt da die Fertigung hin wie her rein,aber man muß klar konstatieren: was AMD aus Chiplet und geringeren Taktfrequwnzwn als der Mitbewerber rausholt ist mehr als nur gut. Und so lange wie das so funktioniert und auch noch wirtschaftlich ertragreicher ist als monolithische CPUs es unter den gegebenen Umständen wären verstehe ich nicht so richtig warum man wieder umschwenken sollte?Ja, bei Intel wird mit Sicherheit noch einiges kommen, das wirst du ja auch nicht müde zu betonen, aber jetzt ist es wie es ist.
 

Gurdi

Kokü-Junkie (m/w)
Aber das hat wenig mit Technologieführerschaft zu tun. In Märkten mit nur zwei bedeutenden Teilnehmern reicht es, wenn einer was anders macht als der andere und schon sind beide die "führenden" weil einzigen in ihrer jeweiligen Kategorie.
Ich sehe dennoch AMD in diesem Bereich deutlich vorne, es ist eines ein paar Chips auf einen Interposer zu klatschen und ein anderes eine High Peroformance CPU zu bauen die wirtschaftlich und leistungsstark ist. Das Problem mit den Latenzen ist die Crux, Multi Gpu´s haben wir auch schon des öfteren auf einer Platine gesehen.

Ich bezweifle auch das Nvidia sich eine entsprechende Technik einfach aus dem Hut zaubert, da wird man auch erstmal Lehrgeld zahlen müssen ähnlich wie AMD bei RT. In Sachen Cache ist AMD einfach Spitze derzeit, das muss man Ihn dann auch einfach mal zugestehen. Der Infinity Cache hat alle überrascht und zwar positiv.
 

PCGH_Torsten

Redaktion
Teammitglied
Mir wäre neue, dass ein Power10 keine Performance hätte oder das Intels Clarkdale ein dahingeklatschtes, unwirtschaftliches Design gewesen wäre. Im Gegenteil, die Hersteller schienen/scheinen mit ihren MCMs unter den jeweiligen Bedingungen durchaus zufrieden (gewesen) zu sein.

Ich verstehe schon das monolithische Dies ganz klare Vorteile haben, aber wenn man mit seinem Chiplet-Design mehr Leistung bietet als die überlegene monolithische Herangehensweise des Konkurrenten dann ist das ja einstweilen vorteilhaft genug. Man muß vor allem Achtung zollen was da aus der nicht-so-vorteilhaften Methode herausgeholt wurde. Natürlich spielt da die Fertigung hin wie her rein,aber man muß klar konstatieren: was AMD aus Chiplet und geringeren Taktfrequwnzwn als der Mitbewerber rausholt ist mehr als nur gut. Und so lange wie das so funktioniert und auch noch wirtschaftlich ertragreicher ist als monolithische CPUs es unter den gegebenen Umständen wären verstehe ich nicht so richtig warum man wieder umschwenken sollte?Ja, bei Intel wird mit Sicherheit noch einiges kommen, das wirst du ja auch nicht müde zu betonen, aber jetzt ist es wie es ist.

Die überlegene Fertigung "spielt" da nicht nur mit rein, das ist der entscheidende Faktor. Intel gibt leider seit einiger Zeit keine offiziellen Angaben zu Transistorzahlen heraus, aber für Skylake wurden 350 bis 500 Millionen Transistoren Unterschied zwischen Dual- und Quad-Core-Ausführung geschätzt. Also rund rund 175-250 Millionen Transistoren für einen einzelnen aktuellen Kern inklusive Caches und Ring-Bus-Segment in Intels weiterhin aktueller Architektur. Für die ganze CPU kommen noch I/O, IGP, IMC, etc. dazu. Ein Zen-3-CCD hat ohne I/O, IGP und IMC (alles auf dem IOD) 4,2 Milliarden Transistoren. Mit dem Transistorbudget eines Ryzen 5800X könnte man also einen 16- bis 24-kernigen Coffee Lake produzieren. Stattdessen tritt Intel mit rund der Hälfte davon an und versucht das, mehr schlecht als recht, durch leicht höhere Taktfrequenzen zu kompensieren. Das ist zwar ein Problem wenn man mit gleichem oder sogar höherem Energiebudget nur halb so viele Einheiten versorgen muss, bringt aber eben nicht annähernd so viel wie doppelt so viel Cache und doppelt so viel Logikeinheiten bei immer noch ansehnlichem Takt in einem 7nm-TSMC-Prozessor.
 

Tarjei

Komplett-PC-Käufer(in)
Mir wäre neue, dass ein Power10 keine Performance hätte oder das Intels Clarkdale ein dahingeklatschtes, unwirtschaftliches Design gewesen wäre. Im Gegenteil, die Hersteller schienen/scheinen mit ihren MCMs unter den jeweiligen Bedingungen durchaus zufrieden (gewesen) zu sein.



Die überlegene Fertigung "spielt" da nicht nur mit rein, das ist der entscheidende Faktor. Intel gibt leider seit einiger Zeit keine offiziellen Angaben zu Transistorzahlen heraus, aber für Skylake wurden 350 bis 500 Millionen Transistoren Unterschied zwischen Dual- und Quad-Core-Ausführung geschätzt. Also rund rund 175-250 Millionen Transistoren für einen einzelnen aktuellen Kern inklusive Caches und Ring-Bus-Segment in Intels weiterhin aktueller Architektur. Für die ganze CPU kommen noch I/O, IGP, IMC, etc. dazu. Ein Zen-3-CCD hat ohne I/O, IGP und IMC (alles auf dem IOD) 4,2 Milliarden Transistoren. Mit dem Transistorbudget eines Ryzen 5800X könnte man also einen 16- bis 24-kernigen Coffee Lake produzieren. Stattdessen tritt Intel mit rund der Hälfte davon an und versucht das, mehr schlecht als recht, durch leicht höhere Taktfrequenzen zu kompensieren. Das ist zwar ein Problem wenn man mit gleichem oder sogar höherem Energiebudget nur halb so viele Einheiten versorgen muss, bringt aber eben nicht annähernd so viel wie doppelt so viel Cache und doppelt so viel Logikeinheiten bei immer noch ansehnlichem Takt in einem 7nm-TSMC-Prozessor.
Nichtsdestotrotz wäre die Erfolgsaussicht bei Fertigung als monolithischer Chip aber deutlich geringer, oder? Denn dann würde der Die mit allem drum und dran doch schon wieder groß genug um vermehrt Ausschuß zu produzieren?
 

4thVariety

BIOS-Overclocker(in)
Worst case: AMD muss die Chips riesig fertigen wie bisher.
Best Case: vgl. Ryzen, da hat es mit den Chiplets auch geklappt.

Klar gibt es einen Bereich da kann Intel mithalten, z.B. beim 8-Kerner, dann wenn AMD auch nur einen I/O Die und ein Chiplet verbaut. Dann kuckt man aber rüber auf Epyc, da sehen die Xeons dann schon alt aus.

CPUs müssen modularer werden. Auf der einen Seite hat man Datencenter wo in 1U Gehäusen 20 NVMEs und mehr stecken. Da ist es keine Frage ob die CPU Rechenpower reicht, davon hat man genug. Aber die Bandbreite ist das Limit, man braucht also nicht die nächsten 64 Kerne, man braucht mehr Durchsatz. Auf der anderen Seite hat man CPUs als Zuarbeiter von Grafikkarten. Entweder im Gamingbereich, als auch bei Supercomputern.

Zwar haben Intel und AMD Kombinationen aus CPU und GPU, aber die sind weder Fisch noch Fleisch. Für Office ist die CPU totaler Overkill, für Gaming ist die GPU viel zu schwach. Zeichnet mal Eure typische CPU Last auf, wenn ihr keine Spiele zockt und alltägliche Dinge macht. Totaler Overkill. Selbst in den Spielen ist man ja GPU limitiert. Die Wahrheit ist, doch wenn ein Nicht-Gamer sagt, dass er einen neuen PC kaufen will weil sein alter ist 6 Jahre alt und langsam, dann SSD rein und fertig. Da liegt für Intel und AMD doch der Hund begraben. Jenseits von Ryzen 3 und i3 gibt es eigentlich keinen Bedarf mehr am Massenmarkt. Das werden AMD und Intel nur Überleben, wenn sie modeulare CPUs bauen in der die Funktionen für die Geld auf den Tisch gelegt werden ohne totales Neudesign mit auf das Die geklebt werden können. CPU + GPU +AI Kerne wird die Formel lauten wer dann in einem Laptop oder Aldi PC verbaut werden will.
 

Oberst Klink

Lötkolbengott/-göttin
Das Chiplet-Design hat viele Vorteile, vor allem höhere Ausbeute und bessere Nutzung der Wafer-Fläche. Kleinere GPUs bedeuten weniger Ausschuss und mehr Flexibilität. Sieht man ja bei Zen wie gut das funktioniert. Dürfte auch bedeuten, dass Grafikkarten günstiger werden oder zumindest mehr Leistung fürs gleiche Geld bieten.
 

Schinken

Software-Overclocker(in)
Worst case: AMD muss die Chips riesig fertigen wie bisher.
Best Case: vgl. Ryzen, da hat es mit den Chiplets auch geklappt.

Klar gibt es einen Bereich da kann Intel mithalten, z.B. beim 8-Kerner, dann wenn AMD auch nur einen I/O Die und ein Chiplet verbaut. Dann kuckt man aber rüber auf Epyc, da sehen die Xeons dann schon alt aus.

CPUs müssen modularer werden. Auf der einen Seite hat man Datencenter wo in 1U Gehäusen 20 NVMEs und mehr stecken. Da ist es keine Frage ob die CPU Rechenpower reicht, davon hat man genug. Aber die Bandbreite ist das Limit, man braucht also nicht die nächsten 64 Kerne, man braucht mehr Durchsatz. Auf der anderen Seite hat man CPUs als Zuarbeiter von Grafikkarten. Entweder im Gamingbereich, als auch bei Supercomputern.

Zwar haben Intel und AMD Kombinationen aus CPU und GPU, aber die sind weder Fisch noch Fleisch. Für Office ist die CPU totaler Overkill, für Gaming ist die GPU viel zu schwach. Zeichnet mal Eure typische CPU Last auf, wenn ihr keine Spiele zockt und alltägliche Dinge macht. Totaler Overkill. Selbst in den Spielen ist man ja GPU limitiert. Die Wahrheit ist, doch wenn ein Nicht-Gamer sagt, dass er einen neuen PC kaufen will weil sein alter ist 6 Jahre alt und langsam, dann SSD rein und fertig. Da liegt für Intel und AMD doch der Hund begraben. Jenseits von Ryzen 3 und i3 gibt es eigentlich keinen Bedarf mehr am Massenmarkt. Das werden AMD und Intel nur Überleben, wenn sie modeulare CPUs bauen in der die Funktionen für die Geld auf den Tisch gelegt werden ohne totales Neudesign mit auf das Die geklebt werden können. CPU + GPU +AI Kerne wird die Formel lauten wer dann in einem Laptop oder Aldi PC verbaut werden will.

In der Tendenz stimme ich dir zu, aber nicht völlig. Als Fan von Open World und Grand Strategy Games bib ich bei einigen Spielen im CPU Limit. Für Anno bspw. aber auch TW, Stellaris etc. gibts keinen Overkill :).
 

4thVariety

BIOS-Overclocker(in)
In der Tendenz stimme ich dir zu, aber nicht völlig. Als Fan von Open World und Grand Strategy Games bib ich bei einigen Spielen im CPU Limit. Für Anno bspw. aber auch TW, Stellaris etc. gibts keinen Overkill :).

Würden diese Spiele fundamental besser, wenn man eine 300TDP CPU hätte, die linear zur 100W CPU skaliert? Ich glaube nein. Auch diese Art von Spiel wird in die nächste Generation gehen, aber wir werden sehen, dass CPU Leistung weniger wichtig ist, weil die Aspekte der Weltsimulation über DeepLearning oder MachineLearning abgebildet werden und nicht mehr Brute-Force CPU. Das wird die CPU so wie wir sie kennen nicht ausrechnen, das wird dann die GPU machen, oder eine Hybrid CPU.

Middleware im Jahr 2020 bedeutet, dass man Unreal Engine mit allen erdenklichen Plugins und Texturpaketen lizenziert. Middleware der Zukunft ist, dass man z.B. eine Version der Alpha Engine von Google lizenziert, die all die Dinge übernimmt, die jetzt eine CPU mit 100W auffressen. Google, Nvidia, Microsoft, Facebook, die würden da gerne alle die Player sein, die so eine Middleware vertreibt. Ki, World State Simulation, Bildschirmphysik, sind alles Aufgaben die in Zukunft von der CPU nicht mehr gemacht werden. Tensor Cores, KI Cores, nennt es wie ihr wollt, spezialisierte Kerne die man mit auf die GPU oder das Chiplet packt und mit CPU sehr wenig zu tun haben.
 

gerX7a

BIOS-Overclocker(in)
@gerX7a:

Ich sage nicht, dass die Erwartung von AMD-MCM-GPUs falsch ist, aber sie speißt sich nicht aus diesem Patent. Und die Logik [...]
Natürlich tut sie das nicht alleinig, aber es ist ein Hinweis, der jedoch letzten Endes auch unnötig war für eine derart "prophetische" Aussage, denn dass bei Beschleunigern/GPUs MCMs als der nächste Schritt unausweichlich sind, ist schon seit längerem absehbar, da die Leistungsanforderungen ungebremst wachsen, insbesondere im Datacenter und von daher bleibt AMD keine andere Wahl als hier ins gleiche Horn zu blasen, denn nVidia und Intel sind an dem Thema offenkundig schon dran. *) AMD hat nun mit CDNA eine komplett eigenständige Beschleuniger-Hardware (ich vermeide hier explizit den Begriff GPU) aufgesetzt, weil sie nun dafür die Ressourcen haben, aber mit der kommen sie dennoch weiterhin nicht an nVidia dran, jedoch wird ihnen ohne eigenen Beschleuniger ein nennenswerter Teil des Marktes entgehen und das wollen sie offensichtlich nicht und entsprechend engagieren sie sich auch hier und d. h. hier müssen die auch leistungstechnisch mithalten oder gar mehr bieten können, denn nur über den Preis wird ihnen das nicht gelingen, wie man bereits in den letzten 5 Jahren sah.
"was eine Skalierung außerhalb des HPC-Marktes": Hier gehe ich aktuell per se erst mal von einer Einführung im Datacenter/HPC-Markt aus, so auch grundsätzlich bei allen drei Playern. Im Consumer-Segment kann man mit den aktuell zu Verfügung stehenden Fertigungsnodes auch noch ausreichend weiteroptimieren, ohne sich der Komplexität eines MCMs widmen zu müssen und das ganze dann auch noch in das enge Preiskorsett des Consumer-Marktes zwängen zu müssen.
"In letztgenannten ist AMD bislang aber gar nicht mit speziell konstruierten Beschleunigern, sondern nur mit GPU-Ableitungen vertreten": Nichts anderes verwendet ja auch nVidia, denn reine Beschleungier-Hardware kommt auch im GA100 nicht zum Einsatz. Der Chip ist immer noch eine vollwertige GPU, bei der im Vergleich zu den Consumer-Produkten lediglich die RT Cores fehlen und der man mehr FP64-Einheiten spendiert hat. Bei AMDs MI100 wird es dagegen schon nicht mehr ganz so einfach bzgl. dieser Aussage, denn das Design basiert zwar auf einer GCN-Basis, jedoch wurden hier wesentliche Einheiten der 3D-Pipeline gestrichen, d. h. zumindest funktional lässt sich das Design nur noch als reiner Beschleungier verwenden. Und auch bei nVidia gehe ich zumindest mittelfristig davon aus, dass man hier den Bereich HPC und AI irgendwann auftrennen wird, was schlicht daran liegen wird, weil der Konkurrenzdruck durch spezialisierte Hardware von Drittherstellern zu hoch wird, die hier mittlerweile beträchtliche Leistung zuwege bringen und das teils gar deutlich effizienter. Wenn Hopper in 2022 tatsächlich als MCM kommt, könnte das vielleicht schon eine erste Möglichkeit sein, unterschiedliche Compute-Tiles/Chiplets für Datacenterprodukte mit unterschiedlichen Schwertpunkten bereitzustellen, bspw. ein universelles Produkt wie jetzt auch, dass sich für HPC und AI eignet, vielleicht mit einem geringfügig höheren Schwerpuntk auf HPC und ein hochgradig auf AI spezialisiertes Produkt.
Ob dagegen AMD schon soweit sein wird, dass bspw. CDNA2 bereits als MCM kommt, kann ich selbstredend nicht beurteilen, denn dazu haben sie noch nichts verlauten lassen und wie du schon anmerktest, ist das Patent an sich nicht mehr als ein Hinweis bzw. die Bestätigung, dass sie ebenfalls an dem Thema dran sind, jedoch konnte man das auch ohne die Kenntnis um dieses Patent recht gesichert annehmen.
Bezüglich der etwas plakativen "Trugschlussaussage" stimme ich dir grundlegend zu, in diesem konkreten Fall hier bin ich mir dennoch sehr sicher behaupten zu können, dass man von AMD mit CDNA2 oder allerspätestens CDNA3 ein MCM/Chiplet-Design von ihnen zu sehen bekommen wird. Das einzige was noch zu berücksichtigen wäre, ist der mögliche Kauf von Xilinx, denn ggf. könnte AMD auch seine eigenen Bemühungen in diesem Bereich aufgeben und sein KnowHow an Xilinx übertragen und über die den Markt weiter aufzurollen versuchen, aber das wäre letzten Endes Haarspalterei, denn ob derartige Produkte am Ende aus Abteilung X oder Y kommen spielt keine Rolle, denn in dem Falle wäre das alles AMD.

*) @Gurdi: Und da wird auch selbstredend bei nVidia nichts "aus dem Hut gezaubert", denn ein derartiges Produkt ist schlicht das Ergebnis jahrelanger Forschung und Entwicklung. Beispielsweise AMD hat mal "eben" geschlagene 7 Jahre bis zu Zen2 gebraucht und bspw. Intel entwickelt an EMIB seit 2008. Eine erste Erwähnung von Volta fang man schon auf einer Roadmap in 2013: "Volta with stacked DRAM and about 1 TB/s". nVidia hat bereits in 2019 auf eine TechConf in Tokyo, wenn ich mich recht erinnere, ein MCM-Datacenter-Design präsentiert, ein Prototypdesign oder aber möglicherweise war das gar Material unmittelbar aus der Entwicklung von/zu Hopper.

Ich verstehe schon das monolithische Dies ganz klare Vorteile haben, aber wenn man mit seinem Chiplet-Design mehr Leistung bietet als die überlegene monolithische Herangehensweise des Konkurrenten dann ist das ja einstweilen vorteilhaft genug. Man muß vor allem Achtung zollen was da aus der nicht-so-vorteilhaften Methode herausgeholt wurde. Natürlich spielt da die Fertigung hin wie her rein,aber man muß klar konstatieren: was AMD aus Chiplet und geringeren Taktfrequwnzwn als der Mitbewerber rausholt ist mehr als nur gut. Und so lange wie das so funktioniert und auch noch wirtschaftlich ertragreicher ist als monolithische CPUs es unter den gegebenen Umständen wären verstehe ich nicht so richtig warum man wieder umschwenken sollte?Ja, bei Intel wird mit Sicherheit noch einiges kommen, das wirst du ja auch nicht müde zu betonen, aber jetzt ist es wie es ist.
Wie bereits gesagt dient die Fertigung in Chiplet-Bauweise in erster Linie einer effizienten Fertigung und weniger einer leistungsstarken und bei AMD hat nach wie vor TSMCs besserer Prozess einen wesentlichen Anteil an der Leistung, d. h. man kann sich leicht ausmalen, dass ein Vergleich gegen ein Willow Cove-Design im N7 deutlich anders ausfallen würde.
Darüber hinaus, wie bereits erklärt, ist die Fertigung der Consumer-Produkte für AMD zweifellos aufwendiger und teuerer als die für Intel und genau das ist auch der Grund, warum AMD hier im LowEnd/Midrange-Consumer-Markt sich irgendwann davon verabschieden wird und das untere bis mittlere Segment voraussichtlich auch mit monolithischen Designs (voraussichtlich APUs, ggf. gar teilweise mit deaktivierten iGPUs wie schon im letzten Jahrzehnt?) bedienen wird, denn es ist für AMD reichlich ineffizient für einen Sechs- und erst recht einen Vierkerner, von denen immer noch sehr, sehr viele verkauft werden (und das selbst bei MF) einen 125 mm2 großen IOD mit einem 74 mm2 großen CCD auf einem hochkomplexen Package mit aufwendigem Routing zu vereinen.
Ich weiß nicht ob das hier bei dir ein Typo war, dem ich vielleicht keine Bedeutung beimessen sollte, aber "Und so lange wie das so funktioniert und auch noch wirtschaftlich ertragreicher ist", denn das ist es zweifellos nicht der Fall, denn ansonsten würde AMDs Marge anders aussehen und man hätte nicht so deutlich die CPU-Preise anheben müssen, wie sie es nun bei Zen3 getan haben um ihr Margenziel zu erreichen. Es ist ertragreich, denn ansonsten würde AMD weitehrin rote Zahlen schreiben wie von ca. 2012 - 2017, aber es ist nicht "ertragreicher als" im Vergleich zu Intel, denn deren Marge wird hier zweifellos höher liegen und das nicht nur weil die gemeinhin teuerer sind (was sie sich aber auch erlauben können, voraussichtlich alleine schon deshalb und auch bei den OEMs, weil AMDs Kapazitäten beschränkt sind).
Einfach mal abwarten. Eine erste Möglichkeit sehe ich bereits in 2022 mit einer Kombination aus Zen4 und Zen3+ (APUs), aber vielleicht wird es gar noch eine weitere Generation dauern, denn was auch für die nächsten paar Jahre weiterhin absehbar ist, ist dass der Bedarf an Rechenleistung im Mainstream/Office-Bereich nur geringfügig ansteigen wird und da wird man mit der Zeit ganz automatisch nach weiterem Optimierungs/Einsparungspotential suchen um die Marge zu erhöhen. Hochkernige, leistungsstarke CPUs braucht man vorrangig fürs Gaming und im professionellen Bereich für bestimtme, ausgewählte Applikationen, jedoch nicht zum Mail-Schreiben, Facebook-Checken und Streaming-Schauen.
Und "ja, bei Intel wird sicherlich noch einiges kommen", denn die sind ja nicht insolvent und schließen morgen die Tore, aber was hat das mit dieser Diskussion zu tun, die sich eigenlich ausschließlich um AMD drehte?

In Anlehnung an Torstens Antwort, weil ich die Zahlen gerade "zur Hand" habe:
Intel Broadwell EP, 1Q16, 15 Kerne, 35 MiB L3 im MCC-Die, ~ 4,7 Mrd. Transistoren (mit vier Speicherkanälen, ECC und AVX2)
AMD Zen2-CCD, 3Q19, 8 Kerne und 32 MiB L3, ~ 3,9 Mrd. Transistoren und dabei hat man noch nicht einmal eine funktionierende CPU, denn es fehlt noch das cIOD, das weitere ~ 2,1 Mrd. Transistoren beisteuert.
Es ist bedauerlich (aber nachvollziehbar ;-)) dass Intel in den letzten 24 bis 36 Monaten sehr zurückhaltend bzgl. Fertigungsdetails wurde. Für bspw. das Skylake SP-XCC-Die mit 28 Kernen und 38,5 MiB L3 mit sechs Speichercontrollern und zwei AVX-512-FMA-Einheiten schätzt man gemeinhin 8 bis max. 9 Mrd. Transistoren ab.
Insofern, wenn es Intel nicht erneut oder dann mal komplett in den Sand setzt, darf man Enden 2022/Anfang 2023 durchaus gespannt auf deren 7nm (P1276) sein und vielleicht trauen sie sich ja dann auch mal wieder mit ein paar mehr Details aufzuwarten. ;-)

Nichtsdestotrotz wäre die Erfolgsaussicht bei Fertigung als monolithischer Chip aber deutlich geringer, oder? Denn dann würde der Die mit allem drum und dran doch schon wieder groß genug um vermehrt Ausschuß zu produzieren?
Wie gesagt, es geht nicht darum Serverprozessoren mit 28 und mehr Kernen als monolithisches Die zu beschwören. Es geht um grundsätzlich kleine Consumer-Chips, deren Größe noch mit einem guten Yield handhabbar ist und bei bspw. Intel darf man selbst annehmen, dass die mit ihrem lange eingefahrenen und vielfach optimierten 14nm-Prozess hier ebenfalls sehr gute Yields realisieren können, was voraussichtlich auch ein Eckpunkt ihrer Profitabilität sein wird. Beispielsweise Renoir (Zen2, 8 MiB L3, iGPU) im N7 hat 156 mm2. Intel fertig in 14nm den 9700/9900K mit 174 mm2 und damit nur wenig mehr und der hat ebenfalls eine iGPU on-Die. Bereits ein 9600K mit sechs Kernen, 9 MiB L3 und iGPU ist mit 150 mm2 kleiner als AMDs Renoir trotz 14nm vs. TSMCs 7nm.
Bei Epyc wird AMD weiterhin gesichert auf eine Chiplet-Bauweise setzen, schlicht weil sie einen 64-Kerner anders gar nicht hätten realisieren können und für Zen4 steht gar noch eine Erhöhung der Kernzahl an und bei den größeren Ryzen-Modellen wird man absehbar auch bei einer deratigen Bauweise bleiben, weil die dort Effizienzvorteile bietet (zumal die abgesetzten Stückzahlen bei diesen CPUs deutlich geringer sind, was die Rechtfertigung eines eigenständigen Chipdesigns deutlich erschwert).
 
Zuletzt bearbeitet:
T

tokthora

Guest
"Chiplets" dagegen teilen mehr die Funktionalität auf, d. h. ein Chiplet stellt keinen kompletten Chip dar und kann nicht eigenständig verwendet werden.

**) AMD verwendet die Chiplet-Bauweise vorrangig, weil sie die für Epyc benötigen und für die höherkerneingen Ryzens. Insbesondere für den Consumer-Massenmarkt wären auch hier monolithische Chips vorteilhafter, aber in die Gesamtbilanz passt das derzeit bei AMD noch nicht so ganz rein. Mittelfristig würde ich jedoch annehmen, dass im Mainstream bei AMD die Chiplet-CPUs wieder durch monolithische APUs ersetzt werden.
Du schreibst dir so richtig schön einen Quatsch zusammen, das lässt jedem die Nackenhaare hochstehen, anscheinend ist dir die letzte Änderung in der Clustertopologie entgangen, die nicht nur die IPC steigert sondern auch Gamer und damit Devs in diesem Bereich anspricht. Es ist im Falle der Kommunikation viel "günstiger" ein CCC an einen I/O anzubinden und nein, AMD hat überhaupt kein Problem mit den Kosten, weil MCM deutlich günstiger sind als ein monolithisches Design für alles, dann braucht es auch mehrere davon.

Zen3 sind allesamt aus der Epyc Produktion abgezwackt, dass heißt AMD produziert ein Chiplet für alles, die Änderungen in der Clustertopologie kommen dabei dem Gamersegment entgegen (und das war auch der Grund für ein 8C CCX, um zu verhindern, das die Threads zuviel springen), aber auch HPC und sparen vor allem einen Haufen Platz.

AMDs Patent dreht sich vor allem um HBX, dabei kann intern, also auf dem Träger das CPU und GPU "Chiplet" auf den selben (schnellen) L3 zugreifen (ist also etwas ähnliches wie SAM über PCIe, nur über einen schnelleren Crosslink), wüsste nicht das Intel mit XE sowas unterstützt.

Damit ist AMD auch nicht überhaupt spät dran, sondern absoluter Vorreiter was Chiplet Technologien angeht, während Intel im CPU Segment für HPC (Meshlet) und Gamer (Ringbus) produziert, frag dich mal was günstiger ist und wieviel Intel dafür zuletzt in 10nm versenkt hat. Im Gamerbereich hat sich Mesh absolut nicht durchgesetzt. Solche Probleme hat AMD mit Zen zum Beispiel nicht, weil man sehr flexibel reagieren kann, wie man an Zen3 sehr gut erkennt.
 
Zuletzt bearbeitet von einem Moderator:

PCGH_Torsten

Redaktion
Teammitglied
Einen gemeinsam mit den CPU-Kernen genutzten Cache haben Intel-IGPs spätesten seit Broadwell (dort sogar in MCM-Bauweise, je nach Ausführung), ich glaube aber sogar schon seit Sandy Bridge. Das war damals der fiese Stachel in der Seite von "the future is fusion (once we paid our debts and can start developing again)". ;-)

Nichtsdestotrotz wäre die Erfolgsaussicht bei Fertigung als monolithischer Chip aber deutlich geringer, oder? Denn dann würde der Die mit allem drum und dran doch schon wieder groß genug um vermehrt Ausschuß zu produzieren?

Das hängt von der allgemeinen Fehlerrate ab. Prozessor gegen Prozessor betrachtet ist ein MCM immer langsamer, energiehungriger, viel aufwendiger in der Entwicklung, aufwendiger und fehleranfälliger beim Packaging und zu allem Überfluss auch noch etwas mehr Siliziumfläche bedürftig, als ein Monolith mit den gleichen Recheneinheiten. Das verursacht nicht unerhebliche Kosten, die man auf der MCM-Schiene zwangsweise für jeden einzelnen Prozessor zahlt. Ein Monolith dagegen hat ein höheres Ausschussrisiko und natürlich ist ein Exemplar, dass gar nicht verkauft werden kann, noch eine viel größere Geldverschwendung. Die Frage ist: Wie oft kommt das vor? Wenn ein doppelt so großer Chip auch doppelt so oft ausfällt, senkt das den Yield von 50 Prozent auf 25 Prozent, von 80 Prozent auf 64 Prozent oder von 98 auf 96 Prozent? Bei einem eingespielten Prozess, der in der letztgenannten Größenordnung oder noch deutlich besser liegt, kann die Rechnung selbst mit vierfacher Teilung noch zu Gunsten des Single-Chips ausgehen. Wenn man dagegen als erster einen großen Prozessor in einem noch unerprobten Prozess (nennen wir ihn "T7nm") beauftragt, geht man vielleicht eher vom mittleren Verhältnis als Worst Case aus.

Auch andere Abwägungen hängen von den Rahmenbedingungen ab. Beispielsweise bedient AMD mit nur einem CCD-Designs alle Märkte vom Einsteiger-Desktop bis HPC. Intel müsste aktuell fünf-sechs Chips gegen AMD stellen und ein sechster/siebter als Kontrahent gegen die letzte Epyc-Ausbaustufe fehlt noch. Aber Intel hat auch viel größere Stückzahlen und einem Hersteller, der 20-30 Produktionslinien parallel betreibt kostet es ein Lächeln, 1-2 davon auf einen bestimmten Markt zu konzentrieren, während man mit 4-5 Linien viel eher auf Flexibilität angewiesen ist. Und AMD erreicht die Spannweite nicht nur dank MCM, sondern auch durch Teildeaktivierungen. Bei nicht wenigen Produkten um die Hälfte, bei einigen Epycs sogar werden sogar über 80 Prozent der Funktionen dieser Chips stillgelegt, während Intel im Schnitt über die Produktpalette bei 20-25 Prozent Deaktivierung liegen müsste. Auch hier spielt wieder die Yield-Rate rein: Wenn man ohnehin viele teildefekte Chips hat, stört das nicht. Wenn man aber schon extra ein MCM entwickelt, dann schmerzt es doppelt, wenn man am Ende trotzdem nur einen Teil des Fertigungsaufwandes bezahlt bekommt. Denn in der Bilanz ist es egal, ob X Prozent der Waferfläche als "defekt" im Müll gelandet sind oder "deaktiviert" an irgend einem verkauften Prozessor dranklebten, der für ein nicht nativ bedientes Marktsegment downgelabelt wurde.

tl;dr: Das "perfekte" Konzept gibt es nicht und man muss sehr genau gucken, welches in einem Einzelfall "optimal" ist.

Wie gesagt – Intel hat symmetrische MCMs, also das Erfolgskonzept der ersten Epyc- und der ersten beiden Threadrippergenerationen bereits Ende der 0er Jahre über drei Generationen hinweg in Großserie gehabt und asymmetrische MCMs mit der gleichen Aufgabenteilung und sogar der Ausnutzung unterschiedlicher Fertigungen wie bei Zen2/3 eine weitere Generation später (mit simplererer Aufteilung gab es das sogar schon in den 90ern). Sie hatten die Technologie, sie hat gut funktioniert, reichlich Gewinn gebracht – und nach ein paar Jahren hat man wieder Monolithen gefertigt. Und sie haben gut funktioniert und reichlich Gewinn gebracht, weil dieses Konzept unter veränderten Bedingungen wieder besser gepasst hat. Auch AMD, die IODs, CCDs und GPUs mit IF fertigen, baut APUs als Monolith, anstatt drei andere Chips zusammenzukleben. Was übrigens auch obige Angabe relativiert: Tatsächlich fertig AMD nämlich nicht "ein Chiplet". Sondern ein CCD, ein Mainstream IOD, ein High-End-/Server-IOD und ein APU-Design, braucht also auch vier verschiedene Chips (darunter einer bei dem jeder Fehler einen Totalausfall bedeutet) um eine Marktspanne abzudecken, für die Intel sechs oder sieben Monolithe auflegen müsste.
 
T

tokthora

Guest
Ist aber nicht vergleichbar Torsten, weil nicht 4 WGP Chiplet auf einen L3 Cache über HBX Phys zugreifen. Es geht vor allem um ein GPU Design auf dessen Basis, nicht CPU Design (sogar fixed function Blöcke ließen sich auslagern und auch abschalten wenn es dabei Funktionscluster sind). Das spart zudem Energie.

Zen 3 ist komplett Epyc. Ich nutze das Beispiel nur als Fortschrittsuntermauerung (Flexibilität inklusive), was den machbaren schnellen Crosslink angeht.

Das erinnert eher an Nvidia, und ARM Cores auf GPU Designebene. Das Intel das nicht passt, dürfte klar sein.

Es geht um eine Art Lastlevelcache, der als coheräntes Interconnect immer mehr an Bedeutung gewinnt, wie man unter RDNA2 aber sieht, auch einen Haufen Energie sparen kann und leistungsbestimmend wirkt. Die ausgelagerten Phys zur Anbindung von Ressourcen, kosten einfach immens viel Energie vor allem wenn die wachsen müssen. Da kannst du ein Die/Chiplet (MCM oder monolithisch) noch so fein fertigen. ML profitiert ungemein davon, weil es Latenzen reduziert.
 
Zuletzt bearbeitet von einem Moderator:

PCGH_Torsten

Redaktion
Teammitglied
Nein, es ist nicht "WGP" und es ist auch nicht "HBX". Weil das AMD-Marketingbegriffe sind, die es somit ausschließlich in AMD-Produkten gegeben wird. Aber "Crossfire" war auch nicht SLI und hat trotzdem funktioniert und obwohl es nie ein "Ultrabook" mit AMD-APU geben wird, verkaufen sich dünne, leichte Renoir-Notebooks trotzdem wunderbar (gibt es "Ultrathin" als Kampagne noch?), genauso wie AMD-CPUs ohne "Hyper-Threading". Namen sind Wurscht, das spannende ist die Technik dahinter. Und in dieser Hinsicht ist das Patent verdammt dünn: Chips mit Rechenkernen und Cache, werden über ein spezialisiertes Interface mit Chips mit gleichberechtigten Chips verbunden. Die ebenfalls Rechenkerne und Caches enthalten, welcher direkt zugänglich ist. :schnarch:

Keine Ahnung, wer so etwas als erster gebaut hat, aber unter den x86-Nachzüglern fand man es erstmals bei Dual-Pentium-Pro- beziehungsweise, wenn du auf größere Zahlen bestehst, Quad-Xeon-Slot-2-Systemen. Damals hieß das Interface noch "FSB" und die Recheneinheiten trugen ein "C" statt einem "G" vor dem PU und niemand hatte "Chiplet" in eine Ecke gekritzelt. Aber auf die Idee, dass es "schnell" und "machbar" sein sollte, war man bereits gekommen. Und spätestens mit der Voodoo 5 hat jemand die Idee auch schon mal auf einem gemeinsamen Substrat, ohne zentralen I/O-Chip und für 3D-Rendering umgesetzt. Das sind alles antike Ideen. Genauso Punkt-zu-Punkt Interfaces für die Verbindung gleichberechtigter Chips (x86-Markt seit dem ersten Multi-CPU-Opteron, bei IBM oder Cray afaik schon vorher) oder Si-Interposern für zusammenarbeitende Chip-Cluster (z.B. bei Xilinx schon 2011).

Spannend wäre: Wie baut man denn jetzt so einen Interconnect, der so schnell und so latenzarm ist, wie das heutige Rendering-Engines erfordern und zugleich auch noch energieeffizient und so günstig, dass ein Netto-Vorteil gegenüber einer größeren GPU bleibt? Das versucht man seit mindestens 15 Jahren und bislang ist man jedes mal gescheitert. Aber dazu steht im Patent nichts. Erinnert mich an Star-Trek-Autoren: "Wie funktioniert der Heisenbergkompensator?" "Danke der Nachfrage, er funktioniert gut."


Disclaimer: Letzterer Satz soll AMD nicht unterstellen, hier etwas vorzutäuschen, was sie gar nicht bauen können. Er soll nur unterstreichen, dass sie bislang nirgendwo verraten, wie sie die denn den heiligen Gral gefunden haben. Aber das wäre das einzig spannende, denn danach Suchende gibt und gab es zu genüge.
 

Technologie_Texter

BIOS-Overclocker(in)
Du schreibst dir so richtig schön einen Quatsch zusammen, das lässt jedem die Nackenhaare hochstehen, anscheinend ist dir die letzte Änderung in der Clustertopologie entgangen, die nicht nur die IPC steigert sondern auch Gamer und damit Devs in diesem Bereich anspricht. Es ist im Falle der Kommunikation viel "günstiger" ein CCC an einen I/O anzubinden und nein, AMD hat überhaupt kein Problem mit den Kosten, weil MCM deutlich günstiger sind als ein monolithisches Design für alles, dann braucht es auch mehrere davon.
Naja, manche versuchen AMD halt immer klein zu reden, das sollte man einfach ignorieren;)
 

Futhark

Komplett-PC-Aufrüster(in)
Spannend wäre: Wie baut man denn jetzt so einen Interconnect, der so schnell und so latenzarm ist, wie das heutige Rendering-Engines erfordern und zugleich auch noch energieeffizient und so günstig, dass ein Netto-Vorteil gegenüber einer größeren GPU bleibt? Das versucht man seit mindestens 15 Jahren und bislang ist man jedes mal gescheitert. Aber dazu steht im Patent nichts. Erinnert mich an Star-Trek-Autoren: "Wie funktioniert der Heisenbergkompensator?" "Danke der Nachfrage, er funktioniert gut."
Wenn sie es schaffen, ihre Technik so zu patentieren, dass möglichen Konkurrenten möglichst wenig Information über die neue Technik offenbart wird, während selbige gleichzeitig vollständig vom Patent geschützt ist, haben sie ja alles richtig gemacht. (Klar würde ich auch gerne wissen, wie es im Detail funktioniert!). Ich gehe mal stark davon aus, dass AMD einen guten Patentanwalt hat, der weiß, wie man das formulieren muss, ohne Fehler zu machen ode zu viel zu verraten. Wenn ihre Idee die zukünftigen GPUs schneller macht, freue ich mich aber auf einen entsprechenden Demonstrator.
 
Oben Unten