AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

Diablokiller999 · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

Rollora schrieb:
Gut, dass AMD das nun auch macht, dann bleibt ihnen vielleicht auch mal etwas Geld.
Ach ich hab ganz vergessen... wenn AMD das macht, ist es ja gut, nur bei Intel ist es böse

Das Eine sind Prozessoren für den Einsteigermarkt, die vom Boxed-Kühler trotz TIM in ihrem vorgesehenen Anwendungsgebiet ohne Probleme funktionieren und ich sie mit einem After-Market-Kühler für 10-20€ sogar außerhalb der Spezifikation betreiben kann.
Das Andere sind Prozessoren für fast 1000€ und mehr, die wie Skylake X selbst mit großem Aufwand kaum außerhalb der Spezifikation betrieben werden können (ohne Delid).
Aber man kann sich auch über das laute Fahrgeräusch in seinem Fiat Punto beschweren, dass nicht auf dem gleichen Niveau wie beim Mercedes SLK ist....you get what you pay for, zumindest bei AMD...

scorplord · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

Kaby-Lame schrieb:
Nach dem Ende des klassischen Siliziums werden neue Materialien Einzug halten. Kohlenstoffnanoröhren sind ein heißer Kandidat: TREND Transistoren: Kohlenstoff schlagt erstmals Silizium - electronica Blog
Eine spannende Zeit liegt vor uns

Hau dir das ganz schnell wieder ausm Kopf^^
Das Problem ist nicht die Schaltgeschwindigkeit von Siliziumtransistoren. Die ist so schon hoch genug um 5 GHz locker zu erreichen. Problem sind die sogenannte parasitäre Schaltungselemente. Grob gesagt die gesamte Elektronik drumherum. 2 neben einander verlaufende Leitungen bilden einen Kondensator zB der ungewollt ist. Und durch solche Effekte werden die Möglichkeiten stark eingeschränkt.
Als Beispiel: Eine Spule bildet wenn sie von Strom durchflossen wird ein Magnetfeld. Bei Wechselspannung erhöht sich mit dem Takt der effektive Widerstand der Spule. Sprich wenn du sowas gewollt oder ungewollt in deiner Schaltung hast bist du vom Frequenzspektrum je nach Induktivität der Spule eingeschränkt. Und es gibt noch einige andere Möglichkeiten die sich ähnlich auswirken.

Graphen wird uns bestimmt einiges bescheren aber in der GPU/CPU Entwicklung wird es uns nicht sehr viel helfen. Zumindest nicht bezüglich der Taktfrequenz.

yummycandy · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

scorplord schrieb:
Graphen wird uns bestimmt einiges bescheren aber in der GPU/CPU Entwicklung wird es uns nicht sehr viel helfen. Zumindest nicht bezüglich der Taktfrequenz.

Deshalb benötigt man ja Designs, die mit wenig Taktfrequenz viel Leistung erbringen. Das scheinen hier viele nicht zu verstehen. Taktfrequenz != Leistung.

Poor_Volta · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

Also gerade mit Graphen sollen Taktraten weit über 100Ghz möglich werden.

chiquita · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

Mephisto_xD schrieb:
Naja, eben nicht. Die PS4 APU hat eben nur EINEN Die, auf dem sowohl die GPU als auch die CPU sitzen. Dadurch können beide den gleichen Speichercontroller verwenden, damit auch auf den physikalisch gleichen, und gleich addressierten Speicher zugreifen.

Bei mehreren Dies geht das nicht. Denn auch toller "Next-Gen" Speicher muss von genau EINEM Speichercontroller angesprochen werden. Wenn dieser Speichercontroller nicht auf dem gleichen Die sitzt wie die GPU selbst, muss ein "Hop" über einen anderen Die gemacht werden - und dann sinkt die Performance ins Bodenlose.

Da muss man aber auch wieder bedenken, dass bei HBM und einem MCM auf einem Interposer die Information wesentlich kürzere Distanzen zwischen den Dies zurücklegen muss. Abgesehen davon ist ja das ganze Konzept des MCM wahrscheinlich Modular. Am Ende verwaltet ein Speichercontroller 4 HBM Stacks für 4 "GPU-Module" Und in der Mitte vom Interposer sitzt dann der Speichercontroller der Ringsherum alle HBM und Grafikmodule mit Bandbreite versorgt.

Oder jenes "GPU Modul" verfügt über einen eigenen Speichercontroller, welche in der Lage sind mit anderen HBCCs einen großen Pool zu knüpfen, damit alle Instanzen auf dem Interposer ohne etwas verschieben zu müssen auf den jeweiligen Adressbereich Zugreifen können.

Daran wird auch Infinity Fabric oder HBCC nichts ändern. Nimm mal eine moderne High-End GPU, die hat eine Speicherbandbreite von ~500 GB/s. Nun teilen wir das auf zwei Dies auf. Jeder Die hat nun also einen Speichercontroller mit 250 GB/s Bandbreite zum DRAM, und einem "Infinity Fabric" zum gegenüberliegenden Die. Der momentan verwendete Infinity Fabric hat eine Bandbreite von gerade mal 42 GB/s - also gerade mal ein Fünftel einer Direktverbindung. Als zusätzlicher Performancehit kommt da noch die Latenz des zusätzlichen "Hops" drauf. Beim 1950X beträgt die Die-To-Die Latenz zwischen 180 ns und 250 ns - sprich eine mit 1 GHz getaktete GPU dreht minimal 180 bis 250 zusätzliche Takte Däumchen, bevor die Daten kommen.

Die Infinity Fabric von Vega hat alleine eine Bandbreite von 500 GB/s .
Und wenn man sich 2 Dies vorstellt muss man auch bedenken, dass die IF von beiden Dies ausgeht dh. es kann gleichzeitig 0,5 TB/s an Info von Die zu Die fließen
Das ist ja schon alleine das grob 10 Fache von Epyc, alleine das sollte die Latenz massiv drücken.
Dazu kommt ja noch das Mesh, was auch nochmal die Latenzen senken müsste.
Die hohe Latenz beim TR ist ja überwiegend dem Ringbus zu verschulden.
Dazu noch ein Interposer und HBM.

War beim TR die Latenz nicht so hoch, weil die Dies über den RAM kommunizieren ? 100ns sind alleine die Latenz von herkömmlichem RAM
Das fällt ja alleine durch einen Interposer und dem HBM weg.

Poor_Volta · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

Mit Interposertechnik könnte man auch den Speichercontroller auf eine eigene Die auslagern.
Genauso wird es möglich, Cache auf eine eigene Die auszulagern.

Rollora · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

bastian123f schrieb:
AMD macht das ja nur bei den APUs. Bei diesem Preis ist es auch für mich OK. Da erwarte ich kein Lot.
Und die Ryzen 2xxx ohne GPU sind wieder verlötet.

Bei Intel ist es nur deshalb "Böse", da die Prozessoren trotz des höheren Preises nicht verlötet sind. Da bekomme ich von AMD für weniger Geld ne verlötete CPU.

Natürlich hat Intel hier noch mehr Richtung Marge optimiert. Das ist frustrierend, vorallem für Käufer einer 300+ oder gar 1000€ CPU oder einer K CPU. Ich finde aber trotzdem lustig wie noch vor kurzem gesagt wurde Heilsbringer AMD mache das niemals... und nun? AMD machts sehr wohl auch. VORERST nur bei den günstigsten Chips.

Aber was due Leute hier nicht verstehen: AMD verlötet weiterhin, nicht weil sie die guten sind, sondern rein für positive PR. In dem Moment wo sie einen stabilen Stand haben werden auch sie die zusätzlichen Kosten einsparen

yummycandy · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

Rollora schrieb:
Aber was due Leute hier nicht verstehen: AMD verlötet weiterhin, nicht weil sie die guten sind, sondern rein für positive PR. In dem Moment wo sie einen stabilen Stand haben werden auch sie die zusätzlichen Kosten einsparen

Ich tippe mal eher auf ein Alleinstellungsmerkmal, welches die OEMs überzeugen soll und günstigere Kühllösungen benötigt. Man will ja wieder in diesen Markt vordringen.

Rollora · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

yummycandy schrieb:
Ich tippe mal eher auf ein Alleinstellungsmerkmal, welches die OEMs überzeugen soll und günstigere Kühllösungen benötigt. Man will ja wieder in diesen Markt vordringen.

Und Mundpropaganda, welche nicht zu unterschätzen ist wenn man kein Marketing betreibt. Ja, das meinte ich mit positiver PR

Threshold · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

Rollora schrieb:
Zumindest langfristig wird er knapp werden
Sand: Begehrt, aber knapp - science.ORF.at
Dem Wustenstaat geht der Sand aus - news.ORF.at

Ja, Sand zum Bauen von Gebäuden, denn der Wüstensand ist zu fein dafür.
Aber ich will ja keinen Wolkenkratzer im Rechner haben.

Rollora · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

Threshold schrieb:
Ja, Sand zum Bauen von Gebäuden, denn der Wüstensand ist zu fein dafür.
Aber ich will ja keinen Wolkenkratzer im Rechner haben.

Aber 3D Chips

Ist natürlich kein Verhältnis, ich meine damit eher, dass Silizium sowieso teurer wird.

yummycandy · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

Kennt jemand den Unterschied von Siliziumantei in Wüstensand vs. Kies?

Threshold schrieb:
Ja, Sand zum Bauen von Gebäuden, denn der Wüstensand ist zu fein dafür.

Mit einem neuen Verfahren wird aus Wustensand ein Baumaterial |
heise online

Threshold · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

Rollora schrieb:
Aber 3D Chips

Ist natürlich kein Verhältnis, ich meine damit eher, dass Silizium sowieso teurer wird.

Wird denn irgendwas preiswerter?

yummycandy schrieb:
Kennt jemand den Unterschied von Siliziumantei in Wüstensand vs. Kies?

Sand ist doch nur verrostetes Silizium.

yummycandy · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

Threshold schrieb:
Sand ist doch nur verrostetes Silizium.

Ich hab mal meine Freundin Wiki gefragt:

Der weit überwiegende Anteil der heute auf der Erde vorkommenden Sande sind jedoch Quarzsande, das heißt Sande, in denen der Anteil von Körnern aus Quarz (SiO2) gegenüber denen aus anderen Mineralen dominiert. Grund dafür ist der relativ hohe Anteil von Quarz in den Gesteinen der Erdkruste sowie seine relativ große Härte (7 auf der 10-stufigen Mohs’schen Härteskala) und seine hohe Resistenz gegen chemische Verwitterung. Je nach lokaler Geologie und sonstigen Gegebenheiten können jedoch auch Sande ganz anderer mineralischer Zusammensetzung auftreten.

Sand – Wikipedia

Allerdings ist der Aufwand das zu veredeln ziemlich hoch.

KnSN · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

yummycandy schrieb:
Kennt jemand den Unterschied von Siliziumantei in Wüstensand vs. Kies?

Der Kies ist kristalliner, der Wüstensand reagiert wegen seiner Abrasion (abrasive Wirkung durch Erosion und Verwitterung) empfindlicher auf Temperaurschwankungen und taugt daher suboptimal zur Verwendung von komplexen, elektronischen Schaltungen (anodische Oxidation).

Mephisto_xD · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

chiquita schrieb:
Die Infinity Fabric von Vega hat alleine eine Bandbreite von 500 GB/s .
Und wenn man sich 2 Dies vorstellt muss man auch bedenken, dass die IF von beiden Dies ausgeht dh. es kann gleichzeitig 0,5 TB/s an Info von Die zu Die fließen
Das ist ja schon alleine das grob 10 Fache von Epyc, alleine das sollte die Latenz massiv drücken.
Dazu kommt ja noch das Mesh, was auch nochmal die Latenzen senken müsste.
Die hohe Latenz beim TR ist ja überwiegend dem Ringbus zu verschulden.
Dazu noch ein Interposer und HBM.

TR hat keinen Ringbus im klassischen Sinn. Und Latenz hat nicht wirklich was Bandbreite zu tun, denn besagte Bandbreite wird nicht durch eine verzehnfachung des Taktes, sondern eine Verzehnfachung der Datenleitungen erreicht. Wenn ich mit einem Lastwagen voller Festplatten von Frankfurt nach Berlin fahre, habe ich eine unglaublich hohe Bandbreite (in der Größenordnung TB/s), aber die Latenz beträgt immer noch mehrere Stunden...

chiquita schrieb:
War beim TR die Latenz nicht so hoch, weil die Dies über den RAM kommunizieren ? 100ns sind alleine die Latenz von herkömmlichem RAM
Das fällt ja alleine durch einen Interposer und dem HBM weg.

HBM ist kein Wundermittel, sondern auch nur herkömmlicher DRAM. Die Latenz ist durch die niedrigere Taktung des Speicherinterfaces eher höher als der von gewöhnlichem GDDR Speicher. Und TR kann auch gar nicht über den RAM Die-To-Die kommunizieren, denn jeder Die hat sein eigenes Speicherinterface und eigene DRAM-Bänke.

Wie gesagt: Speicher ist kein Sandkasten, wo einfach mehrere Parteien reinwerfen und rausnehmen können. Ein Speicherchip hängt genau an einem Controller. Wenn der (wie üblich) in einem Die von einer CPU oder GPU sitzt, müssen alle anderen bei jenem Die anklopfen um an die Daten zu kommen.

PCGH_Torsten · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

Cross-Flow schrieb:
Skulltrail war nichts anderes als ein 2P LGA771 Mainboard ( zusammen mit Workstations Chipsatz ) zu nehmen und da drauf 2 LGA 771 Xeons zu setzen welche halt einen Desktop tauglichen Namen bekommen haben. Skulltrail hat ansich nichts mit MCM zu tun.

Die ganze Situation mit dem Core 2 Duo / Core 2 Quad zu vergleichen ist aber auch nicht richtig. Das "Problem" dieser war die Kommunikation untereinander sowie der nicht vorhandene IMC ( MC war ja noch in der Northbridge bei LGA775 / 771 LGA whatever ).

AMDs HT ( welches wir ja heute noch in veränderter Form haben ) hatte diese Probleme in diesem Ausmaß nicht da genug Bandbreite zur Verfügung stand. Auf AM3+ hätte selbst ein PCI-E 3.X Controller im Chipsatz für MultiGPU ( 2 x x16 ) mit HT version 3.X mehr als genug Bandbreite gehabt.

Ryzen hat mal gar nicht mit diesem "alten" MCM Ansatz zu tun - einfach aus dem Grund das Bandbreite in hülle und fülle vorhanden ist. Aktuelle MCM Modelle leiten unter der schlechten Latenz ( Skylake 45ns vs. Ryzen 70+ ns siehe AIDA Chache Benchmark ).

Die Latenz hat aber per se nichts mit MCM zu tun.

Vorsicht: Hyper Transport wurde zwar immer wieder für hohe Datenraten spezifiziert, von AMD so aber nie eingesetzt. Sockel-AM3-CPUs und -PCIe-Bridges blieben nicht nur im Takt hinter den Spezifikationen zurück, auch die Linkbreite war gegenüber dem technisch möglichen halbiert. Die Verbindung zwischen einem Bulldozer-Prozessor und einem 990FX überschreitet kaum das Niveau von 1× PCI-E 2.0 ×16. Aber selbst mit einem neuen Sockel, neuen Controllern und neuem Chipsatz für volle Bandbreite und vollem HT-3.1-Takt hätte man die Transferrate zwar auf 25,6 GB/s mehr als verdoppeln, aber nicht bis auf das Niveau von 2× PCI-E 3.0 ×16 (knapp 32 GB/s je Richtung) anheben können.
Ungeachtet dessen hat AMD Hyper Transport nie im Desktop-Bereich für Die-Die-Interconnects verwendet, sieht man von Quadfather ab. Obwohl man im Dual-Core-Duell die bessere Technik griffbereit hatte, erhielten die Athlon 64 X2 und folgende Phenom-Modelle eine aufwendigere, schnellere Crossbar für die Kern-Kern-Kommunikation. MCMs nach Vorbild von Intels Pentium D nutzte AMD erst später für die Sockel-G34-Opterons.

HudsonTheReal schrieb:
Muss ich Dir jetzt ganz hart widersprechen!

Erstens: Jedes Unternehmen ist dem Markt und der Realität unterworfen kosteneffektiv und effizient zu fertigen. Wenn der Konkurrent 17% effektiver fertigt, dann kann man sagen ist seine Rendite auch 17% höher. Das würden die Aktionäre und Geldgeber nicht lange auf sich sitzen lassen. Klar, Intel hat noch die Macht und ist etabliert aber sagen wir auf lange Sicht von Jahren würde das Intel umbringen!

Zweitens: Die Anzahl der gefertigten CPUs sagt oder kann nur was über die Marktmacht und evtl. den Umsatz was aussagen. Und schon gar nicht über den Gewinn. Grad hier können diese 17% teuflisch wirken!

Drittens: Die Vielzahl der Fertigungsstraßen ist eben das große Risiko jetzt von Intel. Je schneller AMD sich in den Märkten etabliert, desto massiver wird Intel unter Druck geraten. Auch deren Fertigungsstraßen müssen ausgelastet werden. Andernfalls rutscht Intel ins Minus hinein.

Viertens: Der Entwicklungsaufwand und somit die Kosten und Ausgaben und auch Rendite sind massiv davon betroffen wenn man nur ein Die entwickelt und damit daraus sich massivst viele Prozessorvarianten herausgeleitet werden. Noch schlimmer - und das kann gar nicht in Geld so richtig direkt bewertet werden - ist der massive Entwicklungsaufwand hinsichtlich benötigter Mannschaft (weniger Kapazitäten für andere Produkte) und weiter das eventuelle Risiko daraus Termine nicht halten zu können und somit daraus abgeleitet Risiken entstehen wie Verlust von Geld, Zeit, Entwicklungszeit und Konkurrenzfähigkeit am Markt.

Ich bleibe bei meiner Behauptung: Intel bastelt bereits jetzt schon an einem Design, dass sehr ähnlich dem zu AMDs sein wird. Auch Intel wird dazu übergehen die Dies zusammen zu kleben.

Mehr gibts dazu nicht zu sagen.

Also ich würde mir über weitere Ausführungen zu Punkt 4 freuen. Meinen Kenntnissen zu Folge ist es sowohl für Intel als auch AMD mit sehr geringem Entwicklungsaufwand möglich, die Zahl der Kerne (Intel) respektive CCX (AMD) je Die zu variieren und von massiven Kosten kann weder finanziell noch personell die Rede sein. Aber ich lasse mich da gerne auf den aktuellsten Stand bringen, falls mein Wissen veraltet sein sollte.

An der Tatsache, dass die Kosten für die parallele Produktion mehrerer verschiedener Dies nur unwesentlich über den Kosten für die parallele Produktion identischer Dies liegen, ändert der vorangehende Entwicklungsaufwand aber nichts. Das von dir in 1. postulierte "wenn" ist wegen 2. schlicht nicht gegeben. 3. könnte daran etwas ändern, aber zumindest in den letzten Quartalen sank Intels Marktanteil langsamer, als der Markt insgesamt wuchs, so dass sich die Auslastung von Intels Fabs sogar verbessert haben dürfte.

chiquita schrieb:
Da muss man aber auch wieder bedenken, dass bei HBM und einem MCM auf einem Interposer die Information wesentlich kürzere Distanzen zwischen den Dies zurücklegen muss. Abgesehen davon ist ja das ganze Konzept des MCM wahrscheinlich Modular. Am Ende verwaltet ein Speichercontroller 4 HBM Stacks für 4 "GPU-Module" Und in der Mitte vom Interposer sitzt dann der Speichercontroller der Ringsherum alle HBM und Grafikmodule mit Bandbreite versorgt.

Oder jenes "GPU Modul" verfügt über einen eigenen Speichercontroller, welche in der Lage sind mit anderen HBCCs einen großen Pool zu knüpfen, damit alle Instanzen auf dem Interposer ohne etwas verschieben zu müssen auf den jeweiligen Adressbereich Zugreifen können.

Die Infinity Fabric von Vega hat alleine eine Bandbreite von 500 GB/s .
Und wenn man sich 2 Dies vorstellt muss man auch bedenken, dass die IF von beiden Dies ausgeht dh. es kann gleichzeitig 0,5 TB/s an Info von Die zu Die fließen
Das ist ja schon alleine das grob 10 Fache von Epyc, alleine das sollte die Latenz massiv drücken.
Dazu kommt ja noch das Mesh, was auch nochmal die Latenzen senken müsste.
Die hohe Latenz beim TR ist ja überwiegend dem Ringbus zu verschulden.
Dazu noch ein Interposer und HBM.

War beim TR die Latenz nicht so hoch, weil die Dies über den RAM kommunizieren ? 100ns sind alleine die Latenz von herkömmlichem RAM
Das fällt ja alleine durch einen Interposer und dem HBM weg.

Bitte nicht die verschiedenen Varianten von IF vermischen. Als Verbindung auf dem Die von Vega werden 500 GB/s erzielt, aber dort herrschen auch optimale elektrische Bedingungen, kürzeste Wege und dank der feinen Fertigung sind extrem viele parallele Datenleitungen kein Problem. Für die Verbindungen auf dem Package von Epyc werden dagegen nur noch 42,6 GB/s erreicht – bidirektional, immerhin aber in drei Richtungen. Um einem Grafikkern den Zugriff auf off-Die-Speichercontroller mit der gleichen Geschwindigkeit zu erlauben, wie sie innerhalb des monolithischen Vega-Dies möglich ist, müsste man also ein achtmal mächtigeres IF-Interface verbauen als bei Epyc. Und das ist nur die Kommunikation mit dem VRAM – innerhalb von Vega tauschen die CEs zusätzlich Informationen in noch höherer Geschwindigkeit über den L2-Cache aus.

yummycandy · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

PCGH_Torsten schrieb:
Bitte nicht die verschiedenen Varianten von IF vermischen. Als Verbindung auf dem Die von Vega werden 500 GB/s erzielt, aber dort herrschen auch optimale elektrische Bedingungen, kürzeste Wege und dank der feinen Fertigung sind extrem viele parallele Datenleitungen kein Problem. Für die Verbindungen auf dem Package von Epyc werden dagegen nur noch 42,6 GB/s erreicht – bidirektional, immerhin aber in drei Richtungen. Um einem Grafikkern den Zugriff auf off-Die-Speichercontroller mit der gleichen Geschwindigkeit zu erlauben, wie sie innerhalb des monolithischen Vega-Dies möglich ist, müsste man also ein achtmal mächtigeres IF-Interface verbauen als bei Epyc. Und das ist nur die Kommunikation mit dem VRAM – innerhalb von Vega tauschen die CEs zusätzlich Informationen in noch höherer Geschwindigkeit über den L2-Cache aus.

Es gibt in der Tat mehrere große Probleme, bevor ein MCM für GPUs erfolgreich sein kann.
- kurze Signalwege für geringe Latenzen
- ausreichende Linkanzahl für hohe Bandbreite
- Reduzierung der Chiplet zu Chiplet Kommunikation um die Links zu entlasten
- nen intelligenten Scheduler, der die Einheiten gleichmäßig auslastet
- eine gute Cachetopologie
- das ganze möglichs als NUMA-Konzept
- einen hochmodernen Treiber, der das ganze nach außen, trotz NUMA-Design, als eine GPU erscheinen läßt
- eine gute Lösung, wie man Chiplets aus CUs mit nem Hauptblock mit Videoen- und decoder, 2d Engine, usw. verbindet

nVidia hat auch für den Treiber noch keine Lösung gefunden, weshalb sie noch kein Konzept veröffentlicht haben. Sie schreiben, daß es in der Tat komplettes Neuland ist und man nicht auf ältere Techniken wie AFR oder SFR zurückgreifen kann. Allerdings finde ich den Ansatz von Fujitsu bei ihren SPARC CPUs sehr spannend.

http://www.fujitsu.com/global/Images/next-generaton-primehpc_tcm100-1050349.pdf
http://research.nvidia.com/sites/default/files/publications/ISCA_2017_MCMGPU.pdf

Edit

Dank NVLink bzw. IF stehen schonmal zwei gute Protokolle zur Verfügung. AMD könnte GMI-Links benutzen, wie auch schon bei der server grade APU geplant. HBM wird ein Baustein sein, sowie IF als Mesh. Beide Hersteller haben auch die Möglichkeit, komplette Pipelines zu lösen, bzw. andere hinzuzufügen.

Beispiel am Ryzen/VEGA SoC

Edit2:

Ist zwar ne alte Grafik, aber die passt ganz gut. So könnte das ganze aussehen. Die Verwendung von Chiplets entfernt die off Chip Kommunikation und ermöglicht so schnellere Links und kürzere Wege. Chiplets sind vielmehr wiederverwendbare Dies, aber keine ganzen Chips.

IFTLE 334 On High Performance Computing, Chiplets and Interposers | Insights From Leading Edge

Valdiralita · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

Ich denke das es auf jeden Fall möglich ist mehrere GPU DIES auf einem Interposer zu vereinen und als ganz normale Single Chip GPU zu behandeln, solange diese auf einen gemeinsamen VRAM und Befehlsbus zugreifen können.
Wenn eine Grafikkarte einen Frame berechnet dann geschiet dies hochparallel, wobei einzelne ShaderUnits nicht die Eingangsdaten der jeweiligen Berechnung anpassen können sondern nur die Ausgangsdaten, somit beeinflussen sich die Shadercluster nicht gegenseitig.
Für einen Frame sind mehrere dieser Schritte notwenidg, aber solang der Output über VRAM neu in die Cashes der jeweiligen Shader gesynct wird und nur 1 VRAM (nicht wie bei mGPU) verwendet wird sehe ich kein Problem mit mehrern DIEs auf auf einem Interposer.
Vermutlich ist es jedoch (noch) einfacher die Anzahl der Shadercluster erhöhen (größerer DIE) um mehr Rechenleistung bereit zu stellen, weils es nur copy&paste ist. :schief:

mfg

KnSN · 23. Februar 2018

AW: AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

Valdiralita schrieb:
solange diese auf einen gemeinsamen VRAM und Befehlsbus zugreifen können.

Je ein eigenständiger Integer, der sich den Puffer[überlauf] teilt. Wenn das nicht die Geburt von einer neuartigen Struktur des Victim-BUS/RAM ist ...

AMD Ryzen Threadripper & Epyc: Multi-Die-Strategie spart viel Geld

Freizeitschrauber(in)

Software-Overclocker(in)

Software-Overclocker(in)

Gesperrt

Freizeitschrauber(in)

Gesperrt

Kokü-Junkie (m/w)

Software-Overclocker(in)

Kokü-Junkie (m/w)

Großmeister(in) des Flüssigheliums

Kokü-Junkie (m/w)

Software-Overclocker(in)

Großmeister(in) des Flüssigheliums

Software-Overclocker(in)

Gesperrt

BIOS-Overclocker(in)

Community Manager

Software-Overclocker(in)

Komplett-PC-Aufrüster(in)

Gesperrt

Ähnliche Themen