AMD Navi: Der Vega-Nachfolger bleibt monolithisch im Desktop

Die IF wurde doch für den CPU-Einsatz designt, also für kleine Datenmengen.
Für eine Multi-GPU-Lösung müsste sie ganz neu aufgebaut werden, was unterm Strich dann eher was Neues wird.

Das was Nvidia schlicht als XBARs bezeichnet ist ja auch nur ein Gedankenspiel, und wie es im Text steht noch weit von einer echten Lösung entfernt.
Da sie aber seit über 10 Jahren daran forschen, gibt es intern bestimmt schon Ideen dass umsetzen zu können.

Und wie du schon richtig erkannt hast, ist Intels EMIB ein Schritt in die richtige Richtung, um einfach viele GPUs miteinander verbinden zu können.
Aber auch Intels EMIB müsste dafür angepasst und überarbeitet werden.

Nvidia und AMD haben aber im wichtigsten Punkt Konsens, dass eine Multi-GPU-Lösung aktuell eher für den HPC-Bereich Sinn ergibt.
Und das interessiert die wenigsten User hier im Forum wirklich.
Die wollen eher eine Multi-GPU für Gaming, was aber beim aktuellen Stand der Technik eher unwahrscheinlich ist.
Das IF wurde von AMD als Fabric-Architektur für alle Produkte entwickelt.
IF findet sich auch bei Vega10 und unterstützt die volle Bandbreite zum Memory-Controller mit ~500GB/s.
Laut den geleakten Plänen will AMD das bei den GPUs auch in einer Form nach außen führen, bei Greenland waren 4 IF-Links mit insgesamt 100GB/s geplant.
Vega20 erscheint Ende 2018, dann sollte man mehr erfahren, wie es dann konkret aussieht.

Infinity Fabric ist auch nur der übergreifende Marketing-Name dafür, genauer teilt das AMD noch in IF Scalable Data Fabric und IF Control Data Fabric ein.


Fun Frage, was müsste Intel bei EMIB anpassen und überarbeiten, um geeigneter für eine MCM-Umsetzung zu sein?
 
Ich kenne mich damit nicht aus. Ist der IF ein Point-to-Point Konzept mit n Kanälen? Bezieht sich "Scalable" auf das n? Warum bietet Intels Mesh eine bessere Latenz? Liegt das am IF Controler?
 
Man müsste für eine GPU-Lösung größere Datenmengen schneller verarbeiten können als es die aktuelle IF bei den CPUs macht.
Auch Intels EMIB ist dafür aktuell nicht ideal geeignet, und nur ein Schritt in die richtige Richtung.

Unterm Strich ist das aber auch nicht so wichtig, da so wohl AMD, Intel, und auch Nvidia passende Lösungen entwickeln können.

Die Frage ist ja eher ob ein Einsatz einer Multi-GPU-Lösung für Gaming aktuell möglich ist und Sinn macht?
Und diese Frage haben AMD und Nvidia mit nein beantwortet.
Wenn überhaupt ist das im HPC-Bereich sinnvoll.

Aber auch da würde mich das beeindrucken wenn AMD weiter ist als Nvidia.
 
Zuletzt bearbeitet:
EMIB ist eine Packagetechnik, die sich für diverse breite Anbindungen nutzen ließe, aber keine fest definierte Schnittstelle. Man könnte darüber zum Beispiel IF-Verbindungen laufen lassen und falls das Konzept seitens AMD flexibel genug ist, entsprechend hochskalieren. Die Dimensionen sprechen aber dagegen: Für Greenland waren 4×25 GB/s geplant. Ein Zeppelin-Die bietet über vergleichbare Entfernung 3×42 GB/s. Allein um neben dem Koordinationsaufwand die Speicherzugriffe einer Oberklasse-GPU ohne große Flaschenhälse über 2×2 Dies zu verteilen, sollte jeder davon 3×420 GB/s bieten. Wenn man die 1:10 Spreizung von Nvidias Portfolio zugrunde legt, müsste der Universal-Die bereits 9x420 GB/s schaffen. Das ist 30 mal soviel, wie für Epyc benötigt wird. Und ich rede nur von Speicherzugriffen gemäß dem technischen Stand von 2016. 2019/20 hätte man gerne mehr – und VRAM ist eigentlich auch die falsche Bezugsgröße.

Zum Beispiel Nvidia hat bei Pascal und Maxwell sehr viel Leistung hinzugewonnen, in dem man sich auf die zunehmend größeren Caches konzentriert hat. Um Dies einer Multi-Chip-Grafikkarte auf diesem, aktuell zwischen Shaderprozessoren genutzten Niveau kommunizieren zu lassen, müsste man sicherlich noch einmal eine Größenordnung höhere Datenraten als in obigen IF-Beispiel erreichen. Da ist man dann ganz schnell beim 6.000-fachen aktueller CPU-Implementationen und es wird nachvollziehbar, warum kein Hersteller derartige Techniken in greifbarer Nähe sieht.
Und von Latenzen war noch nicht einmal die Rede.
 
Zuletzt bearbeitet:
Ja, deshalb müsste sich zusätzlich bei der Architektur viel ändern bei Navi.
Du hast eigentlich noch einmal wiederholt was ich schon geschrieben hatte.

Und so groß dürfte die iGPU in der PS 5 auch nicht werden, da Sony die nicht zu teuer verkaufen will.

@Torsten: Genau, da sind ganz andere Größenordnungen nötig.
 
Was ist daran so abwegig dass wenn ein Hersteller eine schnellere APU herstellen kann ich von einem technischen Fortschritt ausgehe?
Weil die APU eben NICHT schneller ist, sondern nur ein Teil: die GPU. Und weil dieser Teil nur für eine Randgruppe interessant ist (Leute die sich eine APU zum Spielen kaufen).
Also ist eben nicht die APU schneller, sondern nur eine Funktion davon.
Die anderen Funktionen sind nicht schneller. Seit Ryzen einzug hält ist man bei den CPUs aber fast gleichauf, und bei der Effizienz auch.
Intel ist halt dann schneller/besser wenns etwa um QuickSync oder AVX usw usf. geht. Oder die Effizienz der GPU.
Es ist AMDs Ansatz also nicht pauschal schneller, sondern nur ein Teil der gesamten APU. Deshalb war ich von deiner Aussage irritiert, dass man bei AMD die "besseren APUs" habe.
Das trifft vollumfänglich halt nicht zu, und sollte halt differenziert werden. Besseren APUs fürs GAming -> ganz klar.
Für Mobilgeräte ? Kommt auf den Anwendungsfall an.

Ich transcode oft geschnittene Videos via QuickSync. Da bist du mit Intel um den Faktor 5 schneller wie mit jeder AMD CPU/APU und bin damit sogar ganz klar schneller wie bei mir aufm "großen" i7 ohne iGPU.


Ganz konkret beziehe ich mich aber darauf, dass AMD der einzige Hersteller ist der beide Sparten unter einem Dach vereint, also sowohl High End Grafik wie auch CPU´s.
AMD ist der einzige Hersteller der sowohl dedizierte GPUs wie auch x86 CPUs Herstellt, ja.
Wäre ich jetzt Spitzfindig würde ich mal das "High-End" anzweifeln, aber ich weiß was du meinst.
AMD hat natürlich einen riesigen Erfahrungsvorsprung was GPUs betrifft, das wird bei Intel dauern, dies aufzuholen.

Aber sowohl Intel, als auch Nvidia bieten seit Jahren APUs an. Bei Intel sogar kurzfristig länger als AMD dies tut (Anfang vs Ende 2011).

Ich will dir also nicht unrecht geben, aber mir fiel halt auf, dass du "bessere APU" nur an der Grafikperformance festhältst, wenn da viele andere Faktoren auch wichtig sind. Was ist "besser"? Man könnte es, rein auf den Chip betrachtet auf
-CPU Performance (fast Gleichstand)
-GPU Performance (AMD führt seit kurzem in einigen Modellen)
-Features
-Chipgröße (Wirtschaftlichkeit. AMD bietet hier 210mm², ich weiß nicht was Intel hier hat, da sie keine Daten dazu mehr veröffentlichen)
-Verbrauch
...


Die Frage ist halt der Einsatzzweck: meine nächste APU werde ich wohl in einem ultramobilen Laptop haben, da ich derzeit keinen Bedarf habe am HTPC (den ich aber wohl auch aus CPU und GPU basteln würde, aufgrund der Erweiterbarkeit). Hier zählt für mich hauptsächlich die Effizienz, Grafikleistung ist mir wurst, selbst die langsamste Intel hat mir da genug Power. Was effizienz betrifft, da schlägt sich ja die neue APU von AMD super, soweit ich mich erinnere, kommt also auf jeden Fall in Betracht. Ich finde nur gerade keinen sinnvollen Vergleich zu Intel, warum auch immer...

Power Consumption & Noise - AMD Raven Ridge Thermal/Power Analysis: Ryzen CPUs With Vega
 
Zuletzt bearbeitet:
Ich kenne mich damit nicht aus. Ist der IF ein Point-to-Point Konzept mit n Kanälen? Bezieht sich "Scalable" auf das n? Warum bietet Intels Mesh eine bessere Latenz? Liegt das am IF Controler?
Beim IF kann im Prinzip jede Topologie verwendet werden.
Das Mesh von Intel führt durch jeden Kern durch, während bei Zen1 AMD jede Kommunikation außerhalb vom 4-Kern CCX über das IF SDF geregelt wird.
Intels Lösung ist an der Stelle eben mit anderen Kompromissen verbunden, ein ganzes Mesh durchzuführen ist aufwendiger und gegenüber Intels alten "Ring-Bus" hat sich die Latenz bei wenigen Kernen auch verschlechtert.
AMD Ryzen and the Windows 10 Scheduler - No Silver Bullet | PC Perspective
The Intel Core i9-7900X 10-core Skylake-X Processor Review | Thread to Thread Latency and The X299 Platform

EMIB ist eine Packagetechnik, die sich für diverse breite Anbindungen nutzen ließe, aber keine fest definierte Schnittstelle. Man könnte darüber zum Beispiel IF-Verbindungen laufen lassen und falls das Konzept seitens AMD flexibel genug ist, entsprechend hochskalieren. Die Dimensionen sprechen aber dagegen: Für Greenland waren 4×25 GB/s geplant. Ein Zeppelin-Die bietet über vergleichbare Entfernung 3×42 GB/s. Allein um neben dem Koordinationsaufwand die Speicherzugriffe einer Oberklasse-GPU ohne große Flaschenhälse über 2×2 Dies zu verteilen, sollte jeder davon 3×420 GB/s bieten. Wenn man die 1:10 Spreizung von Nvidias Portfolio zugrunde legt, müsste der Universal-Die bereits 9x420 GB/s schaffen. Das ist 30 mal soviel, wie für Epyc benötigt wird. Und ich rede nur von Speicherzugriffen gemäß dem technischen Stand von 2016. 2019/20 hätte man gerne mehr – und VRAM ist eigentlich auch die falsche Bezugsgröße.

Zum Beispiel Nvidia hat bei Pascal und Maxwell sehr viel Leistung hinzugewonnen, in dem man sich auf die zunehmend größeren Caches konzentriert hat. Um Dies einer Multi-Chip-Grafikkarte auf diesem, aktuell zwischen Shaderprozessoren genutzten Niveau kommunizieren zu lassen, müsste man sicherlich noch einmal eine Größenordnung höhere Datenraten als in obigen IF-Beispiel erreichen. Da ist man dann ganz schnell beim 6.000-fachen aktueller CPU-Implementationen und es wird nachvollziehbar, warum kein Hersteller derartige Techniken in greifbarer Nähe sieht.
Und von Latenzen war noch nicht einmal die Rede.
Greenland hat aber 4x25GB/s durch das organische Substrat zur CPU vorgesehen, wie viel Platz und Energie könnte AMD für schnellere und/oder mehr Links investieren und auf welche Bandbreiten würde man kommen, wenn man beim MCM-Ansatz auf Silizium als Medium wechselt?
Ebenso könnte man sich selber darauf beschränken nur zwei Chips miteinander zu verbinden und nicht 4.

Nvidia hat in ihrem MCM Paper dargelegt, dass mit erweiterten Cache- und intelligente Steuerungsmechanismen die benötigte Bandbreite effektiv reduziert werden kann und praktisch gesehen definitiv nötig sind:
http://research.nvidia.com/sites/default/files/publications/ISCA_2017_MCMGPU.pdf

Im Paper führt Nvidia auch beispielhaft 3TB/s (4x 768 GB/s) an, um praktisch keinen nennenswerten NUMA Effekt herbeizuführen und volle VRAM-Kommunikation zu gewährleisten.
1,5 TB/s (4x384 GB/s) sollen bei speicherlastigen Simulationen zu 12% Leistungsverlust führen, dass ist jetzt nicht dramatisch bei 50% weniger Bandbreite.
 
Wang hat das schon verworfen für einen möglichen Multi-GPU-Gamingeinsatz, und auch Nvidia davor.
Einzig für den HPC-Bereich ist das für die beiden Anbieter eine mögliche Option.
Dann aber auch nur wenn Aufwand und Nutzen im Verhältnis stehen.

p.s. Ich sehe gerade das es sich bei dem Link um das PDF handelt, was Leo schon 2017 in seiner News ausgewertet hat.
nVidia forscht an MCM-basierten Grafikchips | 3DCenter.org
Welche neuen Infos liefert das PDF?
 
Zuletzt bearbeitet:
Wang hat das schon verworfen für einen möglichen Multi-GPU-Gamingeinsatz, und auch Nvidia davor.
Einzig für den HPC-Bereich ist das für die beiden Anbieter eine mögliche Option.
Dann aber auch nur wenn Aufwand und Nutzen im Verhältnis stehen.

p.s. Ich sehe gerade das es sich bei dem Link um das PDF handelt, was Leo schon 2017 in seiner News ausgewertet hat.
nVidia forscht an MCM-basierten Grafikchips | 3DCenter.org
Welche neuen Infos liefert das PDF?
Niemand hat direkt etwas verworfen, vor allem nicht für immer.
Auch Nvidia nicht, im Gegenteil, dass Konzept ist ziemlich nah an dem dran was man für Gaming haben möchte:
Seite 11 schrieb:
Finally, we propose to expose the MCM-GPU as a single logical GPU via hardware innovations and extensions to the driver software to provide programmer- and OS-transparent execution.
While there have been studies that propose techniques to efficiently utilize multi-GPU systems , none of the proposals provide a fully transparent approach suitable for MCM-GPUs
http://research.nvidia.com/sites/default/files/publications/ISCA_2017_MCMGPU.pdf

Nvidia baut mit der Titan V eine GPU mit 815mm² und verkauft das Ding noch an "normale" Leute für ein paar Tausend.
Auch 400-600mm² große Chips in einer neuen Fertigungsnode könnten vielleicht in der Zukunft kostengünstiger, als ein Verbund aus 2x200/300mm² großen Chips umgesetzt werden.
Es gibt keinen zwanghaften Grund wieso man bei GPUs das Ganze nur für Lösungen ausnutzen könnte, um über die mögliche Grenze eines Einzelchips zu kommen.
AMD nutzt das Konzept bei ihren aktuellen CPUs von unten bis ganz nach oben.
Unten gibt es ein 213mm² Chip der verkauft wird und oben 4x213mm², was insgesamt 852mm² Fläche sind, was AMD auch niemals als Einzelchip hätte bauen können und in der Mitte 2x213mm² = 426mm².

Im Detail hat man bisher keine Informationen darüber, wo die Unternehmen sich zeitlich bei der Forschung und Entwicklung befinden, was aktuell das Hauptproblem darstellt und wann man entsprechende Lösungen erwarten könnte.
Und ja, man könnte das Konzept nur für HPC-Clients umsetzen, dass heißt aber nicht zwangsläufig das es mit der Zeit nicht auch für Gaming-Lösungen umgesetzt werden kann.

-----

Die PDF von Nvidia stellt ihre Forschungsergebnisse relativ im Detail dar, Leo's Abschnitt ging oberflächlich nur auf die Schaubilder ein und führte noch allgemeine Überlegungen zum Thema aus.
 
Zuletzt bearbeitet:
CPUs und GPUs sind vom Aufbau her sehr unterschiedlich, so dass man das nicht einfach gleichsetzen kann.
Torsten hat das noch einmal beschrieben, dass man beim 6000-fachen aktueller CPU-Implementationen sein müsste, um eine brauchbare Lösung zu bekommen.

AMD und Nvidia haben das natürlich nicht direkt verworfen.
Dafür gibt es auch keinen Grund, da die Idee dahinter durchaus interessant ist.
Im Interview mit Wang, worum es auch in dieser News ging, machte er aber noch einmal deutlich dass aktuell ein MCM-Ansatz für einen Gaming-Chip nicht sinnvoll ist.
Du hast doch das Interview selbst noch einmal im Original verlinkt, und bestimmt auch gelesen.

Das PDF habe ich auch noch einmal gelesen, und finde Leos Summary schon passend. Deshalb habe ich nachgefragt.
 
Zuletzt bearbeitet:
Die "6000"-fache Zahl kam von der Idee her, wenn man die gleichen Kommunikationsbandbreiten erreichen möchte, wie sie über den den ganzen Chip zwischen den Einheiten führen.
Die Crossbar zum L2$, wo letztendlich der ganze Traffic aller Clients landet liegt bei Vega bei ~3,2 TB/s (vielleicht auch nur bei der Hälfte, ich weiß nicht genau wie viel Memory-Channel und Bytes AMD wirklich rüber schickt, aber früher waren es 64 Bytes pro L2$-Tile, Vega hat vermutlich 32 Tiles.) oder wenn AMD deutlich entschlankt hat nur 1,6 TB/s.

Aber solche Bandbreiten benötigst du nicht für gute Performance.
Bei Zen läuft der Traffic von 4 Kernen auf einen gemeinsamen L3$ mit 512 GB/s (4 Kerne x 32 Bytes pro Takt (4Ghz).
Der interne IF leitet aber nur 32 Bytes pro CCX, also nur ein viertel und dabei beträgt der Takt nur die Hälfte vom Ramtakt, also 32 Bytes x 1,6 (DDR4 3200) = 51,2GB/s und etwas weniger pumpt AMD über das Package durch mit ~38-42GB/s.

Und die Lösung hat Performancenachteile bei den sensitiven Aufgaben, aber Threadripper ist bei Games ja nicht total abgesoffen und ansonsten funktioniert das auch relativ gut.
Im Nvidia Paper werden 768GB/s als Link für die Simulation verwendet, die Hälfte davon hat im Test die Performance um 15% reduziert, also kein Albtraum.
Und ja, für die Performancewerte braucht es Architekturanpassungen, um die Datenlokalität zu verbessern und die nötige Kommunikation untereinander effektiv zu verringern, aber genau das führt dann auch dazu, dass man in der Praxis kein Faktor von 6000 gegenüber CPU-Verbindungen benötigt.
EPYC verbindet die Chips mit ~40GB/s, mal x 6000 wären 240000 GB/s bzw. 240 TB/s.
Die Crossbar welche alle Clients bei Vega verbindet, 64 CUs mit ihrem LDS, L1$ und K$ und I$ kommt maximal auf 20 TB/s, falls in der Praxis die Crossbar wirklich alle Client-Anfrage sättigen kann.
Also 6000-fach braucht man auf jeden Fall nichts, selbst bei zukünftigen GPUs mit vierfacher interner Bandbreite im Vergleich zu Vega10, also 80TB/s, wäre es im Vergleich zu Zen's aktueller Package-Bandbreite von die-to-die maximal ein Faktor von 2000.
Bei Vega10 "nur" Faktor 500 und wie gesagt, für die Praxis bist auch weit davon entfernt, so etwas auch nur im Ansatz zu benötigen.
Anhand von Nvidias Beispiel kann man mit ganzer bzw. gar halber Bandbreite von der VRAM-Anbindung ganz vernünftig leben, bei 1TB/s wären wir nur bei Faktor 25, bzw. nur 12.

-----

Zum Interview, dass war alles was gesagt wurde:
[1]It’s definitely something AMD’s engineering teams are investigating, but it still looks a long way from being workable for gaming GPUs, and definitely not in time for the AMD Navi release next year. “We are looking at the MCM type of approach,” says Wang, “but we’ve yet to conclude that this is something that can be used for traditional gaming graphics type of application.”

[2] “To some extent you’re talking about doing CrossFire on a single package,” says Wang. “The challenge is that unless we make it invisible to the ISVs [independent software vendors] you’re going to see the same sort of reluctance.

[3] “We’re going down that path on the CPU side, and I think on the GPU we’re always looking at new ideas. But the GPU has unique constraints with this type of NUMA [non-uniform memory access] architecture, and how you combine features... The multithreaded CPU is a bit easier to scale the workload. The NUMA is part of the OS support so it’s much easier to handle this multi-die thing relative to the graphics type of workload.”

[4] So, is it possible to make an MCM design invisible to a game developer so they can address it as a single GPU without expensive recoding?
“Anything’s possible…” says Wang.

[5] It seems, however, that the MCM approach is only an issue in the gaming world, with the professional space more accepting of multi-GPU and potential MCM designs.
“That’s gaming” AMD’s Scott Herkelman tells us. “In professional and Instinct workloads multi-GPU is considerably different, we are all in on that side. Even in blockchain applications we are all in on multi-GPU. Gaming on the other hand has to be enabled by the ISVs. And ISVs see it as a tremendous burden.”

[6] Does that mean we might end up seeing diverging GPU architectures for the professional and consumer spaces to enable MCM on one side and not the other?
“Yeah, I can definitely see that,” says Wang, “because of one reason we just talked about, one workload is a lot more scalable, and has different sensitivity on multi-GPU or multi-die communication. Versus the other workload or applications that are much less scalable on that standpoint. So yes, I can definitely see the possibility that architectures will start diverging.”

1. Es ist etwas was AMDs Ingenieure definitiv untersuchen, aber es scheint noch lange weg von einer Praxislösung für Gaming zu sein und wird es zeitlich definitiv nicht für die Navi-Generation schaffen.
Das ist etwas was PCGN selber schreibt, okay, nur damit es klar ist was News-Seiten schreiben und was die Leute bei AMD selber sagen.
Weil Dinge, welche die Artikelschreiber verfassen werden gerne auch als Fakt oder Aussage von Herstellern aufgenommen.

Also was sagt Wang wirklich an der Stelle? Sinngemäß Folgendes: " Wir schauen uns MCM-Lösungen an, aber wir müssen noch zum Schluss kommen, ob das etwas ist was für tradionelle Grafik Anwendungen verwendet werden kann".

2. Wang: "Die Herausforderung ist, dass solange wir eine solche Lösung nicht als unsichtbar für Software-Entwickler umsetzen können, wir die selbe Zürückhaltung wie bei Crossfire/SLI sehen werden".

3. Wang: "Wir verwenden das Konzept auf der CPU-Seite und bei den GPUs schauen wir immer nach neuen Möglichkeiten.
Aber GPUs haben einzigartige Herausforderungen bei solch einer Umsetzung und es ist viel schwerer umzusetzen. "

4. Ist es möglich eine MCM GPU unsichtbar für Spieleentwickler zu realisieren, sodass diese als einzige GPU angesehen werden kann ohne teure Reprogrammierung?
Wang: "Alles is möglich..:".

5. Hier kommt Scott Herkelman ins Gespräch, der davon redet das klassische Multi-GPU Lösungen ja schon gut adaptiert sind in anderen Anwendungsfällen und Bereichen und das Softwareentwickler für Spiele das allerdings als große Herausforderung ansehen.

6. Könnte das heißen, dass wir in der Zukunft ausernanderweichende Architekturen für den profisionellen Bereich und für normale Konsumenten erleben werden, wo beim ersten MCM verwendet wird, aber nicht beim letzteren?
Wang: "Ja, ich könnte mir das definitiv vorstellen, weil es für den profisionellen Bereich viel leichter umsetzbar ist und die Arbeitslast dort anderen Ansprüchen folgt."

Ich habe mir jetzt nicht die Mühe gemacht alles und dabei noch 1:1 perfekt zu übersetzen, aber das ist im Kern alles was gesagt wurde und konkret lässt es vieles offen.
 
Du brauchst das für mich nicht übersetzen.

Aber Wang schreibt doch, dass es bei GPUs deutlich schwerer umzusetzen ist, und wenn dann nur wahrscheinlich für den HPC-Bereich, genau dass was ich schon mehrfach geschrieben hatte.
Selbst der Nachfolger von Navi wird keine MCM-Lösung sein.

Wenn überhaupt wird es erst HPC-GPUs damit geben, aber auch dass ist Zukunftsmusik und nicht gleich nächstes Jahr.
Und irgendwann in sehr ferner Zukunft, wenn MCM-HPC-GPUs normal sind, die Fertigung an eine Grenze stößt wo es nicht mehr weitergeht, und man gar keine andere Wahl mehr hat als ein MCM-Ansatz, dann kommen bestimmt auch entsprechende Gaming-GPUs.
 
Und was sagt Wang ganz zu Beginn? Das es noch offen ist, ob so ein Ansatz für traditionelle Grafik verwendet werden kann.
Und dann noch das im Prinzip alles möglich ist.

Übrigens reiten wir schon wieder von einem Punkt zum Nächsten, wieder ohne konkreten Drehpunkt, denn ich habe keine Aussagen getätigt die konkret etwas behauptet haben, außer meine Sichtweise was eine größere Herausforderung bei der MCM-Umsetzung darstellt und welche Bandbreiten man in der Praxis ungefähr benötigen sollte, aufgrund von Nvidias Paper.

Ganz zu Beginn ging es um Infinity Fabric und dessen technische Nichteignung, wo die Frage nach wie vor ungelöst ist, wieso das technisch nicht geeignet sein sollte?
Um den MCM-Ansatz zum Erfolg zu bringen, auch für traditionelle Grafik, muss man ein Bild aus 1000 Stückchen zusammenstellen.
Die Fabric-Architektur ist ein Stück, weitere Architekturanpassungen, Packaging-Methoden, Software Anpassungen beim Treiber und möglicherweise auch beim Betriebssystem und den APIs sind weitere.
Aber woher willst du wissen, dass es die Infinity-Fabric auf jeden Fall schon unpassend ist?

Und wenn AMD die Dinge offen lässt und nur grob von den Herausforderungen redet und das man sich das für sagen wir einfach HPC vorstellen kann, aber nicht für normale Konsumenten.
Du zeichnest aber grob den worst case, wo alles Mögliche erst an seine Grenzen kommen muss, bevor das auch für den Gaming-Bereich umgesetzt wird.
 
Auch Torsten hat das noch einmal beschrieben.
Ich stimme ihm da eher zu das die IF aktuell ganze Größenordnungen zu schlecht ist, um aktuell für eine MCM-GPU-Lösung eigesetzt werden zu können.

Technologien werden oft erst aus einer Notwendigkeit heraus entwickelt.
In dem Fall wenn es wirtschaftlich günstiger ist auf MCM zu setzen, oder es technisch keine Alternative gibt.

Das war also kein Worst Case Szenario von mir, sondern ist in dem Kontext zu sehen.

Es ist auch nicht schlimm unterschiedliche Ansichten zu haben.
Was mich eher stört ist das immer wieder in den Foren wiederholt wurde, dass Navi auf MCM setzt, und viele fest davon ausgegangen sind, obwohl dass von Anfang an unrealistisch war.
Ich lese zum Bsp. gerade bei CB die Posts zur ähnlichen News mit, wo bei jedem 5. Post drin steht dass Navi auf MCM setzt.
PlayStation 5: Mit AMD Zen+ und Navi zum Leidwesen von Vega - ComputerBase
Jetzt kommen gleich wieder die nächsten Traumschlösser, dass Navi auf 1080ti Niveau sein wird.
Und am Ende sind alle wieder furchtbar enttäuscht, wenn es ein Leistungsklasse niedriger werden könnte.
 
Zuletzt bearbeitet:
Beim IF kann im Prinzip jede Topologie verwendet werden.
Das Mesh von Intel führt durch jeden Kern durch, während bei Zen1 AMD jede Kommunikation außerhalb vom 4-Kern CCX über das IF SDF geregelt wird.
Intels Lösung ist an der Stelle eben mit anderen Kompromissen verbunden, ein ganzes Mesh durchzuführen ist aufwendiger und gegenüber Intels alten "Ring-Bus" hat sich die Latenz bei wenigen Kernen auch verschlechtert.
AMD Ryzen and the Windows 10 Scheduler - No Silver Bullet | PC Perspective
The Intel Core i9-7900X 10-core Skylake-X Processor Review | Thread to Thread Latency and The X299 Platform


Greenland hat aber 4x25GB/s durch das organische Substrat zur CPU vorgesehen, wie viel Platz und Energie könnte AMD für schnellere und/oder mehr Links investieren und auf welche Bandbreiten würde man kommen, wenn man beim MCM-Ansatz auf Silizium als Medium wechselt?
Ebenso könnte man sich selber darauf beschränken nur zwei Chips miteinander zu verbinden und nicht 4.

Nvidia hat in ihrem MCM Paper dargelegt, dass mit erweiterten Cache- und intelligente Steuerungsmechanismen die benötigte Bandbreite effektiv reduziert werden kann und praktisch gesehen definitiv nötig sind:
http://research.nvidia.com/sites/default/files/publications/ISCA_2017_MCMGPU.pdf

Im Paper führt Nvidia auch beispielhaft 3TB/s (4x 768 GB/s) an, um praktisch keinen nennenswerten NUMA Effekt herbeizuführen und volle VRAM-Kommunikation zu gewährleisten.
1,5 TB/s (4x384 GB/s) sollen bei speicherlastigen Simulationen zu 12% Leistungsverlust führen, dass ist jetzt nicht dramatisch bei 50% weniger Bandbreite.

Die Nvidia-Studie beschäftigt sich ausschließlich mit Simulationen, nicht mit Grafikrendering. Bei massiv parallelisierten Berechnungen muss ein MCM-Konzept "nur" noch die Versorgung aller Recheneinheiten mit den jeweils benötigten Daten sicherstellen. Für Grafikberechnung müssen die Recheneinheiten aber auch untereinander Ergebnisse austauschen und jeder Die muss schnellen Zugriff auf alle Bildinhalte haben. Die von Nvivida angenommene 50 Prozent Cache-Hit-Rate zu erreichen, wenn bei der gezeigten 2×2-Konfiguration bereits rein statistisch 75 Prozent der Inhalte nie auf dem gleichen Chip wie der Cache waren, dürfte unmöglich sein. Im Gegensatz zu strukturieren Simulationen kann man bei GPU-Berechnung keine NUMA-resistenten Untergruppierungen für Teilbereiche bilden; beispielsweise Beleuchtungsberechnungen hängen potentiell von allen Lichtquellen im Bild ab.

Der Vorschlag mit nur zwei Chips zu arbeiten reduziert die Komplextität schon eher – aber auch den Nutzen. Zeppelin ist so erfolgreich, weil drei Leistungsklassen abgedeckt werden, was nur dank Quad-Chip-MCM funktioniert. Im GPU-Bereich könnten zwar ein Duo aus leicht vergrößerten Polaris bei guter Verbindung Polaris 10 ersetzen, Vega hätte AMD dann aber dennoch zusätzlich entwickeln müssen. Entwicklungskosten für einen Chip eingespart, Entwicklungskosten für ein Spezial-Interface draufgezahlt – und nebenbei für jede Karte 10 bis 20 Prozent mehr Silizium verbraucht, zuzüglich Interposer/EMIB.
 
Zurück