AMD Epyc vorgestellt, mit 64 Kernen und Zen 2 gegen Intel: erste Tests

Außerdem hat man natürlich bei der Entwicklung und Implementierung große Vorteile weil man nicht den ganzen Chip mit allen Funktionen testen muss sondern nur einen Teilchip

Ich weiß nicht, wie viel das ausmacht. Auch wenn ein großer Chip getestet wird, werden ja die gleichen Funktionsbereiche wie bei einem geteilten Chip getestet.

AVX512 kann bisher aber kaum eine Anwendung.
Das muss expliziert bei der Programmierung genutzt werden.

Und das bietet sich gar nicht mal so oft an.

Wenn die CPUs geliefert werden, kann es aber durchaus sein, dass der Marktanteil gleich mal 10% nach oben geht. Die Nachfrage ist ungebrochen.

Wenn sie lange genug nicht liefern können, kann sich das schnell ändern.

Nein! Kann man nicht! x265 geht nur mit x86 CPUs.

Das halte ich für eine steile These. Oder meinst du es ist bis jetzt nur für x86-CPUs implementiert?
 
Wenn die CPUs geliefert werden, kann es aber durchaus sein, dass der Marktanteil gleich mal 10% nach oben geht. Die Nachfrage ist ungebrochen.
nein, so schnell geht das nicht. Man kann ja nicht plötzlich einfach doppelt so viel produzieren. Das geht schon allein von den Verträgen mit TSMC her nicht. Und auch die ganzen Lieferketten usw usf.
Das hat AMD damals auch geglaubt. Das war immer so frustrierend für die Kunden, dass wir dann wieder auf Intel gewechselt sind
Ich weiß nicht, wie viel das ausmacht. Auch wenn ein großer Chip getestet wird, werden ja die gleichen Funktionsbereiche wie bei einem geteilten Chip getestet.
macht einen großen Unterschied.
Das fängt bei der Simulation an, also noch bevor man den Testschip produziert.
Dann hilft es, dass man einen wesentlich kleineren Testchip nur produziert. Dieser Teilchip wird in Boards eingesetzt, wo bereits alles andere funktioniert. Das spart viel Zeit, denn es ist auch viel Wahrscheinlicher, dass ein kleiner Chip mit weniger Fläche/Transistoren und funktionen gleich mal funktioniert als ein großer mit vielleicht vielen Neuigkeiten. Auch wenn in all den anderen Teilen Fehler existieren, der x86 Core aber in Ordnung ist, kann dieser ja auf den Markt gebracht werden (kann ja zu einem großen Teil mit den alten Funktionierenden teilen verwendet werden).
Kurz gesagt, es ist einfach ein Vorteil, wenn jeder Teil des Chips auch einzeln entwickelt werden kann bzw. unabhängig von den anderen funktionieren muss.
 
Zuletzt bearbeitet:
Das Line-Up ist (wie alle Server CPU Line-up's) wieder leicht verwirrend: drei 8-Kerner, nur ein 12-Kerner, dann weiter oben aber vier 32 Kerner. Etwas höhere TDP und Basis-Takt für enorme Preisaufschläge, dazu die höheren laufenden Betriebskosten der TDP. Ich dachte der Trend geht weg von der eierlegenden Wollmilchsau, hin zu anwendungspezifischer Hardware, also lieber sparsame extreme Count oder ebend sparsame nur 12 oder 16 Kerner mit möglichst hohem Takt, wo es halt gebraucht wird. Das Mittelfeld ist weder Fisch noch Fleisch und alles andere als ein Schnäppchen. Zumindest innerhalb des eigenen Line-Ups, im vergleich zu Intel schon deutlich besser eingepreist. Oder AMD bietet das nur an, weil sie es architekturbedingt halt einfach können.
 
Korrekt, wenn einer überlegt sich eine 64 Core CPU zu holen (bei den Kosten) dann wird die SingleCore Leistung wohl eher nebensächlich sein. Also das Anwendungsgebiet von wenigen Kernen und hohem Takt ist glaube ich im Serverbereich so gut wie nicht vorhanden.

AVX512 ist natürlich weiterhin ein Argument für Intel, aber könnte man das nicht besser mit Xeon Phi lösen? Sind doch Erweiterungskarten? die extrem auf diese Art optimiert sind, oder?

Ansonsten sehe ich die AMD Riege so dermaßen weit vorne, bei der IPC und dem Takt in Verbindung mit der Anzahl der Kerne kommt man ca. auf die doppelte Leistung im Multicorebereich bei ca. 40% der Kosten, also bekommt man mehr als die vierfache Leistung fürs Geld. Dazu kommt die Platzersparnis und der fast halb so hohe Stromverbrauch.

Xeon Phi wird nicht mehr weiterentwickelt und die letzten anderthalb Generationen sind gar nicht als Karte, sondern nur gesockelt erschienen. Die neuesten Phis für einen Opteron-Server wären also von 2013 – und obendrein unterscheidet sich der AVX512-Phi-Befehlssatz auch nocht leicht vom AVX512 der normalen Xeons.

Ich wäre aber nicht überrascht, wenn selbst AVX-lastiger Code auf beinahe doppelt so vielen AVX2(56)-Einheiten schneller ausgeführt werden kann als mit AVX512-Unterstützung. Die doppelte Rechenleistung pro Takt gibt es ja auch bei Intel nicht gratis, Skylake SP muss den Takt bei AVX512-Ausführung deutlich senken um die TDP einzuhalten. Zwar steigt auch die Effizienz spürbar, aber den bisherigen Angaben zu Folge hat Rome nicht nur einen deutliche Leistungs- sondern auch Effizienzvorsprung. Der könnte durchaus reichen, um sich eine Bearbeitung des gleichen Problems mit AVX2 leisten zu können und trotzdem noch vorne zu liegen.

Den einzigen klaren Vorteil, den ich bislang irgendwo für Skylake finden konnte, ist der große homogene Cache. Die Prefetcher arbeiten bei Rome wohl ganz gut, aber wenn doch ein Cache-Zugriff jenseits des eigenen CCX nötig ist, sind die Latenzen laut Anandtech ähnlich hoch wie für einen DRAM-Zugriff. Das kann Skylakes Mesh viel besser. Aber es gibt nicht viele Anwendungen in denen soviel Cache von einer Anwendung exklusiv genutzt wird und die, die es gibt, profitieren oft auch von riesigem DRAM, der wiederum eine Epyc-Stärke ist.


Was ich momentan vermisse ist die Information, ob alle acht Die-Plätze besetzt sein müssen oder das Design auch mit weniger als Vollbestückung funktioniert...
Klar, der 7642 (3/4 der Kerne, aber voller Cache) wird auf Vollbestückung basieren, aber beim 7552 (3/4 der Kerne, 3/4 des Caches) könnte man sich eben auch zwei Chiplets gespart haben.

Funktional können die zusätzlichen Positionen komplett deaktiviert werden. Ob AMD dann auch die Chiplets weglässt weiß ich aber nicht – bei Rzyen 3000 machen sie es, bei den bisherigen Threadrippern haben sie bekanntermaßen darauf verzichtet.


Ja, es ist schön zu sehen, dass AMD, die bislang immer einen Nachteil bei der Fertigung hatten und seit einigen Jahren auch noch von anderen abhängig sind, endlich auch mal einen kleinen Vorteil daraus ziehen.
Zen 3 ist natürlich schon fertig und wird nun getestet. Wie das üblich ist ca 1 Jahr vor Release. Vermutlich die letzte oder vorletzte AM4 µArch bevor auf DDR5 umgestellt wird (außer bei Kombi-Controller).
Nächstes Jahr um diese Zeit wird wohl Zen 4 fertig sein. Für 2021. Eventuell schon in 5nm
Die Frage ist natürlich immer mit welchen Verbesserungen die CPUs aufwarten.
Zen 3 hat hauptsächlich einen leicht überarbeiteten PRozess und somit bessere Effizienz und Taktraten - aber hat man auch am Core was geändert? Ab wann wird man AVX 512 - Intels letzte Domäne derzeit - in Angriff nehmen?

TSMCs 5nm ist voll im Plan, ebenso wie 3nm. Wobei 3nm eher mit Intels 7 nm vergleichbar ist und für größere Prozessoren wohl nicht vor 2023 zu erwarten ist.

Wirds 8Kerner+integrierte GPU auf einem Monolithischen Die für Laptops geben?

Bislang ist über den Aufbau der APUs nichts sicheres bekannt, es wird aber allgemein von Nutzung der gewohnten Chiplets ausgegangen. Ob auch der I/O-Die 1:1 übernommen wird oder ob im aktuellen Substrat oder dem aktuellen I/O-Die schon die nötigen Anschlüsse für die Grafikausgabe eingeplant sind, müssen wir abwarten. Die Idee eines über eine interne high-Speed-Schnittstelle angebundenen reinen Grafikprozessors stand jedenfalls schon vor 5-6 Jahren im Raum.



Ich sehe nur die Aussage von Ian, dass Dummys für die mechanische Stabilität nötig sind. Allerdings ist nicht klar, ob das eine Einschätzung oder eine von AMD erhaltene Information ist. Einschätzung von Ian sind für sich genommen zwar schon ziemlich viel wert, aber zumindest die Desktop-Modelle hat AMD eindeutig so konzipiert, dass sie auch mit unbesetzten Positionen stabil sind und bei Epyc müsste die freitragende Fläche durch ein fehlendes Chiplet um Faktor 10 kleiner sein als bei den bisherigen Threadripper.


Wenn wir schon bei Zen3 sind, hat man da schon was gehört?

Ich denke Mal, dass man bei Zen3 die 7nm Fertigung dann auch im IO Chip realisiert. Dazu ein paar Verbesserungen bei der Fertigung und ich denke Mal dass der Cache vielleicht nochmal verbessert wird. Dann wird man vielleicht den Takt der CPU wie auch des IO nochmal hochschrauben konnen (auch wenn ich keine Wunder erwarte). Insgesamt glaube ich einfach werden vielleicht nochmal 15% rauskommen. Das ist dann auch schon ein hartes Brett für Intel, selbst mit 10nm werden die nicht einfach vorbeiziehen können. Aktuell sieht man zwar einen massiven Anstieg der IPC dafür aber eine fast noch signifikantere Absenkung der machbaren Taktraten und dass trotz 10nm. Wenn Intel das nicht in den Griff bekommt wird selbst 10nm nicht reichen um Zen2 zu schlagen, geschweige denn den fast zeitgleichen Zen3.

Es wurden zwar schon mutmaßliche Zen3-Einträge in Datenbanken gesichtet, aber es gibt noch keine konsistenen Leaks zu den Eigenschaften. Das meiste, was verbreitet wird sind Mutmaßungen was sinnvoll/wünschenswert wäre. Ich persönlich würde von deutlich weniger als 15 Prozent Mehrleistung pro Kern ausgehen, aber wenn man den Stromverbrauch des I/O-Chip in den Griff bekommt, könnte man vor allem in der Epyc-Mittelklasse mehr Kerne ins gleiche Power-Budget quetschen.


Ich dachte der I/O-Chip auf den CPU's wäre in 12 NM bei GF gefertigt und der für x570 in 14 NM :confused:

Bei 19 Modellvarianten der EPYCS ist mir klar warum keine Chiplets mehr für den 3900x übrig sind :devil:

Hoffentlich erreicht AMD damit endlich den großen Erfolg und die Marktanteile die sie verdient haben :nicken:

Verwirrende Formulierung:
Der I/O-Chip von Matisse wird in 12 nm gefertigt, der von Rome aber ebenso wie der X570 in 14 nm. Was einen interessanten Fragen zur Entwicklung liefert. Wurde der X570 vor Matisse konzipiert? Sollte Matisse ursprünglich mit 14 nm für ASMedia-I/O-Hubs erscheinen, aber man musste kurzfristig eine hauseigene Alternative finden und weil nur 12-nm-Kapazitäten verfügbar waren, hat man Matisse ein Upgrade verpasst und die bereits gefertigten I/O-Dies auf's Mainboard abgeschoben? Steckt im Matisse-I/O-Chip doch mehr weiterentwickelt als bislang gedacht, zum Beispiel weil er schon für Grafikeinheiten vorbereitet ist, während der X570 einfach nur ein Ausschnitt des Rome-I/O-Chips ist?
Vermutlich wird wieder niemand bei AMD diese Fragen beantworten :-(
 
macht einen großen Unterschied.
Das fängt bei der Simulation an, also noch bevor man den Testschip produziert.
Dann hilft es, dass man einen wesentlich kleineren Testchip nur produziert. Dieser Teilchip wird in Boards eingesetzt, wo bereits alles andere funktioniert. Das spart viel Zeit, denn es ist auch viel Wahrscheinlicher, dass ein kleiner Chip mit weniger Fläche/Transistoren und funktionen gleich mal funktioniert als ein großer mit vielleicht vielen Neuigkeiten. Auch wenn in all den anderen Teilen Fehler existieren, der x86 Core aber in Ordnung ist, kann dieser ja auf den Markt gebracht werden (kann ja zu einem großen Teil mit den alten Funktionierenden teilen verwendet werden).
Kurz gesagt, es ist einfach ein Vorteil, wenn jeder Teil des Chips auch einzeln entwickelt werden kann bzw. unabhängig von den anderen funktionieren muss.

Bei der Simulation ist es doch eigentlich noch am unwichtigsten, ob das zu simulierende System nun aus einem oder zwei Chips bestehen wird. Und ob man jetzt einen Chip einsetzt und bei dem die Funktionen testen oder zweimal einen Chip einsetzt und die gleichen Funktionen testet, sollte auch fast egal sein. Dass der Yield höher ist, ist wahr, aber eigentlich nicht der Punkt. Und wirklich unabhängig voneinander funktionieren tun die Chips ja auch nicht. Sie erfüllen eine Teilfunktion des System, aber die Tests müssten ja schon über das gesamte System (also hier die CPU) laufen. Sicher kann und sollte man für jeden Teil eine eigene Teststation haben, aber wird davon der Testraum wirklich kleiner? Die Gesetze für die Systemkomplexität sollten eigentlich nicht gelten, weil eh nur bestimmte Teilbereiche geprüft werden können.
 
Das Line-Up ist (wie alle Server CPU Line-up's) wieder leicht verwirrend: drei 8-Kerner, nur ein 12-Kerner, dann weiter oben aber vier 32 Kerner. Etwas höhere TDP und Basis-Takt für enorme Preisaufschläge, dazu die höheren laufenden Betriebskosten der TDP. Ich dachte der Trend geht weg von der eierlegenden Wollmilchsau, hin zu anwendungspezifischer Hardware, also lieber sparsame extreme Count oder ebend sparsame nur 12 oder 16 Kerner mit möglichst hohem Takt, wo es halt gebraucht wird. Das Mittelfeld ist weder Fisch noch Fleisch und alles andere als ein Schnäppchen. Zumindest innerhalb des eigenen Line-Ups, im vergleich zu Intel schon deutlich besser eingepreist. Oder AMD bietet das nur an, weil sie es architekturbedingt halt einfach können.

Also wenn ich das richtig sehe, dann braucht AMD kein Mittelfeld, weil die "HighEnd" Riege preislich genau bei Intels Mittelfeldriege angekommen ist.

Ich meine die Xeon Silver sind derzeit bis 16 Kerne erhältlich und liegen bei rund 1.000 EUR mit lächerlichen 2,1Ghz Basistakt. Dagegen stellt AMD einen 16Kerner mit 3Ghz Basistakt . Sieg AMD
Eine Riege drüber gibts die Xeon Gold mit 24 Kernen und 2,4Ghz Basis zu rund 2.500 EUR, dagegen liefert AMD in diesem Bereich 32 Kerne mit gleichem Takt
Ganz oben spielt bei Intel ein Platinum mit 28 Kernen und 2,7Ghz Basistakt zu rund 10.000 EUR, AMD kann das mit einem 32Kerner und 2,9Ghz Basis locker kontern, Preis hier 3.500 EUR, als rund 1/3

Ab da gibt es dann schlicht nur noch AMD, oder man macht es wie die anderen Foren und vergleicht Dual Sockel Systeme mit Single Sockel, macht aber weder kostentechnisch noch Leistungstechnisch Sinn. Vor allem wird der SingleSockel mit 7742 gleich schnell dem schnellstmöglichen DualSockel von Intel sein.

Aber ich finde nicht, dass man in dem Bereich schlecht aufgestellt ist, die Achtkerner hätte man sich vieleicht sparen können, aber für Preisbewusste ist das sicherlich ein Einstieg, aber OK. Es wird vieleicht auch dem aktuellen Produktionsprozess geschuldet sein, dass nicht jede CPU die gewünschten Werte liefert und man daher einfach nach unten etwas abstufen kann. Wobei ich einen 8Kerner mit 128MB Cache auch gerne mal in Spielen sehen würde. :ugly:
 
Eine große Baustelle sind nach wie vor die RAM Latenzen und die L3 Latenzen, das sieht man besonders krass beim 64 Kerner.
Jedes chiplet besteht ja aus 2 CCX die je 4 Kerne und 16MB L3 cache haben. Greifen die Kerne auf den L3 cache des eigenen CCX ist ist noch alles gut, liegen die Daten aber im L3 cache vom 2ten CCX dieselben chiplets dauert der Zugriff schon länger. Und muß auf den L3 cache eines anderen chiplets zugriffen werden steigen die Latenzen weiter an.

Ich erwarte/erhoffe das da bei Ryzen3 dran geschraubt wird, z.B. das ein chiplet einen CCX mit 8 Kernen und 64 MB cache am Stück hat. Ev. sogar bis 12 Kerne als ein CCX pro chiplet.
Und/oder ein L4 cache im I/O chip. Am Speichercontroller wird sicher auch weiter geschraubt, ich tippe mal 3600 als offizielle Spec. Und natürlich mehr Takt, AMD/TSMC haben 7nm+ schon bestätigt für Ryzen3.
Alles in allem zeichnen sich gute Aufrüstmöglichkeiten ab wenn man ein AMD System kauft.
 
Eine große Baustelle sind nach wie vor die RAM Latenzen und die L3 Latenzen, das sieht man besonders krass beim 64 Kerner.

Bei den Workloads, die auf solchen CPUs laufen, geht es oft eher um Durchsatz als Reaktionszeit. Viel kann dann durch das SMT ausgeglichen werden. Vielleicht ist das auch der Grund, warum Zen 3 vierfaches SMT bekommen soll.
 
Auszug aus AnandTech Artikel vom 07. Aug. 2019, AMD Rome Second Generation EPYC Review: 2x 64-core Benchmarked:
So has AMD done the unthinkable? Beaten Intel by such a large margin that there is no contest? For now, based on our preliminary testing, that is the case. The launch of AMD's second generation EPYC processors is nothing short of historic, beating the competition by a large margin in almost every metric: performance, performance per watt and performance per dollar.

First Impressions of 2x 64-Cores - AMD Rome Second Generation EPYC Review: 2x 64-core Benchmarked

Dies ist AMD sehr zu gönnen und Intel ist es sehr zu wünschen das sie in der Server-Sparte irgendwann wieder konkurrenzfähig werden.

Eine Sache macht mich trotzdem sehr traurig und zwar das ich all meine AMD Aktien bei einem Kurs von 20$ abgestossen habe.
Selbst ich, hätte ihnen dies nie und nimmer zugetraut, obwohl so eine Entwicklung schon abzusehen war als das erste Mal die zwei Begriffe nach folgender Priorität in einem Satz genannt wurden:1) Chiplet design, 2) 7nm TSMC





 
Bei den Workloads, die auf solchen CPUs laufen, geht es oft eher um Durchsatz als Reaktionszeit. Viel kann dann durch das SMT ausgeglichen werden. Vielleicht ist das auch der Grund, warum Zen 3 vierfaches SMT bekommen soll.

Kannst du bezüglich das Zen 3 viefaches SMT bekommen soll einen LINK schicken?
 
Eine große Baustelle sind nach wie vor die RAM Latenzen und die L3 Latenzen, das sieht man besonders krass beim 64 Kerner.
Jedes chiplet besteht ja aus 2 CCX die je 4 Kerne und 16MB L3 cache haben. Greifen die Kerne auf den L3 cache des eigenen CCX ist ist noch alles gut, liegen die Daten aber im L3 cache vom 2ten CCX dieselben chiplets dauert der Zugriff schon länger. Und muß auf den L3 cache eines anderen chiplets zugriffen werden steigen die Latenzen weiter an.

Nein. Das war nei Naples der Fall, bei Rome gibt es nur zwei unterschiedliche Zugriffszeiten: Innerhalb eines CCX / alles andere. Alles was nicht on-CCX stattfindet, geht über den IO-Die. Selbst wenn der Zugriff vom selben CCD ausgeht.
 
Weils für mich grad nicht drauß hervorgeht oder ich es falsch interpretiere.

Wie viele CPU´s können je MB eingesetzt werden?

Nach wie vor nur 2 CPU´s oder ist es mittlerweile möglich mehr einzusetzen?
 
Epyc ist auf zwei beschränkt, Skylake AP wurde meinem Wissen nach auch nur als Dual spezifiziert (müsste aber 4-Wege beherrschen). Skylake SP kann 8-Wege nativ und ich glaube es gibt Super-Computer-Konfigurationen mit nicht-Intel-Chips, die 16 Prozessoren zu einem Node vereinigen. 2-Wege hat sich aber im Server-Markt auf breiter Front durchgesetzt.
 
AMD'''s Zen 3 to get 4 threads per core : Amd
Die Quelle halte ich für wenig vertrauenswürdig, aber bei Servern würde es Sinn machen.

Ein wirklich interessantes Video. Allerdings sagt er ja selbst, dass es sich lediglich um ein Gerücht handelt das mit einer "quite large grain of salt" genossen werden sollte.
Zuerst als ich das Video betrachtete viel mir das Intel T-Shirt (Level up with Intel) auf, aber es sei ihm verziehen, er hat das ja dann extra nochmals angesprochen gehabt dass, das nicht viel zu bedeuten hätte.

Einige Punkte wenn sie denn stimmen, sind schon sehr interessant. (war allerdings auch mein erster Gedanke, bevor ich es gesehen hatte, das für den Desktop 4-Way SMT zu viel des Guten für sämtliche CPUS wäre)
Anscheinend würde es sich bei Zen3 wirklich um ein Major Design Change handeln und 4-Way SMT würde für Threadripper und Epyc voll aktiviert werden (4 Threads per core)
und bei den Desktop Chips, würden bei den meisten einige Threads deaktiviert bzw. bei 2-Way SMT belassen.
Interessant ist auch das es sich bei der kommenden XBOX, (anscheinend erst einige Monate nach der PS5) eventuell bereits um eine an Zen3 angelehnte CPU handeln könnte. Auch der Bezug zu Raytracing ist dabei interessant.

Zen3 Part1.png

Ach ja, um Minute 12 spricht er davon das ihm 3 Quellen bestätigen würden, dass die kommende XBox mit 3 Threads pro Core umgehen könnten (1 deaktiviert)
wenn das stimmen sollte würde sich die ganze Kerndebatte in einem ganz anderen Licht abspielen (Xbox 24 Threads das wäre voll der burner!)
Allerdings die PS5 kommt wahrscheinlich früher (die letzten Gerüchte gingen von Zen 2 für die PS5 aus oder?
Wäre eventell Zen 3 doch auch auch für die PS5 möglich?
Laut Roadmap ist dies ja nicht ausgeschlossen.
 
Zuletzt bearbeitet:
Lese gerade das neue PCGH Wissen, wo steht, daß CPU's (aus Energie/ Kostengründen) lediglich mit 40-Bit arbeiten und somit auch "nur" maximal 1 TB RAM adressiert können, der neue Epyc schafft aber 4 TB. Was wurde intern diesbezüglich geändert?
 
Zurück