Ryzen 4000: ES mit 4,6 GHz Boost?


Danke. Sehr naheliegend, so etwas in einem Renoir-Test zu suchen. :-)

Die +20 ms/+25 Prozent für Inter-CCD versus Inter-CCX finde ich nicht so wahnsinnig merkwürdig. Es gibt zwar keine getrennten Controller auf derm I/O-Chip, aber die IF-Ports sind physisch getrennt und es ist sehr leicht vorstellbar, dass keine symmetrische Crossbar zwischen allen Ports existiert, sondern Übertragungen von einem IF zum anderen zusätzliche Puffer nutzen. So wird es auch leichter, einen I/O-Chip mit Defekt in einem IF-Abschnitt für einen Single-CCD-Matisse zu verwenden.

Aber das die Inter-CCX-Kommunikation auf dem zweiten CCD langsamer ist als auf dem ersten, spricht in der Tat gegen eine direkte Interpretation seiner Ergebnisse.

Der Test war 4+4+4+4 vs. 0+0+2+2. Aber ich habe gerade nochmal nachgeschaut. Signifikant war ein wenig überzogen, es sind so 2-3%.

Bei 16 gegen 4 Kernen würde ich die Ergebnisse nicht weiter interpretieren. Da wird es schwierig zu unterscheiden, was durch interne Kommunikationsprozesse, was durch den Gesamtkommunikationsumfang und was möglicherweise durch simple Kernsprünge verursacht wird. Mit Zen3 wird sich nur die Organisation ändern, nicht aber die anderen Parameter und Rückschlüsse sind nur von Test-Setups möglich, für die das in gleichem Maße gilt. Also nur Messungen mit insgesamt acht Kernen, aber verschiedener Verteilung über die CCX. (Nimmt man Ians Ergebnisse dazu zusätzlich auch noch verschiedener Verteilung über die CCDs. Also 2+2+2+2, 4+0+4+0 und zusätzlich noch 4+4+0+0. In letzterem Fall muss man auch einen Blick auf die Taktraten halten, nicht dass einem Veränderungen im Turboverhalten das Ergebnis versauen.)


Achso verstehe.Also den Vorteil habe ich wohl erst wenn ich mehrere Videos hinter einander Umwandle.Bzw wenn ich 2 GLeichzeitig mehrere davon nebenher umwandle.Dann hätte ich also den Vorteil.Das erklärt auch warum ein einmaliges Testen nichts bringt.Darum werden ja auch mehrere VIdeos gleichzeitig beim Umwandeln ja auch schneller.Das habe ich echt nicht beachtet.Das heißt ein Test von 2 Videos gleichzeitig nur 1 malig zu machen sagt garnix aus über die Tatsächliche Leistung.Gut zu wissen danke.

Mehrere verschiedene Videos würden selbst dann nicht beschleunigt werden, wenn der Cache groß genug für ganze Videos wäre. Nur die Wiederholung gleicher Elemente profitiert, das wäre im Video-Beispiel der eigentlich En-/Decoder, der bei jedem einzelnen Frame/Framepaket von vorne anfängt. Generell sind Caches und allgemein Speicherlatenzen in derartigen Anwendungen aber von geringer Bedeutung, weswegen diese auch so gerne für Kernskalierungen genommen werden: Solange die RAM-Transferrate insgesamt reicht, bremst eigentlich nichts, außer die reine Rechenleistung der Ausführungseinheiten. Die sieht man dann in Benchmarks schön, dafür kann man Verbesserungen (oder eben Schwachpunkte) an anderen Stellen nicht nachspüren.

Ein anderes Beispiel wären zum Beispiel Strategietitel, die für hunderte Einheiten die Wegfindung berechnen müssen. Da kommt jedesmal die gleiche Logik zum Einsatz und in vielen Fällen auch ähnliche Kartendaten. So etwas kann man wunderbar Cachen und lädt die Wegfindungsroutine und den Kartenabschnitt und nur bei der ersten Einheit aus dem RAM, für die zweite Einheit ist dann schon alles im Cache außer der aktuelle Standort eben dieser zweiten Einheit.
 
Danke. Sehr naheliegend, so etwas in einem Renoir-Test zu suchen. :-)

Die +20 ms/+25 Prozent für Inter-CCD versus Inter-CCX finde ich nicht so wahnsinnig merkwürdig. Es gibt zwar keine getrennten Controller auf derm I/O-Chip, aber die IF-Ports sind physisch getrennt und es ist sehr leicht vorstellbar, dass keine symmetrische Crossbar zwischen allen Ports existiert, sondern Übertragungen von einem IF zum anderen zusätzliche Puffer nutzen. So wird es auch leichter, einen I/O-Chip mit Defekt in einem IF-Abschnitt für einen Single-CCD-Matisse zu verwenden.

Aber das die Inter-CCX-Kommunikation auf dem zweiten CCD langsamer ist als auf dem ersten, spricht in der Tat gegen eine direkte Interpretation seiner Ergebnisse.



Bei 16 gegen 4 Kernen würde ich die Ergebnisse nicht weiter interpretieren. Da wird es schwierig zu unterscheiden, was durch interne Kommunikationsprozesse, was durch den Gesamtkommunikationsumfang und was möglicherweise durch simple Kernsprünge verursacht wird. Mit Zen3 wird sich nur die Organisation ändern, nicht aber die anderen Parameter und Rückschlüsse sind nur von Test-Setups möglich, für die das in gleichem Maße gilt. Also nur Messungen mit insgesamt acht Kernen, aber verschiedener Verteilung über die CCX. (Nimmt man Ians Ergebnisse dazu zusätzlich auch noch verschiedener Verteilung über die CCDs. Also 2+2+2+2, 4+0+4+0 und zusätzlich noch 4+4+0+0. In letzterem Fall muss man auch einen Blick auf die Taktraten halten, nicht dass einem Veränderungen im Turboverhalten das Ergebnis versauen.)




Mehrere verschiedene Videos würden selbst dann nicht beschleunigt werden, wenn der Cache groß genug für ganze Videos wäre. Nur die Wiederholung gleicher Elemente profitiert, das wäre im Video-Beispiel der eigentlich En-/Decoder, der bei jedem einzelnen Frame/Framepaket von vorne anfängt. Generell sind Caches und allgemein Speicherlatenzen in derartigen Anwendungen aber von geringer Bedeutung, weswegen diese auch so gerne für Kernskalierungen genommen werden: Solange die RAM-Transferrate insgesamt reicht, bremst eigentlich nichts, außer die reine Rechenleistung der Ausführungseinheiten. Die sieht man dann in Benchmarks schön, dafür kann man Verbesserungen (oder eben Schwachpunkte) an anderen Stellen nicht nachspüren.

Ein anderes Beispiel wären zum Beispiel Strategietitel, die für hunderte Einheiten die Wegfindung berechnen müssen. Da kommt jedesmal die gleiche Logik zum Einsatz und in vielen Fällen auch ähnliche Kartendaten. So etwas kann man wunderbar Cachen und lädt die Wegfindungsroutine und den Kartenabschnitt und nur bei der ersten Einheit aus dem RAM, für die zweite Einheit ist dann schon alles im Cache außer der aktuelle Standort eben dieser zweiten Einheit.

Ah mit ausführungseinheiten sind also die Transistoren gemeint. Soweit ich weiß wird ja da beim ryzen 4950x wohl die Einheiten nicht steigen. Und ich kann dann anhand der ganzen benchmark schon die Steigerungen sehen. Ich brauche also selbst es nicht mehr zu testen. Wie kommt es allerdings das ich aber massive Abweichungen von diesen ganzen tests habe. Ich scheine wohl wirklich ein sehr spezielles zenario zu haben.
Dennoch ist auch bei euren Tests der 3950x vor dem 10980xe und ich habe da das selbe Ergebnis. Bei anderen CPUs sieht die Reihenfolge allerdings anders aus. Kann mir allerdings ja auch egal sein, weil ich mich ja genau für die 16 Kerne interessiere.
Es gab mal vor einigen Monaten ne Zeit wo ich mich für 24 Kerner und mehr interessiert hätte. Allerdings als ich die Ergebnisse gesehen hatte war ich sehr schnell entäscht gewesen.

Wobei ich seid dem ich das weis dann von den noch Vielmehr Kernen kuriert bin.War halt wie bei 4k auf 24 " oder immer mehr Ram oder das mit sli oder der wahnsinn gleich 4 oder mehr gleichzeitig zum Umwandeln starten und dann sich wundern warum gewisse Spiele dann abstürzen.
All das habe ich auf die Schmerzhaft Art erfahren müssen um dies zu verstehen.Aber super teuer war ja das meiste zum Glück nicht gewesen.
 
Zuletzt bearbeitet:
Aus Transistoren ist das alles zusammengesetzt. :-)
Für einen groben Überblick darüber, wie komplex es in einer CPU tatsächlich zugeht, empfehle ich mal meine Die-Shot-Analyse von letztem Jahr. Die hilft einem zwar nicht beim Verständnis der Bedeutung von Caches, aber vermittelt vielleicht einen groben Eindruck davon wie stark die bisherigen High-Level-Abschätzungen in diesem Thread abstrahiert waren.

Die Kurzfassung heißt halt: Unterschiedliche Funktionseinheiten einer CPU sind für unterschiedliche Anwendungen von unterschiedlicher Bedeutung. Wir konzentrieren uns hier natürlich auf Spiele, dafür könnten die Veränderungen bei Zen3 viel bringen, aber die daraus gewonnenen Aussagen kann man nicht 1:1 auf Video-Verarbeitung übertragen. (Ausgenommen natürlich der eine Video-Test in unseren Benchmarks. ;-))
 
Ah mit ausführungseinheiten sind also die Transistoren gemeint.

Nein die ALUs. Arithmetisch-logische Einheit – Wikipedia

Für Ganzzahl (Integer) und Gleitkomma (Float/FP) gibt es getrennte Einheiten.

Das war damals das Problem, bei den Bulldozern (z.B. AMD FX8300). Die hatten pro Modul, welches aus zwei "Kernen" bestand nur eine FP-ALU für beide "Kerne".
Es waren also keine vollständigen "Kerne", weshalb auch die Bezeichnung "Module" die korrekte ist.
Aber 8 Kerne klang in der Werbung halt besser als 4 lahme Module.
Dafür hatte AMD dann noch juristische Folgen in den USA: Irrefuehrende Werbung: AMD zahlt 35 US-Dollar Schadensersatz pro FX-CPU - PC-WELT


Ein Zen2-Kern hat alleine für Integer schon 4 ALUs pro Kern.
AMD-NextHorizonE3-MikeClark-003_237257F7842C4096903B0BA43A5CFCDA.jpg
Alle Details zu Ryzen 3000: Zen 2 mit bis zu 16 Kernen - Hardwareluxx

AGU = Address generation unit
 
Zuletzt bearbeitet:
Ich sage euch allen danke.Ich habe vieles von euch gelernt.Ich merke schon das ich mich mit CPU nicht so gut ausgekannt hatte.So CPUS sind ja doch ganz schön komplexe Hardware.Ist echt nicht ohne.Nun weis ich ja dank euch das ich nur einen bestimmten Teil der CPU so richtig ausnutze.Hätte ich somit echt nicht gedacht das es ist.
 
Ein Kern besteht aus mindestens einer ALU (integer) und aus einer FPU (float).

Bulldozer hatte in seinen "Kernen" keine exklusive FPU.
 
ALso pro Kern ein ALU und FPU.
Das wären bei einem 16 Kerner mit SMT ja 16 ALU und 16 FPU´s.
Das sind ja schon verdammt viele.Und da steht echt jedem einzeln zur Verfügung oder teilen sich mehrere Kerne keweil ein ALU und FPU. Ich hoffe das es damit jeder Kern einzeln solche Einheiten haben.Soweit ich gelesen habe,wird sich zwischen 3950x und 4950x sich in dieser hinsicht nichts sich verändern.
Was ich echt schade finde.Denn ich hoffe das sich da doch was Optimiert bzw verbessert wird.
 
Wie oben gesagt, bei ZEN2 sind es 4 (Integer)-ALUs pro Kern. Also 64 insgesamt im 16-Kerner.
Bei Floatingpoint sind die FPUs bei Zen2 nach Multiplikation und Addition getrennt, jeweils 2 pro Kern. Also effektiv 2 vollständige FPUs pro Kern und damit 32 in einem 16-Kerner.
Daher kann der bei SMT 2 Thread pro Kern ausführen.

Bei Zen3 soll angeblich Floatingpoint nochmals ausgebaut werden.



Bei Skylake und folgenden sind es auch 4 (Integer)-ALUs pro Kern.
1-1080.3151132976.png
 
Achso,wenn es bei allen gleich ist,dann muss ja da noch was anderes die Leistung mit beinflussen.Oder ist es auch von der Anordnung dieser Einheiten abhängig ,das dies ebenfalls die Leistung beeniflussen kann?
 
Welche Fehleinschätzung?! Schau auf die obigen Architekturschaubilder, die FPU gehört wie die ALU zum Kern.
 
Lass es doch einfach, mehr als immer wieder das Selbe von dir zu geben kommt ja eh nicht mehr.

Etwas falsches immer wieder zu wiederholen, macht es noch lange nicht richtig;)
Meld dich doch wieder, wenn du deine Aussage mit Fakten untermauern kannst!
 
Zurück