Ryzen 4000: ES mit 4,6 GHz Boost?

Was sind denn die anderen Faktoren? Und wenn nun der Takt gleich bleiben würde,was würde dann soviel verändern müssen damit man wirklich 15 % mehrleistung erreicht.Ich habe ja was von CPU Cache und die Anbindung beim Ram und auch deren Latenz gelesen die die IPC ebenfalls beeinflussen kann.Wenn man also einen Ram mit guter Latenz also sprich guter Timings erwischt,dann müsste das ja die CPU Leistung ebenfalls mit beeinflussen auch wenn nicht viel Ram genutzt wird.In Meinem Fall braucht die Software also sprich eine davon 380 MB Maximal.Bei zwei wären es ja 760 MB an Ram was die CPU davon braucht.Da kann ja die Timings ebenfalls Massiv das ganze beeinflussen.Inwiefern tirfft das denn das ganze zu?

Prinzipiell gibt es neben der IPC nur noch einen Faktor: Den Takt. Beides mit einander multipliziert ergibt die Absolutleistung beziehungsweise letztlich ist die IPC nichts weiter als ein abgeleiteter Faktor, Absolutleistung durch Takt. Allerdings gibt es außerhalb der eigentlichen Rechenleistung der Kerne viele Faktoren (L2- und L3-Cache-Größe und -Latenz, Speichergeschwindigkeit und -Latenz, Latenz der Kern-Kern-Kommunikation sowie Befehlssätze wären die in den letzten Jahren wichtigsten Punkte), die die Leistung (und damit IPC) je nach Anwendung unterschiedlich beeinflussen. Um 15 Prozent mehr Spieleleistung zu erreichen, sind also möglicherweise andere Maßnahmen nötig, als um "15 Prozent mehr IPC" in einem Computer-Benchmark zu verzeichnen. Insbesondere Speicher- und Rechengeschwindigkeit stehen für unterschiedliche Anwendungen in einem komplett unterschiedlichen Verhältnis zueinander.


Die IPC ist unabhängig vom RAM oder dem Takt. Die Angabe steht für "Wie viele Berechnungen können pro einen Zyklus durchgeführt werden?".

Nein. Die reine Laufzeit der Befehle ergibt nicht die IPC. Letztere wird für gewöhnlich über die Praxisleistung in der jeweiligen Anwendung ermittelt und umfasst dann auch etwaige Flaschenhälse (oder deren Fehlen) im Speichersystem.

Ryzen 4000 wird der Werbung nach 8 Kerne in einer CCX unterbringen, das würde die Speicherlatenz verringen. Die Daten müssen aber immer noch durch den IF-Chip zuerst gehen, wird immer noch langsamer als Intel in der Hinsicht sein. Picasso zeigt, was geht, wenn man den IF-Chip weglässt. Um dennoch krass vorbeiziehen zu können, benötigt Ryzen die 5GHz+ Marke beim Takt. Alles darunter ist Werbetrommelblabla.

Die Zusammenlegung der CCX sollte die RAM-Latenzen nicht beeinflussen und die L3-Latenz dürfte sogar steigen. Bei dieser Maßnahme wird vor allem die Latenz zwischen den Kernen reduziert, was aber auch bitter nötig ist. Zwischen CCX liegen die Zugriffszeiten bislang beim Vierfachen des Comet-Lake-Worst-Case.


also das mit dem Thema level 3 Cache,nicht immer springt es drauf an.2990wx hat nur 64 MB Level 3 Cache und 3970x hat 128 MB Level 3 Cache.Und dennoch trennt von den beiden CPUs nur 5 & 3 Sekunden.Das ist ja nicht viel.Und da ja zischen den beiden sich nur 100 mhz Takt Unterschied trennt,macht dies ja am meisten was aus.Der rest wird wohl was anderes ausgelöst sein oder die Anwendung leidet an Schwankungen,weil bei mehreren Durchläufen es nicht jedes mal die 100 %tig genau gleiches Ergebnis erzeugt wird.Da es ja 2 Videos gleichzeitig umgewandelt werden,sind somit Schwankungen nicht auszuschließen.Ich frage mich warum es nicht jedes Mal das selbe Ergebnis ausspuckt.
Man kann ja wirklich 1-2 Sekunden als Schwankungen sehen nicht war?

Dann wird es am ende wohl halt auf dem Takt hinauslaufen.Denn sobald ich bei jemanden getestet hatte den Ryzen 3950x bei 4,3 anstatt 4 ghz,dann rückte dieser dem Threadripper 3960 sehr nah auf der Pelle. Ich habe somit die Grenze herausgefunden.Genau darum habe ich ja soviele Unterschiedliche CPUS getestet gehabt.Ich selbst besitze diese allerdings nicht. Und ich habe auch HT bei den Threadripper 2970x,2990wx,3960x und 3970x alle samt ohne getestet.
Man kann also sagen das duell ist 32 echte gegen 16 echte mit 16 Virtuelle.Ich wusste ja nicht das inzwischen SMT so gut Optimiert wurde,das es fast zu einem gleichstand gekommen ist.Und ja du hast völlig recht,hier macht es sich bemerkbar.Als bei diesen Monster CPU smt an gewesen war,wurden alle Kerne ausgebremst.Da war wohl der Aufwand größer als der Nutzen.

SMT ist heute nicht so viel besser als zu Pentium-4-Zeiten. Aber der Nutzen hing und hängt immer davon ab, wie gut ein CPU-Kern durch einen einzelnen Thread ausgelastet wird und wie viele dieser Threads auf wie viele physische CPU-Kerne treffen. Praxisanwendungen, die mehr als 16 Kerne sinnvoll nutzen können, kann man meist an einer Hand abzählen. Oft genug auch an keiner Hand, weil es sie im Endverbrauchersegment kaum gibt. Vereinzelte Effekte, dass man wenige Prozent Performance gewinnt, wenn ein 17ter Thread nicht warten muss, lassen sich dann auch oft erzielen, wenn dieser mittels SMT mal schnell nebenbei berechnet wird. In den letzten Jahren wurde dieser Effekt in Spielen aber meist schon zwischen 8 und 16 Threads beobachtet. Ein Sechskerner mit SMT lieferte nicht selten bessere Ergebnisse als ein Achtkerner ohne, weil so viele leistungsfordernde, unabhängige Aufgaben einfach nicht zur Bearbeitung anstanden. Und ab 12 Kernen kann es weiterhin vorkommen, dass eine Deaktivierung von SMT das System in Spielen beschleunigt, weil der zusätzliche Verwaltungsaufwand für 24 logische Kerne mehr Rechenzeit kostet als durch SMT zusätzlich genutzt wird.

Ähnlich ambivalent ist Cache: Bis zu einer gewissen Größe kann es die Rechenleistung beinahe linear steigen, wenn Programmteile nicht mehr aus dem langsamen RAM nachgeladen werden müssen. Aber wenn bereits der gesamte Programmcode in den Cache passt und nur noch die einmalig zu bearbeitenden Daten geladen werden, dann bringt zusätzlicher Cache praktisch gar nichts mehr. Über mehrere Anwendungen und Szenarien hinweg, bei denen die Grenze jeweils anders liegt, ergibt sich dann ein abnehmender Grenzertrag. Zen2 ist hier sicherlich schon sehr extrem unterwegs, nutzt den Cache aber auch zum Ausgleich der langsamen Kern-zu-Kern-Kommunikation.
 
OK woran merkt man denn das alles im Cache gelandet ist, ich habe zwei Anwendungen gestartet und jeder dieser einen RAM Verbrauch von 300 MB. Also sprich zusammen nur 600 MB RAM Verbrauch.

Und ich weiß das ram Bandbreite bei mir 68 GB /s sind. Habe sogar auf 2000 gesammt takt gestellt ( 1000 im BIOS eingestellt). Selbst da gab es keinen unterschied.
Das einzige was mein Ergebnis schlecht beeinflusst hatte war das BIOS update, das wo dann bei meinem Betriebssystem neue Treiber installiert hatte. Seid dem ist das Ergebnis schlechter geworden. Kann also sein das das die sicherheitslöcher gestopft wurden.
 
Welche Cache-Größe sinnvoll ist, muss jeweils für die Anwendung einzeln ermittelt werden. Der RAM-Bedarf hat damit gar nichts zu tun, das sind größtenteils zu verarbeitende Daten und nicht der für die Bearbeitung nötige Code. Aber selbst eine .exe kann in weiten Teilen aus nie aufgerufenen und damit auch nicht zu cachenden Routinen bestehen.
 
Die Zusammenlegung der CCX sollte die RAM-Latenzen nicht beeinflussen und die L3-Latenz dürfte sogar steigen. Bei dieser Maßnahme wird vor allem die Latenz zwischen den Kernen reduziert, was aber auch bitter nötig ist. Zwischen CCX liegen die Zugriffszeiten bislang beim Vierfachen des Comet-Lake-Worst-Case.

Tatsächlich konnte ich bei einem "runterkonfigurierten" 3950X auf Game Mode und 2-2 CCX eine signifikante Reduzierung der RAM-Latenzen beobachten, als würde das teilweise Abschalten von "Grundrauschen" die Links entlasten. Genaues weiß ich leider auch nicht.

Auf Twitter wird seit ein paar Tagen intensiv darüber diskutiert, ob das sein kann mit den hohen Latenzen, welche das Tool des Anandtech Redakteurs ausgibt. Zumindest die zusätzlichen Hops durch die Inter-CCX-Kommunikation sind umstritten, denn der cIOD weist im Gegensatz zum sIOD (Rome) nur einen Switch auf, über den beide Chiplets angebunden sind. Andere wie auch ich wundern sich darüber, wie diese hohen Werte zustande kommen.
 
Zuletzt bearbeitet von einem Moderator:
Ah ich verstehe.Das Programm lädt also immer zuerst alles in den Ram.ALso z.b ein VIdeoumwandlungs Prgramm lädt alle COdec also alle EInstell möglichkeiten in den Ram,unabhängig ob es gebraucht wird oder nicht.Das heißt es sind somit aufgebläte 300 MB.
DIe richtige gebrauchte Größe wird wohl weit niedriger sein.Das erklärt auch warum der Ramverbrauch immer wieder nach unten schwankt.Die 300 mb sind ja nur ein kurzer verbrauch.Ich tat mir sehr schwer den realen Ramverbauch auzulesen.
Das Problem ist halt das alles nur in kb stand.Allerdings sind ja 300 000 kb ja für mich 300 MB.
Es wird also wohl schwierig sein,die Anwendung zu ermitteln.Ich weis ja nicht mal wo ich anfangen kann.
Und nun weis ich das der Ram unabhängig ist.Dachte der würde für ne CPU Relevant sein,nun ist mir klar,das es nicht so ist.
Auch tests haben gezeigt das zwischen DDR3 und DDR4 kaum ein Unterschied bestanden hat.
Ich bin völlig überrascht,denn ich habe mir immer was großes bei den Sprüngen mir vorgestellt gehabt.Nun bin ich entäuscht.Ich bin auf einer Illusion hereingefallen.
VIel hilft halt nicht immer viel.
Und ich habe herausgefunden das diese Anwendung null Bandbreiten abhängig ist.Das heißt es spielt keine Rolle ob viel oder wenig,es führt also mehr Durchsatz nicht zu mehr Leistung.
Ich weis also nicht was ich da dann noch testen kann um den rest herauszufinden.Denn ich habe noch keine Möglichkeit zu gefunden wie ich herausfinden kann,ob noch alles im Cache ist oder schon ausgelagert wird.
 
@latiose88: Unnötige Codecs sollten nicht geladen werden, wenn das Programm halbwegs intelligent ist*. Aber um das Video zu codieren müssen beispielsweise das Video selbst und der gewünschte Codec geladen weren. Beides belegt Platz im RAM, aber nur der Codec wird die gesamte Codierungszeit über benötigt und wäre eine lohnendes Cache-Objekt. Einzelne Abschnitte des Videos dagegen werden einmal geladen, fertig bearbeitet und dann nie wieder angerührt. Da ein Cache sowieso erst bei wiederholtem Laden wirkt, wäre es sinnlos, Teile des Videos zu Cachen. Dieses macht aber den Großteil des RAM-Verbrauchs aus, weswegen letzterer nichts über den Cache-Bedarf aussagt. [stark vereinfachte Darstelung]

*: Mein Beispiel mit dem nicht benötigten Programmcode bezog sich nicht auf Hilfsassests wie zum Beispiel Codecs, sondern interne Routinen. Beispielsweise enthält eine Anwendung oft diverse Sicherheitsabfragen, um mit Fehlern umgehen zu können. Jedesmal, wenn dir ein Programm eine Fehlermeldung anzeigt, anstatt einfach abzustürzen, hat es dafür einen Programmteil benutzt, der im fehlerfreien Betrieb nie benötigt wird und somit auch nicht in den Cache passen muss. Oder eine Spiele-Engine beinhaltet eine aufwendige Wasser- und Fahrphysik, aber kein einziges Level in dem es ein Auto und ein Boot gibt. Also muss nie beides gleichzeitig gecached werden, aber natürlich wird die ganze Engine erstmal in den RAM geladen – da weiß ja noch niemand, um welches Level es gehen wird.


Tatsächlich konnte ich bei einem "runterkonfigurierten" 3950X auf Game Mode und 2-2 CCX eine signifikante Reduzierung der RAM-Latenzen beobachten, als würde das teilweise Abschalten von "Grundrauschen" die Links entlasten. Genaues weiß ich leider auch nicht.

Auf Twitter wird seit ein paar Tagen intensiv darüber diskutiert, ob das sein kann mit den hohen Latenzen, welche das Tool des Anandtech Redakteurs ausgibt. Zumindest die zusätzlichen Hops durch die Inter-CCX-Kommunikation sind umstritten, denn der cIOD weist im Gegensatz zum sIOD (Rome) nur einen Switch auf, über den beide Chiplets angebunden sind. Andere wie auch ich wundern sich darüber, wie diese hohen Werte zustande kommen.



Für gewöhnlich ist Ian bei solchen Dingen recht zuverlässig, aber ich habe noch keine derartigen Test von ihm für einen Matisse mit zwei CCDs gesehen. Hast du einen Link? Die von mir genannten 3300er Werte sind Vergleiche nur innerhalb eines CCX gegenüber zwei CCX in einem CCD.

Zu deinen eigenen Tests: Das war dann 4+4+0+0 gegen 2+2+2+2? Würde mich interessieren, in welchem Szenario gemessen wurde. Bei intensivem Datenaustausch zwischen den CCX könnte ich mir ebenfalls Limitierungen vorstellen. Aber man muss prüfen ob das 1:1 auf Spiele übertragbar ist, für die die Latenz der Kern-Kern-Kommunikation oft wichtiger als die Transferrate ist.
 
Zuletzt bearbeitet:
Ja gut,habe ich ja auch geschrieben gehabt.Im Umkehrschkuss heißt es ja je weniger Ramverbrauch ich habe ,desto besser passt es ja im Cache die ganzen aufgaben rein.
Und mir ist schon klar das auch wenn es z.b 300 mb anzeigt,nicht 300 mb pro sekunde berechnet werden.
Ich weis das alle Cache der CPU wichtig sind.Auch das L3 Cache langsamer als L1 und L2 Cache.
Ich habe mal den core i9 9980xe mit dem Ryzen 9 3950x verglichen. L1 und L2 Cache ist weniger,dafür halt der L3 Cache größer.
Ich denke mal das wird wohl das ausschlagebende sein. Ich habe allerdigns gedacht das L1 Cache für Anwendung eher das wichtigste ist als so ein L3 Cache.
Ich habe auch niergendswo was gefunden,was für ein Cache meine Anwendung denn am meisten bevorzugt.Ist halt nicht ganz so einfach.Ich versuche das ganze zu verstehen,aber ist leichter gesagt als getan.
 
So wie ich ihn verstanden hatte, war es beim Zweiten eine 2+2+0+0 Konfiguration.

Nach 2+0+2+0 hatte ich ihn auch schon mal gefragt, weil mich interessiert hatte, wie stark die Latenzen zwischen den CCD anstiegen, aber das geht wohl mit dem Board von gaussmath nicht.


Der Thread ab hier:
https://extreme.pcgameshardware.de/...echnik-mit-kernschwaeche-18.html#post10317461
Da ist auch ein Spielbenchmark dabei.

Hätte ich zu gerne getestet, aber mein X470 Taichi stellt leider keine 4-0 Config zur Verfügung.
Was noch interessant wäre, wenn du bei der 2-2 Konfiguration der 3950X mal noch zwei verschiedene CCD nehmen würdest.
Dann könnte man mal sehen, wie viel Leistung das noch kostet. Dehland am Besten im Vergleich zu den bisherigen Benches darstellen.
Man kann nur CCD1, also das zweite abschalten.
 
Zuletzt bearbeitet:
Hast du einen Link?

Schittebön.

Zu deinen eigenen Tests: Das war dann 4+4+0+0 gegen 2+2+2+2? Würde mich interessieren, in welchem Szenario gemessen wurde. Bei intensivem Datenaustausch zwischen den CCX könnte ich mir ebenfalls Limitierungen vorstellen. Aber man muss prüfen ob das 1:1 auf Spiele übertragbar ist, für die die Latenz der Kern-Kern-Kommunikation oft wichtiger als die Transferrate ist.

Der Test war 4+4+4+4 vs. 0+0+2+2. Aber ich habe gerade nochmal nachgeschaut. Signifikant war ein wenig überzogen, es sind so 2-3%.
 
@latiose88: Unnötige Codecs sollten nicht geladen werden, wenn das Programm halbwegs intelligent ist*. Aber um das Video zu codieren müssen beispielsweise das Video selbst und der gewünschte Codec geladen weren. Beides belegt Platz im RAM, aber nur der Codec wird die gesamte Codierungszeit über benötigt und wäre eine lohnendes Cache-Objekt. Einzelne Abschnitte des Videos dagegen werden einmal geladen, fertig bearbeitet und dann nie wieder angerührt. Da ein Cache sowieso erst bei wiederholtem Laden wirkt, wäre es sinnlos, Teile des Videos zu Cachen. Dieses macht aber den Großteil des RAM-Verbrauchs aus, weswegen letzterer nichts über den Cache-Bedarf aussagt. [stark vereinfachte Darstelung]

*: Mein Beispiel mit dem nicht benötigten Programmcode bezog sich nicht auf Hilfsassests wie zum Beispiel Codecs, sondern interne Routinen. Beispielsweise enthält eine Anwendung oft diverse Sicherheitsabfragen, um mit Fehlern umgehen zu können. Jedesmal, wenn dir ein Programm eine Fehlermeldung anzeigt, anstatt einfach abzustürzen, hat es dafür einen Programmteil benutzt, der im fehlerfreien Betrieb nie benötigt wird und somit auch nicht in den Cache passen muss. Oder eine Spiele-Engine beinhaltet eine aufwendige Wasser- und Fahrphysik, aber kein einziges Level in dem es ein Auto und ein Boot gibt. Also muss nie beides gleichzeitig gecached werden, aber natürlich wird die ganze Engine erstmal in den RAM geladen – da weiß ja noch niemand, um welches Level es gehen wird.

Ah ich verstehe das erklärt auch warum am anfang mehr Ram verbraucht wird und dann der Verbrauch sinkt.
Was ich allerdings nicht verstehe ,ich weis nicht was du mit das der Cache erst mit wiederholten Laden auswirkungen hat.
Meinst du damit das das erneute Umwandeln dann erst es in dem Cache der CPU landet oder beim Wiedergeben des Videos.
Also sprich wenn ich gleich nach dem hochfahren des Pcs,anfange Umwandeln ,sich die Daten dann ja noch nicht im Cache befinden.Und dann erst nach dem es das zweite mal Umwandeln erst in den CPU Cache landet.Oder ist auch schon beim ersten Umwandeln die Daten im Cache landen.
Wäre halt interessant.
Also ich weis das ich beim erneuten Umwandeln kurz mal schneller beim Umwandeln gewesen war.Ich weis nicht wie das denn sein kann,wäre halt interessant wie das denn sein kann.
 
Die Daten befinden sich schon nach dem ersten Laden im Cache. Allerdings nützt das erst beim wiederholten Zugriff.
Einfach mal durchlesen, wie ein Cache funktioniert. Was ist Cache-Speicher? - Definition von WhatIs.com

Achso verstehe.Also den Vorteil habe ich wohl erst wenn ich mehrere Videos hinter einander Umwandle.Bzw wenn ich 2 GLeichzeitig mehrere davon nebenher umwandle.Dann hätte ich also den Vorteil.Das erklärt auch warum ein einmaliges Testen nichts bringt.Darum werden ja auch mehrere VIdeos gleichzeitig beim Umwandeln ja auch schneller.Das habe ich echt nicht beachtet.Das heißt ein Test von 2 Videos gleichzeitig nur 1 malig zu machen sagt garnix aus über die Tatsächliche Leistung.Gut zu wissen danke.
 
Bei Videos wird dir der Cache auch nichts bringen, da die einfach viel zu groß sind.

Da ist eher die Frage, ob die im ganzen in den RAM passen.
 
Ja tuen sie.Sind 400 - 600 MB im ganzen groß.Warum allerdings nicht 600 mb Ramverbrauch im ganzen verschlingt das verstehe ich nicht.Sollten ja dann wenigstens 1200 Mb so ungefahr im ganzen sein.Allerdings ist das ja leider nicht der Fall.
Hm ich Profitiere also nicht mal vom Cache.Neben kein Profitieren von hoher Bandbreite beim Ram,kein hoher Ramverbrauch und auch nicht von der sehr schnellen Festplatte.Von neuen Instruktionen scheine ich ebenfalls nicht zu Profierten.Viel bleibt ja dann am ende nicht mehr übrig.
Und da ja auch die Chiplets auch keine große Wirkung haben.Mir fallen kaum noch Punkte ein da wo ich davon Profitieren würde.
Noch weniger geht ja fast garnicht mehr.Man kann also nicht unendlich optimieren,nicht in allen Anwendungen.
Bin also gespannt was für Vorteile ich dann am ende vom 4950x im vergleich zum 3950x dann am ende habe.Im zweifel kann ich mich ja noch immer für den 3950x entscheiden.Ist halt letzes ende halt abhängig wieviel dann mehrleistung der 4950x am ende wohl hat.Wenn nun dieser allerdings die selbe Allcore Takt hat,dann fällt die mehrleistung ja immer kleiner aus,was ich ja dann schade finde.Oder sind meine Erwarung wirklich darin zu hoch?
Ich erwarte halt trotz dieser einschränkung ,dennoch unabhängig davon 10-15 %.Erhoffe mir also das bis auf das was ich nicht Profitiere ,das AMD da noch was anderes Optimiert,so das auch ich von der Optimierung profitieren kann.Sonst brauche ich mir da ja keine Mühe zu machen.Werde also sowieso wohl erst mal einen finden müssen der für mich diese CPU dann auf mein Einsatzzweck testen wird.
Da ja eh die meisten auf nen 4950x warten werden,werde ich da gewiss mehr als genügend Menschen finden,die da was für mich testen werden.Blind zu kaufen in der hoffnung das dieser wirklich mindestens 10 % mehrleistung ggenüber dem 3950x hat,wäre halt Geldverschwendung.
Will also wirklich diese Mehrleistung mitnehmen.Mache also nur das was nötig ist.
Auf jedenfall noch niedriger kann ich meine Einstellungen halt eben nicht runter stellen,da ist halt irgendwann Schluss.
 
Mit was schaust du nach dem RAM-Verbrauch?
Schau mal mit dem Prozess-Explorer, was die Spalten "Private Bytes" und "Working Set" sagen.
Process Explorer - Windows Sysinternals | Microsoft Docs

Ich habe bisher den Taksmanager und zuletzt den Resourchenmonitor von Windows verwendet.Der hat mir für jede Anwendung jeweils den Ramverbrauch ausgespuckt.Aber wenn das Tool Prozess-Explorer genauer ist,dann werde ich das halt in Zukunft verwenden.Oder ist Windows da etwa genau oder etwas sehr ungenau bei den momentanen Verbrauch des Rams?
 
Zurück