Ryzen 4000 (Vermeer): AMD Zen 3 soll definitiv noch dieses Jahr kommen

fotoman · 18. Juni 2020

latiose88 schrieb:
Und wo wird es denn weniger Mehrleistung haben,bei Games,Bei Anwendungen ohne AVX oder wo denn dann,das keine mindestens 15-20 % sein werden?

Mit Pech wirst Du sogar Anwendungen oder Anwendungsszenarien finden, die langsamer laufen. Und wenn Deine GPU am Anschlag ist oder derzeit gelegentlich bei 90-95% Auslastung, dann nützt Dir eine u.U. schnellere CPU auch nichts, weil die GPU oder sonst irgendeine Komponente im PC die erträumte Mehrleistung bei allen nur denkbaren Anwendungen und Spielen verhindert.

Da sich bei Zen3 gegenüber Zen2 architetonische Änderungen ergeben, muss das dort genauso sein.

Ich hatte Anwendungen, die beim Wechsel vom i7-2600K auf dem i9-9900K langsamer geworden sind. Erst mit der neuesten Version der Software kamen Teile der Benchmark-Mehrleistung dann auch bei dieser Anwendung an.

latiose88 · 18. Juni 2020

Na wenn jeder Chiplet 2x2 hat,sind es 2x2 x 4 also 16 Kerne.Darum auch 4 Chiplets.Erwarte dann mit der Änderung dann 2 Chiplets mit je ccx.
Oder wird es ein 3x3 oder sogar 4x4 CCX haben.
Aber da es ja nun pro Chiplet einen 8 CCX haben wird,wären das ja dann 2 Chiplets in Zukunft.Und damit erwarte ich ja dann mehrleistung ,trotz das der Ryzen 9 3950x sowie auch Ryzen 9 4950x ne volle Auslastung.Damit erwarte ich dann wirklich ne echte Mehrleistung.

DKK007 · 18. Juni 2020

Du schreibst Quatsch. Jeder Chiplet besteht aus zwei CCX a 4 Kernen = 8 Kerne pro Chiplet. Demnächst besteht das Chiplet aus 8 Kernen ohne Unterteilung.

latiose88 · 18. Juni 2020

Das heißt also die Chiplets Menge wird nicht weniger,verstehe.Bei Vollast aller Kerne,ist halt die gute Frage ob dies einen Unterschied macht,ob es 2x 4 CCX oder nur ein CCX aus 8 pro Chiplets sich da was ändern wird.Ich laste ja eh schon alle 16 Kerne voll aus.Ist somit Fraglich ob sich da was verbessern wird.
Der Software scheint die schlechte Latenz beim Ram,sowie auch weniger Bandbreite bei L1 als auch die Latenz wo minal schlechter ist,wohl nix auszumachen.Die Leistung ändert sich nicht.Bei der Festplatte scheint es ebenso keine unterschiede zu machen ob es HDD,Sata SSd oder PCI Express SSD zu sein.

scorplord · 19. Juni 2020

DKK007 schrieb:
Doch den 3300X. Der hat ein volles CCX und das zweite ist deaktiviert.

Ähm habe ich doch geschrieben? Physisch vorhanden sind immer 2 CCX.

Gerry1984 · 19. Juni 2020

scorplord schrieb:
[...]
Momentan gibt es glaube keine CPU der Ryzen Reihe auf der wirklich nur 4 Kerne (1 CCX) verbaut sind. Alle Chiplets die ich kenne bestehen aus 2 CCX und damit 8 Kernen. Sprich es wird der Aufbau eines Chiplets geändert, sodass die Anzahl der Kerne gleich bleibt aber die Anbindungen an Cache und der Kerne untereinander deutlich besser ist mit niedrigeren Latenzen.

Edit: Nicht verwechseln damit das es CPUs gibt welche nur einen aktiven CCX haben. Physisch vorhanden sind trotzdem meines Wissens nach 2 CCX.

scorplord schrieb:
Ähm habe ich doch geschrieben? Physisch vorhanden sind immer 2 CCX.

Es gibt auch Ryzens mit nur einem physisch vorhandenem Vierkern CCX

latiose88 · 21. Juni 2020

fotoman schrieb:
Mit Pech wirst Du sogar Anwendungen oder Anwendungsszenarien finden, die langsamer laufen. Und wenn Deine GPU am Anschlag ist oder derzeit gelegentlich bei 90-95% Auslastung, dann nützt Dir eine u.U. schnellere CPU auch nichts, weil die GPU oder sonst irgendeine Komponente im PC die erträumte Mehrleistung bei allen nur denkbaren Anwendungen und Spielen verhindert.

Da sich bei Zen3 gegenüber Zen2 architetonische Änderungen ergeben, muss das dort genauso sein.

Ich hatte Anwendungen, die beim Wechsel vom i7-2600K auf dem i9-9900K langsamer geworden sind. Erst mit der neuesten Version der Software kamen Teile der Benchmark-Mehrleistung dann auch bei dieser Anwendung an.

Ok verstehe, aber was ich nicht verstehe warum ich trotz das meine Software ja inzwischen 2 Jahre alt ist und die befehlsatz Erweiterungen die mit der Core I der 4000 Serie eingeführt wurden und seid dem sich nix mehr getan hätte bei mir. Das es trotz dessen Dennoch zu Leistungssteigerung geführt hatte. Liegt es alleine nur darum das ich 2 anstatt sonst immer nur eines gleizeitig umwandle, dadurch ne Leistungssteigerung geschaffen hatte oder an was anderem?
Denn ne Leistungssteigerung gab es ja dennoch. Finde dieses Verhalten also äußerst merkwürig.
Wie man man das denn am besten erklären?

fotoman · 21. Juni 2020

latiose88 schrieb:
Liegt es alleine nur darum das ich 2 anstatt sonst immer nur eines gleizeitig umwandle, dadurch ne Leistungssteigerung geschaffen hatte oder an was anderem?

Wenn das so ist, ist entweder der genutzten Algorithmus nicht gut parallelisierbar oder die Entwickler (das projektmanagement) hatten früher keine Lust dazu.

Nicht jeder Algorithmen kann beliebig parallelisiert werden. Das Neuformatieren eines großen Word-Files wird immer nur auf einem Thread laufen können. Bei Handbrake hängt es vom Codec und der Bildgröße ab, ob der bei mir 8+8 Kerne ausnutzen kann oder nicht.

Der Core-i 4xxx ist schon eineges älter wie 2 Jahre. Wenn die Software erst 2 Jahre alt ist, dann kann sie durchaus Befehle nutzen, welche der core-i 4xxx noch nicht kannte und welche erst auf neueren CPUs aktiviert werden.

latiose88 schrieb:
Denn ne Leistungssteigerung gab es ja dennoch. Finde dieses Verhalten also äußerst merkwürig.
Wie man man das denn am besten erklären?

M.M.n. hängt das mit dem geänderten CPU Design zusammen.

Die Zeiten, in denen für jeden CPU-Befehl festgelegt war, wie viele Taktzyklen die Ausführung dieses Befehls benötigt, sind schon lange vorbei. Die Befehle werden intern in Mikrooperationen zerlegt, zum Teil parallel ausgeführt und das auch noch (mehr oder weniger gut) spekulativ. Wenn es also in der Software eine Verzweigung gibt, die in Abhängigkeit eines Rechenergebnissis mal links oder rechts herum läuft, dann werden u.U. beide Wege schon ausgeführt, bevor die Entscheidung für "links" oder "rechts" bekannt ist (so lange die Daten dies zulassen). Ist die Entscheidung bekannt, wird der nutzlos ausgeführt Pfad verworfen.

Das ist u.U. eines der Probleme bei den Spectre/Meltdown Bugs, weil Daten aus Geschwindigkeitsgründen nicht gut genug gegen einander abgeschottet waren/sind.

Und nun kommen die neuen Prozessorgenerationen ins Spiel. Dort wird u.U. die Anzahl der spekulativ bearbeitbaren Mikrooperationen geändert, die Entscheidung, ob die CPU spekulativ etwas ausführen soll, wird optimiert, es werden mehr Ausführungseinheiten für die Mikrooperationen eingeführt usw. Und dann kann manchmal der Hersteller auch noch die Ausführung gewisser Befehle beschleunigen.

Bei Zen2 hat AMD z.B. die Bandreite für Fließkomma-Berechnungen verdoppelt (insb. für AVX256) und auch bei den Interger-Einheiten wurde einiges optimiert:
AMD Zen 2 – Alle Details zu Ryzen 3000 - ComputerBase

Genauso wurde dort an der Sprungvorhersage gearbeitet, womit (hoffentlich) nicht mehr so viele Befehle spekulativ, aber am Ende nutzlos ausgeführt werden müssen und die Ressourcen für andere Dinge bereit stehen.

Da in der Regel nicht nur ein einziger Thread läuft, teilen sich (spätestens bei SMP) die Threads gewisse Ressourcen. Dazu kommen unterschiedliche Cache-Größen und die Hauptspeicheranbindung.

Passt das alles "irgendwie" zusammen, wird die unveränderte Software selbst dann auf einer neuen CPU schneller ausgeführt, wenn sich die Taktfrequenz nicht ändert, theoretisch also gleich viele x86-Befehle pro Sekunden abgearbeitet werden "sollten".

Passt das ganze aber nicht zur (alten) Software, da diese z.B. auf eine festen L1/L2 Cache-Größe optimiert ist, dann kann das auch zur schlechteren Performance führen. War z.B. eine Software für die 64 KB L1-Cache des Zen1 optimiert, so könnten sich dadurch beim Wechsel auf Zen2 mehr Speicherzugriffe ergeben, was wiederum zu weniger Performance führen könnte. Andere Optimierungne von Zen2 mögen das wieder auffangen, womit am Ende exakt diese Software "nur" gleich schnell läuft wie auf Zen1.

latiose88 · 21. Juni 2020

fotoman schrieb:
Wenn das so ist, ist entweder der genutzten Algorithmus nicht gut parallelisierbar oder die Entwickler (das projektmanagement) hatten früher keine Lust dazu.

Nicht jeder Algorithmen kann beliebig parallelisiert werden. Das Neuformatieren eines großen Word-Files wird immer nur auf einem Thread laufen können. Bei Handbrake hängt es vom Codec und der Bildgröße ab, ob der bei mir 8+8 Kerne ausnutzen kann oder nicht.

Der Core-i 4xxx ist schon eineges älter wie 2 Jahre. Wenn die Software erst 2 Jahre alt ist, dann kann sie durchaus Befehle nutzen, welche der core-i 4xxx noch nicht kannte und welche erst auf neueren CPUs aktiviert werden.

M.M.n. hängt das mit dem geänderten CPU Design zusammen.

Die Zeiten, in denen für jeden CPU-Befehl festgelegt war, wie viele Taktzyklen die Ausführung dieses Befehls benötigt, sind schon lange vorbei. Die Befehle werden intern in Mikrooperationen zerlegt, zum Teil parallel ausgeführt und das auch noch (mehr oder weniger gut) spekulativ. Wenn es also in der Software eine Verzweigung gibt, die in Abhängigkeit eines Rechenergebnissis mal links oder rechts herum läuft, dann werden u.U. beide Wege schon ausgeführt, bevor die Entscheidung für "links" oder "rechts" bekannt ist (so lange die Daten dies zulassen). Ist die Entscheidung bekannt, wird der nutzlos ausgeführt Pfad verworfen.

Das ist u.U. eines der Probleme bei den Spectre/Meltdown Bugs, weil Daten aus Geschwindigkeitsgründen nicht gut genug gegen einander abgeschottet waren/sind.

Und nun kommen die neuen Prozessorgenerationen ins Spiel. Dort wird u.U. die Anzahl der spekulativ bearbeitbaren Mikrooperationen geändert, die Entscheidung, ob die CPU spekulativ etwas ausführen soll, wird optimiert, es werden mehr Ausführungseinheiten für die Mikrooperationen eingeführt usw. Und dann kann manchmal der Hersteller auch noch die Ausführung gewisser Befehle beschleunigen.

Bei Zen2 hat AMD z.B. die Bandreite für Fließkomma-Berechnungen verdoppelt (insb. für AVX256) und auch bei den Interger-Einheiten wurde einiges optimiert:
AMD Zen 2 – Alle Details zu Ryzen 3000 - ComputerBase

Genauso wurde dort an der Sprungvorhersage gearbeitet, womit (hoffentlich) nicht mehr so viele Befehle spekulativ, aber am Ende nutzlos ausgeführt werden müssen und die Ressourcen für andere Dinge bereit stehen.

Da in der Regel nicht nur ein einziger Thread läuft, teilen sich (spätestens bei SMP) die Threads gewisse Ressourcen. Dazu kommen unterschiedliche Cache-Größen und die Hauptspeicheranbindung.

Passt das alles "irgendwie" zusammen, wird die unveränderte Software selbst dann auf einer neuen CPU schneller ausgeführt, wenn sich die Taktfrequenz nicht ändert, theoretisch also gleich viele x86-Befehle pro Sekunden abgearbeitet werden "sollten".

Passt das ganze aber nicht zur (alten) Software, da diese z.B. auf eine festen L1/L2 Cache-Größe optimiert ist, dann kann das auch zur schlechteren Performance führen. War z.B. eine Software für die 64 KB L1-Cache des Zen1 optimiert, so könnten sich dadurch beim Wechsel auf Zen2 mehr Speicherzugriffe ergeben, was wiederum zu weniger Performance führen könnte. Andere Optimierungne von Zen2 mögen das wieder auffangen, womit am Ende exakt diese Software "nur" gleich schnell läuft wie auf Zen1.

Also es sind keine neueren Befehlstäze.Nur halt die auf dem Niveu auf der core i 4000 Serie .Was da eingeführt wurde ist der Befehlsatz BMI1 und LZCNT.Alles andere ist ja SSE4 und SSE 4.2 bei mir.Dies wurde ja schon viel früher eingeführt.Das heißt die neuere Version brachte keine neuen Befehlsätze mehr mit,die ich nicht verwende.AVX,AVX 2 ,BMI2 und FMA3 verwende ich nicht.Es brachte mir also keinen Geschwindigkeitsboost.Und dabei ist ja der I9 9980xe ja keine langsame CPU.
Wobei ja AVX bei HD sowie besonders bei Full HD aufnahmen schon was brachte.Allerdings habe ich keines dieser genannten Aufösung sondern nur 720x576er Aufnahmen.Da kommt halt AVX nicht zu Geltung.Es bringt mir also mit etwas glück vielleicht 3 Sekunden schnelleres Umwandeln.Also von 1:56 auf 1:53.
Viel ist das ja nicht.Denn ich weis wie gut AVX sein kann.Ich hatte dabei AVX1 & AVX2 in der Software nen Haken gemacht,damit er es verwenden konnte.
Schluss endlich trotz zwei Aufnahmen gleichzeitig,war der Effekt für mich einfach nicht gegeben.Es war also im Grunde am ende also nichts was der Rede wäre.
Ich habe ne Software die 2 Jahre alt ist,auf dem Stand von 2014 in der Technik,das ist die Tatsache.
Achja Zen 1 bzw die erste Genertation war in der Tat nicht gut gewesen.Da waren die 16 Kerne nicht so viel schneller als ein core i7 mit 10 Kernen gewesen.Scheinbar war diese feste zuordnung der Cache der Software ein dorn im Auge gewesen.
Darum stieg ja als die zweite Generation kam auch die Leistung Massiv an.Das setze die 3 Gerneration in Form der 3000 Serie dann auch fort.
Man könnte also ne Lienie machen,die dann steil nach oben geht.Weshalb dann der Ryzen 9 3950x dann den i9 9980xe dann überholt hatte.Der der zweiten Gernation wurde ja noch als Threadripper 2950x bezeichnet.Dieser war nur auf der Leistung einem i9 7960x gewesen.Also vielleicht noch minimal schlechter aber halt nicht viel vom 7960x entfernt gewesen.
Die erste Generation hieß ja noch Threadripper 1950x.Dieser war ja zwischen einem 10 und 12 Kerner von der Leistung gewesen.Man könnte sagen,das es indirekt als einen 11 Kerner von der Leistung entsprechen hatte.
Woher ich das alles weis,na weil ich die CPUs bei unterschiedlichen Menschen habe testen dürfen.Ich kann also mit 100 % sicherheit sagen,wie die Leistung so ist.Kann man somit auch gut die abhängigkeit der Cache von dem du geschrieben hast auch gut daran es erkennen und hilft das denn zur beurteilung über die Software einem weiter oder nicht?

latiose88 · 25. August 2020

fotoman schrieb:
Mit Pech wirst Du sogar Anwendungen oder Anwendungsszenarien finden, die langsamer laufen. Und wenn Deine GPU am Anschlag ist oder derzeit gelegentlich bei 90-95% Auslastung, dann nützt Dir eine u.U. schnellere CPU auch nichts, weil die GPU oder sonst irgendeine Komponente im PC die erträumte Mehrleistung bei allen nur denkbaren Anwendungen und Spielen verhindert.

Da sich bei Zen3 gegenüber Zen2 architetonische Änderungen ergeben, muss das dort genauso sein.

Ich hatte Anwendungen, die beim Wechsel vom i7-2600K auf dem i9-9900K langsamer geworden sind. Erst mit der neuesten Version der Software kamen Teile der Benchmark-Mehrleistung dann auch bei dieser Anwendung an.

Ok verstehe.Wie sieht es denn aus wenn es bei 10 Kernen mit HT 100 % auslastung hat,bei 18 kernen mit Ht dann nur noch bei 80 % und bei 16 kernen mit smt dann gar bis 90 %.Also heißt es je mehr auslastung desto besser oder? weil ja je mehr davon,desto besser werden alle Kernen ausgenutzt und wenn man die Kerne richtig Optimiert auch mehr Leistung dabei herauskommt.Oder was sagst du denn dazu?

Ryzen 4000 (Vermeer): AMD Zen 3 soll definitiv noch dieses Jahr kommen

fotoman

Volt-Modder(in)

latiose88

BIOS-Overclocker(in)

DKK007

PCGH-Community-Veteran(in)

latiose88

BIOS-Overclocker(in)

scorplord

Software-Overclocker(in)

Gerry1984

Software-Overclocker(in)

latiose88

BIOS-Overclocker(in)

fotoman

Volt-Modder(in)

latiose88

BIOS-Overclocker(in)

latiose88

BIOS-Overclocker(in)

Ähnliche Themen