Intel Rocket Lake-S: Achtkerner mit 12 Threads macht die Runde

Ripcord · 10. Juli 2020

Pu244 schrieb:
Da kennt wohl jemand nicht den i7 9700K...

Dem ärmsten wurde HT gleich ganz gestrichen.

Mein letzter Intel war ein 2500k. Damals war der i7 das Beste und OC war mit fast jedem Chipsatz möglich. Aber das war einmal.

PCGH_Torsten · 10. Juli 2020

gerX7a schrieb:
Beispeilsweise in
Intel Rocket Lake-S 8-Core 11th Gen Desktop CPU Leaked With 1.15GHz Gen12 Xe GPU | HotHardware
werden auch die Caches mit ausgewiesen. Unter der Annahme, dass das tatsächlich ausgelesen ist, würde das nicht Willow Cove entsprechen, der derzeit mit 1,25 MiB L2 pro Kern gehandelt wird. Die 512 KiB sprechen eher für Sunny Cove. Wie wahrscheinlich ein Hybrid zwischen den beiden Architekturen ist, kann ich nicht abschätzen. Ob sich Intel die Arbeit für ein "Einmalprodukt" machen will, hängt davon ab, wie nötig sie es haben.

Wie gesagt: Leaks zu den technischen Hintergründen machen eine Aussage und das mit einer für Leaks eher seltenen Konsistenz quer über alle Quellen und Zeiträume. Die Hand voll Datenbankeinträge, die es gibt, scheint dazu im Widerspruch zu stehen, aber das ist ein Vergleich mit vielen Annahmen:
- Lesen die Tools richtig (oder überhaupt) aus?
- Sind die ES im Cache-Bereich unbeschnitten?
- Bringt Willow Cove einen derartigen Cache-Zuwachs (über alle Klassen)?

Ich warte ab, was sich ergibt, und lege mich erst einmal nicht fest.

gerX7a · 10. Juli 2020

PCGH_Torsten schrieb:
[...]Ich warte ab, was sich ergibt, und lege mich erst einmal nicht fest.

Das sowieso. Selbst wenn das versuchte Ableitungen und nicht nur simples Gerate oder Wunschdenken ist; zu einem Fakt wird es dadurch dennoch nicht. ;-)

latiose88 schrieb:
Stimmt ich habe mich wirklich verhaut.Die alternative [...]

Die Kernzahl bei meinem Vergleich waren übrigens irrelevant, da ging es nur um IPC (und somit noch bestenfalls um den SC-Boost-Takt). ;-)

AMD wird den 16-Kerner, nachdem sie ihn nun etabliert haben, sicherlich nicht begraben, d. h. man darf sicherlich einen 4950X erwarten *), der wohl auch zwischen grob geschätzt 10 - 25 % mehr Leistung bieten dürfte als der aktuelle Zen2.
Einen TR 3970X wird dieser aber zweifelsfrei nicht schlagen, hier vertust du dich voraussichtlich, denn das ist ein 32-Kerner. Vielleicht meinstest du den 3960X (24 C)?
Und dazu sei angemerkt, dass die Zen+-basierten TRs mit 24 und 32 Kernen zum Teil mit ihrer unvorteilhaften I/O-Anbindung zu kämpfen hatten, was je nach Anwendung viel Leistung kostete, d. h. der Wechsel auf einen gleichkernigen Zen2 brachte hier natürlich einen signifikanten Zugewinn, da zudem auch diese Defizite ausgeglichen wurden. Von Zen2 auf Zen3 dagegen wird es keine Überraschungen geben, etwas IPC (wozu auch die CCX-Reorganisation beiträgt) und ein wenig mehr Takt. Entsprechend wird ein 4950X auch keinen 3970X schlagen können.

Bezüglich Zen3 und TR könnte es jedoch sein, dass du dich noch ein wenig gedulden musst. Wenn aktualisierte Workstations von Lenovo mit 8 Speicherkanälen unmittelbar bevorstehen, deutet das eher darauf hin, dass diese noch Zen2-basiert sein werden, wofür auch die Bezeichnung 3995WX spricht. Dass AMD dann unmittelbar zum Zen3-Launch auch direkt einen aktualisierten Threadripper anbieten wird, ist eher nicht wahrscheinlich.

*) Mehr als 16 Kerne wird es auf der AM4-Plattform mit Zen3 jedoch anzunehmenderweise nicht geben. Bereits der 16-Kerner ist auf der Plattform schon ein reines Nischenprodukt und mit noch mehr Kernen wird es auch versorgungstechnisch problematisch.

DKK007 · 10. Juli 2020

TR deckt einen anderen Bereich ab, als Ryzen.

Und gerade dem 3995WX mit 2 TiB im Octachannel macht im Multicore kein Ryzen 4000 Konkurrenz.

rum · 10. Juli 2020

Wirkt auf mich sehr komisch; daher glaube ich aktuell (noch) nicht an sowas wie 8 Kerne aber nur auf 4 Kernen HT
:huh:

Olstyle · 10. Juli 2020

Spannend fände ich eine Architektur welche 4HT Threads auf 8 Kernen frei verteilen kann. Also quasi die Extraarbeit immer da einschiebt wo es am günstigsten scheint.
So dürften dann die Fälle wo HT an eher Nachteilig ist deutlich weniger werden. Aber ob das technisch geht :ka:

?

DKK007 · 10. Juli 2020

Wenn die Software nicht auf Multi-Thread ausgelegt ist, kann die eh nicht auf mehrere Kerne verteilt werden.

DARPA · 10. Juli 2020

Pu244 schrieb:
Da kennt wohl jemand nicht den i7 9700K...

Dem ärmsten wurde HT gleich ganz gestrichen.

Beste CPU für MSI und Asus Z270 Boards, dessen Bios auf 8 Threads begrenzt sind

Infi1337 · 10. Juli 2020

Die Threadlimitierungen waren eh immer schon Sache des Betriebssystems und der Treiber, nicht der Software per se :ugly:

.

Olstyle · 10. Juli 2020

Schon mal SW geschrieben? Wenn du nichts extra für die Parallelisierung tust hast du am Ende genau einen Thread.

latiose88 · 10. Juli 2020

gerX7a schrieb:
Das sowieso. Selbst wenn das versuchte Ableitungen und nicht nur simples Gerate oder Wunschdenken ist; zu einem Fakt wird es dadurch dennoch nicht.

Die Kernzahl bei meinem Vergleich waren übrigens irrelevant, da ging es nur um IPC (und somit noch bestenfalls um den SC-Boost-Takt).

AMD wird den 16-Kerner, nachdem sie ihn nun etabliert haben, sicherlich nicht begraben, d. h. man darf sicherlich einen 4950X erwarten *), der wohl auch zwischen grob geschätzt 10 - 25 % mehr Leistung bieten dürfte als der aktuelle Zen2.
Einen TR 3970X wird dieser aber zweifelsfrei nicht schlagen, hier vertust du dich voraussichtlich, denn das ist ein 32-Kerner. Vielleicht meinstest du den 3960X (24 C)?
Und dazu sei angemerkt, dass die Zen+-basierten TRs mit 24 und 32 Kernen zum Teil mit ihrer unvorteilhaften I/O-Anbindung zu kämpfen hatten, was je nach Anwendung viel Leistung kostete, d. h. der Wechsel auf einen gleichkernigen Zen2 brachte hier natürlich einen signifikanten Zugewinn, da zudem auch diese Defizite ausgeglichen wurden. Von Zen2 auf Zen3 dagegen wird es keine Überraschungen geben, etwas IPC (wozu auch die CCX-Reorganisation beiträgt) und ein wenig mehr Takt. Entsprechend wird ein 4950X auch keinen 3970X schlagen können.

Bezüglich Zen3 und TR könnte es jedoch sein, dass du dich noch ein wenig gedulden musst. Wenn aktualisierte Workstations von Lenovo mit 8 Speicherkanälen unmittelbar bevorstehen, deutet das eher darauf hin, dass diese noch Zen2-basiert sein werden, wofür auch die Bezeichnung 3995WX spricht. Dass AMD dann unmittelbar zum Zen3-Launch auch direkt einen aktualisierten Threadripper anbieten wird, ist eher nicht wahrscheinlich.

*) Mehr als 16 Kerne wird es auf der AM4-Plattform mit Zen3 jedoch anzunehmenderweise nicht geben. Bereits der 16-Kerner ist auf der Plattform schon ein reines Nischenprodukt und mit noch mehr Kernen wird es auch versorgungstechnisch problematisch.

Nun nein ich meinte wirklich den Threadripper 3970x und nicht den 3960x.Mir ist schon bewusst das es nicht mehr als 16 Kerne geben wird.Das habe ich ja auch nicht erwartet.
Ich zeige dir nun mal ne Liste was ich damit meinte:

AMD treadripper 1950x ohne Übertaktung 3:30 & 3:30
Intel xenon e5 2699v4 mit ht 2,8 ghz 3:15 & 3:16
Intel i7 6950x auf 4 ghz
3:00 & 3:00
Intel xenon e5 2699v4 ohne ht, bei 22 kernen nur
2:40 & 2:40
AMD ryzen 2920x @ 4,1 ghz
2:34 & 2:34
Intel core i9 7920x im durschnitt 4,4 ghz also aus alles Kernen gezogen
2:30 & 2:30
AMD threadripper 2970 mit ht Standard takt 2:30 & 2:25
AMD 2950x @ 4 ghz
2:20 & 2:21
AMD 3900x @ 3,8 ghz
2:07 & 2:02
Intel core i9 7960x @ 4,6 ghz
2:00 & 1:58
AMD threadripper 2970wx ohne smt & ohne oc
1:58 & 1:57
AMD treadripper 2990wx @ 3,9 ghz mit smt
1:57 & 1:52
Intel core i9 9980xe mit standard 3,8 ghz
1:55 & 1:57
Intel core i9 9980xe @ 4,1 GHz
1:49 & 1:50
Intel Core i9 9980xe @ 4,5 ghz
1:42 & 1:43

Amd 3950x mit 4,1 GHz
1:42 & 1:42
AMD Threadripper 3960x @ 4,1 ghz mit SMT
1:35 & 1:33
AMD Threadripper 3960x @ 4,1 ghz ohne SMT
1:34 & 1:23
AMD treadripper 2990wx @ 3,9 GHz ohne smt
1:28 & 1:28
Threadripper 3970x @ 3,7 ghz - 4 GHz schwankend mit ht 1:26 & 1:26
Threadripper 3970x @ 3,7 GHz - 4 GHz schwankend ohne smt 1:25 & 1:23

Wie man das hier am besten sieht,weit weg ist der 3950x zum 3970x ja nicht weg.Alles in Minuten.Man sieht auch ganz gut zwischen der 2000 und 3000 Threadripper wie wenig leistungsunterschied es sind.

Und im grunde hast du ja recht.SMT sind keine psikalen Kerne und können daher nie so gut sein wie die echten Kerne.Wenn man das ergebnis vom 3970x so nimmt dann sind das 1 & 3 Sekunden schlechtere Ergebnisse.Dann noch die Frage wieviel IPC Leistung das wirklich in der Rohleistung ausmacht und ob man einfach 15 % mehrleistung drauf rechnet oder die Differenz von 3950x zu 3970x einfach nimmt und da auf dieser Grundlage 15 % ausrechnet.Wenn man 15 % drauf rechnet,würde der 4950x schneller als 3970x sein.Das wäre aber merkwürdig.Wenn man die Differenz da drauf die 15 % ausrechnet,dann wäre die IPC mehrleistung verdammt wenig.Wie man auf dieser Grundlage die Leistung rechnet,ist halt ne andere Frage.

latiose88 · 10. Juli 2020

Infi1337 schrieb:
Die Threadlimitierungen waren eh immer schon Sache des Betriebssystems und der Treiber, nicht der Software per se .

Ist das echt so.Heißt das wenn das Betriebsystem neue Betriebystem die Leistung reduziert ,dann nur noch die Treiber die Leistung beeinflussen.Wenn die Treiber also veraltet sind,das dann die CPU etwas an Leistung ausgebremst wird?

Siriuz · 10. Juli 2020

Noch kein Benchnmar oder ähnliches und schon wird wieder gemeckert

Wahnsinn!

gerX7a · 10. Juli 2020

latiose88 schrieb:
Nun nein ich meinte wirklich den Threadripper 3970x [...]

Ich weiß nicht, was genau ich da in der Liste sehe, ich vermute mal es geht um Videoencoding mittels x264?

Hierbei ist grundsätzlich zu beachten, dass nur wenig Software quasi unbeschränkt parallelisiert werden kann. Etliche Software lässt sich kaum sinnvoll bzw. nur sehr eingeschränkt parallelisieren, andere Software nur zu einem gewissen Grad, was auch für Videoencoding (und Game-Engines) gilt.
Hinzu kommt noch was sonst noch alles in der Renderpipeline genutzt wird und möglicherweise den Durchsatz bremsen könnte, bspw. eine Farbkorrektur, ein Scaler/Filter, etc. die möglicherweise nur auf 8 Threads ausgelegt sind und daher die nachfolgende Renderpipeline ausbremsen, etc. Zudem könnte auch das verwendete Videoprogramm selbst das Problem darstellen (wenn du nicht gerade mit etwas wie ffmpeg "low-level" arbeitest).

Um das Thema etwas abzukürzen. In einem reinen Transkodierdurchlauf mittels ffmpeg und bspw x264 wirst du auf einer hochkernigen CPU zweifelsfrei einen deutlich höheren (Gesamt)Durchsatz erreichen, wenn du bspw. vier Streams parallel kodierst und in den Settings, die Zahl der zu nutzenden Threads pro Stream auf einen sinnvollen Wert limitierst, als wenn du nur einen einzigen Stream mittels aller verfügbaren Kerne zu rendern versuchst.

Testing x265 encoder scaling on a 128 core Azure VM for 4K HDR

Das obige Beispiel betrifft zwar x265, jedoch dürften die Ergebnisse zumindest grob das Problem demonstrieren können; hier reichen zwei Graphen für die Betrachtung.
Einmal unter "Results" der obere Graph. Bereits beim Wechsel von 32 auf 64 Cores/Threads (in der VM dürfte ein Core einem Thread entsprechen) sieht man einen Rückgang des Zugewinns. Zuvor hat sich mit doppelter Kernzahl grob die Druchlaufzeit halbiert, jedoch mit noch mehr Kernen flacht diese Kurve sichtbar ab und von 64 auf 128 Cores sind die zusätzliche Kosten in der Art nicht mehr vertretbar, weil der Gewinn nicht mal mehr ansatzweise mit der Steigerung der Kernzahlen (und damit der Mietkosten) mithalten kann.
Dann einmal unter "Improving CPU usage" auch der obere Graph. Hier werden parallele Durchläufe auf "der CPU" prozessiert. Bereits bei der parallelen Prozessierung von nur zwei Streams sieht man einen deutlichen Zugewinn. Die Durchlaufzeit erhöht sich gerade mal um 28 %, jedoch hat man in der Zeit zwei komplette Streams gerendert, also die doppelte Anzahl Frames verarbeitet. Noch deutlicher wird es bei vier parallel gerenderten Streams, die gerade mal doppelt so viel Zeit in Anspruch nehmen, jedoch hat man hier die vierfache Anzahl an Videoframes verarbeitet, d. h. man kann auf diese Art die zur Verfügung stehenden CPU-Ressourcen (sehr hohe Kernanzahl) weitaus besser ausnutzen. (Vergleicht man also einen Stream vs. vier parallele Streams, hat man bei ersterem Testrdurchlauf einen Stream in t Sekunden gerendert, in zweitem Testdurchlauf dagegen effektiv einen Stream in t/2 Sekunden gerendert.)

Am Ende ist die Frage was du und wie du vergleichst bzw. misst. Manchmal muss man der Software (wenn es möglich ist) unter die Arme greifen, denn wie schon eingangs geschrieben, nur vergleichsweise wenige Workloads parallelisieren (nahezu) unbeschränkt bzw. linear.
Die in deiner Liste gezeigten 1:42 min auf einem 3950X ggü. nur geringfügig schnelleren 1:26 min auf einem 3970X zeigen ganz klar derartige Software-Limitierungen auf. Im best case kann die doppelte Kernzahl durchaus zu einer Leistungssteigerung führen, die sich zumindest in die Richtung einer Verdoppelung bewegt (dein obiges Beispiel 1:42 min vs. 1:26 min ist davon meilenweit entfernt):

Cinebench R20 MT
3950X ~ 9135
3970X ~ 17255 (+89 %)
SPEC2017 INTrate / FPrate
Epyc 7452 ~ 201 / 176
Epyc 7742 ~ 344 / 268 (+71 % / +52 %)

Und wo die Software nicht übermäßig gut parallelisiert, kann man bspw. versuchen multiple Instanzen parallel laufen zu lassen um die Kernauslastung zu erhöhen.

*) Nicht unerwähnt bleiben soll natürlich auch ein I/O-Limit, dass sich ab einem gewissen Grad bemerkbar macht, aber hier, in dieser rein exemplarischen, rudimentären Diskussion zu weit führen würde.
Beispielsweise hast du einen 2970WX in deiner Liste, der im Vergleich zu dem dort ebenfalls gelisteten 2950X das Problem bereits im Ansatz demonstiert. Der 2950X hat noch eine direkte I/O-Anbindung für seinen beiden "Chiplets" gehabt, sodass der noch recht gut skalierte, der 2970WX dagegen nutzte vier "Chiplets" (zu je sechs Kernen) von denen lediglich zwei direkt am RAM angebunden waren, was Leistung kostet. Die größeren 2000er-TRs kann man lediglich mit 3D-Rending und einigen HPC-ähnlichen Workloads gut auslasten, sprich alles was überwiegend im L3 abläuft und (relativ gesehen) wenig I/O beansprucht; andernfalls bricht die Leistung dort deutlich ein.

latiose88 · 10. Juli 2020

gerX7a schrieb:
Ich weiß nicht, was genau ich da in der Liste sehe, ich vermute mal es geht um Videoencoding mittels x264?

Hierbei ist grundsätzlich zu beachten, dass nur wenig Software quasi unbeschränkt parallelisiert werden kann. Etliche Software lässt sich kaum sinnvoll bzw. nur sehr eingeschränkt parallelisieren, andere Software nur zu einem gewissen Grad, was auch für Videoencoding (und Game-Engines) gilt.
Hinzu kommt noch was sonst noch alles in der Renderpipeline genutzt wird und möglicherweise den Durchsatz bremsen könnte, bspw. eine Farbkorrektur, ein Scaler/Filter, etc. die möglicherweise nur auf 8 Threads ausgelegt sind und daher die nachfolgende Renderpipeline ausbremsen, etc. Zudem könnte auch das verwendete Videoprogramm selbst das Problem darstellen (wenn du nicht gerade mit etwas wie ffmpeg "low-level" arbeitest).

Um das Thema etwas abzukürzen. In einem reinen Transkodierdurchlauf mittels ffmpeg und bspw x264 wirst du auf einer hochkernigen CPU zweifelsfrei einen deutlich höheren (Gesamt)Durchsatz erreichen, wenn du bspw. vier Streams parallel kodierst und in den Settings, die Zahl der zu nutzenden Threads pro Stream auf einen sinnvollen Wert limitierst, als wenn du nur einen einzigen Stream mittels aller verfügbaren Kerne zu rendern versuchst.

Testing x265 encoder scaling on a 128 core Azure VM for 4K HDR

Das obige Beispiel betrifft zwar x265, jedoch dürften die Ergebnisse zumindest grob das Problem demonstrieren können; hier reichen zwei Graphen für die Betrachtung.
Einmal unter "Results" der obere Graph. Bereits beim Wechsel von 32 auf 64 Cores/Threads (in der VM dürfte ein Core einem Thread entsprechen) sieht man einen Rückgang des Zugewinns. Zuvor hat sich mit doppelter Kernzahl grob die Druchlaufzeit halbiert, jedoch mit noch mehr Kernen flacht diese Kurve sichtbar ab und von 64 auf 128 Cores sind die zusätzliche Kosten in der Art nicht mehr vertretbar, weil der Gewinn nicht mal mehr ansatzweise mit der Steigerung der Kernzahlen (und damit der Mietkosten) mithalten kann.
Dann einmal unter "Improving CPU usage" der obere Graph. Hier werden parallele Durchläufe auf "der CPU" prozessiert. Bereits bei der parallelen Prozessierung von nur zwei Streams sieht man einen deutlichen Zugewinn. Die Durchlaufzeit erhöht sich gerade mal um 28 %, jedoch hat man in der Zeit zwei komplette Streams gerendert, also die doppelte Anzahl Frames verarbeitet. Noch deutlicher wird es bei vier parallel gerenderten Streams, die gerade mal doppelt so viel Zeit in Anspruch nehmen, jedoch hat man hier die vierfache Anzahl an Videoframes verarbeitet, d. h. man kann auf diese Art die zur Verfügung stehenden CPU-Ressourcen weitaus besser ausnutzen.

Am Ende ist die Frage was du und wie du vergleichst bzw. misst. Manchmal muss man der Software (wenn es möglich ist) unter die Arme greifen, denn wie schon eingangs geschrieben, nur vergleichsweise wenige Workloads parallelisieren unbeschränkt.
Die in deiner Liste gezeigten 1:42 min auf einem 3950X ggü. nur geringfügig schnelleren 1:26 min auf einem 3970X zeigen ganz klar derartige Limitierungen auf. Im best case kann die doppelte Kernzahl durchaus zu einer doppelt so hohen Leistung führen:

Cinebench R20 MT
3950X ~ 7100
3970X ~ 17255
SPEC2017 INTrate / FPrate
Epyc 7742 ~ 344 / 268
Epyc 7452 ~ 201 / 176

Und wo die Software nicht übermäßig gut parallelisiert, kann man bspw. versuchen multiple Instanzen parallel laufen zu lassen.

*) Nicht unerwähnt bleiben soll natürlich auch ein I/O-Limit, dass sich ab einem gewissen Grade bemerkbar macht, aber hier, in dieser rein exemplarischen, rudimentären Diskussion zu weit führen würde.
Beispielsweise hast du einen 2970WX in deiner Liste, der im Vergleich zu dem dort ebenfalls gelisteten 2950X das Problem bereits im Ansatz demonstiert. Der 2950X hat noch eine direkte I/O-Anbindung für seinen beiden "Chiplets" gehabt, sodass der noch recht gut skalierte, der 2970WX dagegen nutzte vier "Chiplets" (zu je sechs Kernen) von denen lediglich zwei direkt angebunden waren, was Leistung kostet. Die größeren 2000er-TRs konnte man lediglich mit 3D-Rending und einigen HPC-Workloads gut auslasten, sprich alles was weitestgehend im L3 ablief und (relativ gesehen) wenig I/O beanspruchte; andernfalls bricht die Leistung dort deutlich ein.

Also kann man das sehr gut feststellen.Und damit auch die zukünftigen enueren CPUS gut abschätzen nicht wahr.Besser wird es also nicht mehr.
Ich verwende das Deinterlacing Filter.Das alleine kostet beim Videoumwandeln 2 Kerne.Da ich ja eh schon 2 dieser Kleinen Videos in h264 umwandle,mache ich ja eh schon ne steigerung.Noch mehr geht nicht,weil der Limitierende Faktor nicht die CPU sondern ich selbst bin.Das heißt ich kann nicht schneller alles vorbereiten um 4 gleichzeitig zu starten,geschweige denn 3 Gleichzeitig.
Würde man also den FIlter weglassen,dann wären schon 4 Kerne durch die Software alleine schon weniger ausgelastet.Dann wären es somit insgesammt wohl nur noch 28 Kerne und somit würden auf 4 Kerne weniger ebenfalls keine Leistungseinbusen geben.Ich habe den 3970x ja eh SMT geraubt gehabt.Und mit dem abschalten 4 Kerne,wäre es ein reiner 28 Kerner ohne VIrtuellen.Als ich das mit dem 3970x getestet hatte,sank dieser auf dem Nivoeu wie er mit SMT gewesen war.Also auf dem Niveu von dem 2990wx.Hier schlagen sich somit 28 Kerne sehr gut.
Weiter runter wollte ich nicht mehr gehen,weil es da gewiss dann zu einer höheren Leistungseinbusung geführt hätte.
Was wohl auch bremsen dürfte sind wohl die settings.
Alleine das ich preset Medium mit 720x576 mit me um bewegungsanalyse mit 7 subme,2 Beframes und 2 Reframes.Was durch das mischen zu einem Ref 4 aufgewertet wurde.
Und dann noch das abschalten von jedlicherAVX.Das alles führte wohl dazu das die größeren CPUS ihre Vorteile wohl verloren hatten.

Und was wolltest du mir denn mit dem I/O damit sagen.Und gibt es bei den ganzen CPUS auch welche mit den IPC steigerung und kann man aus der Liste dann durch die IPC steigerung auch die Leistungssteigerung erahnen? Also Bezüglich 4950x.Du sagst mir das ich da nicht viel davon erwarten kann oder wie soll ich das denn verstehen?

Achja bei meiner software wird egal mit wievielen Kernen ich auch Umwandle ob 16,18 oder mehr,wird mir immer nur 18 Threads angezeigt.Das heißt zwei davon gleichzeitig ergibt ja 36 Threads gleichzeitig.Mein I9 erreicht 380 Fps und der Threadripper 3970x hat nur 420 fps geschafft.Was ja echt nicht viel ist.Das ist ne sehr geringe mehr Fps steigerung.Das sagt also auch wie gut es skaliert nicht wahr aus?

gerX7a · 10. Juli 2020

latiose88 schrieb:
Also kann man [...]

Und was wolltest du mir denn mit dem I/O damit sagen.Und gibt es bei den ganzen CPUS auch welche mit den IPC steigerung und kann man aus der Liste dann durch die IPC steigerung auch die Leistungssteigerung erahnen? Also Bezüglich 4950x.Du sagst mir das ich da nicht viel davon erwarten kann oder wie soll ich das denn verstehen?

Am Ende ist Videoencoding nicht unbedingt der beste Workload, um sehr hochkernige CPUs zu testen bzw. zu benchmarken. Will man hier tatsächlich ausloten, was auf den CPUs an Durchsatz möglich ist, dann braucht es hier mehrere parallele Instanzen.

I/O: Das war nur eine Anmerkung, ein weiterer Punkt, der ab einer gewissen Auslastung auf die Rechnung einzahlt. Ein aktuelles 2-Kanal-Speicherinterface bietet grob 50 GiB/s durchsatz, ein 4-Kanal rd. 100 GiB/s, Epyc kommt in seinen größeren Modellen mit 8 Kanälen auf um die 200 GiB/s. Die spielen bei I/O-lastigen Workloads natürlich auch eine Rolle.

Zen3: Wie schon oben zuvor erklärt, hier darf man durchaus gesichert eine Leistungssteigerung im Bereich von +10 % bis bestenfalls +25 % erwarten, d. h. bspw. von einem 3950X auf einen 4950X. Aber selbst eine best case-Steigerung würde den 16-Kerner nicht in den Bereich eines 3970X heben (es sei denn natürlich, du vergleichst nicht korrekt und lastest den 32-Kerner mit deinem Benchmark nur unzureichend aus). Wenn du jetzt schon einen 3970X hast, brauchst du dir über einen 4950X keine Gedanken zu machen, versuche dann lieber deinen TR besser auszulasten, denn der kann deulich mehr.

Btw, wenn du schon weist, dass deine App maximal 18 Threads ausführt, dann kannst du von einem 3970X (32 Kerne, 64 Threads) mit nur einer Instanz natürlich keine übermäßigen Leistungssteigerungen erwarten, was auch deine gemessenen Renderzeiten erklärt. Versuche einfach mal mehrere Programminstanzen parallel auszuführen und ein paar unterschiedliche Projekte gleichzeitig zu rendern; dein Gesamtdurchsatz wird sich beträchtlich erhöhen.

latiose88 · 10. Juli 2020

gerX7a schrieb:
Am Ende ist Videoencoding nicht unbedingt der beste Workload, um sehr hochkernige CPUs zu testen bzw. zu benchmarken. Will man hier tatsächlich ausloten, was auf den CPUs an Durchsatz möglich ist, dann braucht es hier mehrere parallele Instanzen.

I/O: Das war nur eine Anmerkung, ein weiterer Punkt, der ab einer gewissen Auslastung auf die Rechnung einzahlt. Ein aktuelles 2-Kanal-Speicherinterface bietet grob 50 GiB/s durchsatz, ein 4-Kanal rd. 100 GiB/s, Epyc kommt in seinen größeren Modellen mit 8 Kanälen auf um die 200 GiB/s. Die spielen bei I/O-lastigen Workloads natürlich auch eine Rolle.

Zen3: Wie schon oben zuvor erklärt, hier darf man durchaus gesichert eine Leistungssteigerung im Bereich von +10 % bis bestenfalls +25 % erwarten, d. h. bspw. von einem 3950X auf einen 4950X. Aber selbst eine best case-Steigerung würde den 16-Kerner nicht in den Bereich eines 3970X heben (es sei denn natürlich, du vergleichst nicht korrekt und lastest den 32-Kerner mit deinem Benchmark nur unzureichend aus). Wenn du jetzt schon einen 3970X hast, brauchst du dir über einen 4950X keine Gedanken zu machen, versuche dann lieber deinen TR besser auszulasten, denn der kann deulich mehr.

Btw, wenn du schon weist, dass deine App maximal 18 Threads ausführt, dann kannst du von einem 3970X (32 Kerne, 64 Threads) mit nur einer Instanz natürlich keine übermäßigen Leistungssteigerungen erwarten, was auch deine gemessenen Renderzeiten erklärt. Versuche einfach mal mehrere Programminstanzen parallel auszuführen und ein paar unterschiedliche Projekte gleichzeitig zu rendern; dein Gesamtdurchsatz wird sich beträchtlich erhöhen.

Also zur info,ich habe nicht alle diese CPUS ,ich durfte sie selbst bei anderen Testen.Den i9 9980xe ist der einzige den ich habe.Und beim ram habe ich zwar ddr4 als Quadchannel.Bei Takt zwischen 2133 und 3600 habe ich keinen Unterschied gemerkt.Der wo einen Ryzen 3950x hat,hat ebenfalls 3600 mhz aber halt mit Dualchannel.Bandbreite beim Ram scheint wohl keine Rolle zu spielen.Mehr als 2 Instanzen gleichzeitig werde ich nicht auffahren.Erwarte dennoch ne Leistungssteigerung.Im moment habe ich einen 3950x bei mir stehen wo noch nicht geht.Wenn ich das system mal zum laufen kriege,dann kann ich auf dem 4950x warten und den 3950x wieder verkaufen und habe dann hoffentlich nen richtig guten boost.Ich hoffe das ich nicht zu hohe erwartung haben werde und es sich dann ne Entäuschung statt erwartung übertroffen sich herausstellt.Aber meine erwartung hast du schon etwas gedämpft.Ich weis nicht welche EInheit ich mich foksiere um eine Mehrleistung herausrechnen zu können.Oder kann man das denn nicht?

shootme55 · 10. Juli 2020

Bin schon echt gespannt was an den Gerüchten dran ist und was dabei raus kommt, ob es in einem Debakel endet oder einen wirklichen Mehrwert für (m)einen Anwendungsbereich hat. Aber erstmal schaun was tatsächlich am Markt erscheint znd nicht alle Gerüchte fressen...

Infi1337 · 10. Juli 2020

Olstyle schrieb:
Schon mal SW geschrieben? Wenn du nichts extra für die Parallelisierung tust hast du am Ende genau einen Thread.

Das ist aber keine Limitierung.

latiose88 schrieb:
Ist das echt so.Heißt das wenn das Betriebsystem neue Betriebystem die Leistung reduziert, dann nur noch die Treiber die Leistung beeinflussen.Wenn die Treiber also veraltet sind,das dann die CPU etwas an Leistung ausgebremst wird?

Jop. Gibt viele Faktoren die zur Limitierung führen können, die Client-Software ist meist das letzte Glied.

Olstyle · 10. Juli 2020

Wo nimmst du diese Gewissheit her? Kann jedenfalls nicht aus dem Gaming-Betrieb oder sonstiger Endkundensoftware kommen. Dort ist nämlich durchaus das SW-Programm selbst und nicht das OS oder Treiber die Grenze der Parallelisierung.

Intel Rocket Lake-S: Achtkerner mit 12 Threads macht die Runde

Volt-Modder(in)

Community Manager

BIOS-Overclocker(in)

PCGH-Community-Veteran(in)

BIOS-Overclocker(in)

Moderator

PCGH-Community-Veteran(in)

Volt-Modder(in)

Freizeitschrauber(in)

Moderator

BIOS-Overclocker(in)

BIOS-Overclocker(in)

Freizeitschrauber(in)

BIOS-Overclocker(in)

BIOS-Overclocker(in)

BIOS-Overclocker(in)

BIOS-Overclocker(in)

BIOS-Overclocker(in)

Freizeitschrauber(in)

Moderator

Ähnliche Themen