Ripcord
Volt-Modder(in)
Da kennt wohl jemand nicht den i7 9700K...
Dem ärmsten wurde HT gleich ganz gestrichen.
Mein letzter Intel war ein 2500k. Damals war der i7 das Beste und OC war mit fast jedem Chipsatz möglich. Aber das war einmal.
Da kennt wohl jemand nicht den i7 9700K...
Dem ärmsten wurde HT gleich ganz gestrichen.
Beispeilsweise in
Intel Rocket Lake-S 8-Core 11th Gen Desktop CPU Leaked With 1.15GHz Gen12 Xe GPU | HotHardware
werden auch die Caches mit ausgewiesen. Unter der Annahme, dass das tatsächlich ausgelesen ist, würde das nicht Willow Cove entsprechen, der derzeit mit 1,25 MiB L2 pro Kern gehandelt wird. Die 512 KiB sprechen eher für Sunny Cove. Wie wahrscheinlich ein Hybrid zwischen den beiden Architekturen ist, kann ich nicht abschätzen. Ob sich Intel die Arbeit für ein "Einmalprodukt" machen will, hängt davon ab, wie nötig sie es haben.
[...]Ich warte ab, was sich ergibt, und lege mich erst einmal nicht fest.

Stimmt ich habe mich wirklich verhaut.Die alternative [...]

?Da kennt wohl jemand nicht den i7 9700K...
Dem ärmsten wurde HT gleich ganz gestrichen.

Das sowieso. Selbst wenn das versuchte Ableitungen und nicht nur simples Gerate oder Wunschdenken ist; zu einem Fakt wird es dadurch dennoch nicht.
Die Kernzahl bei meinem Vergleich waren übrigens irrelevant, da ging es nur um IPC (und somit noch bestenfalls um den SC-Boost-Takt).
AMD wird den 16-Kerner, nachdem sie ihn nun etabliert haben, sicherlich nicht begraben, d. h. man darf sicherlich einen 4950X erwarten *), der wohl auch zwischen grob geschätzt 10 - 25 % mehr Leistung bieten dürfte als der aktuelle Zen2.
Einen TR 3970X wird dieser aber zweifelsfrei nicht schlagen, hier vertust du dich voraussichtlich, denn das ist ein 32-Kerner. Vielleicht meinstest du den 3960X (24 C)?
Und dazu sei angemerkt, dass die Zen+-basierten TRs mit 24 und 32 Kernen zum Teil mit ihrer unvorteilhaften I/O-Anbindung zu kämpfen hatten, was je nach Anwendung viel Leistung kostete, d. h. der Wechsel auf einen gleichkernigen Zen2 brachte hier natürlich einen signifikanten Zugewinn, da zudem auch diese Defizite ausgeglichen wurden. Von Zen2 auf Zen3 dagegen wird es keine Überraschungen geben, etwas IPC (wozu auch die CCX-Reorganisation beiträgt) und ein wenig mehr Takt. Entsprechend wird ein 4950X auch keinen 3970X schlagen können.
Bezüglich Zen3 und TR könnte es jedoch sein, dass du dich noch ein wenig gedulden musst. Wenn aktualisierte Workstations von Lenovo mit 8 Speicherkanälen unmittelbar bevorstehen, deutet das eher darauf hin, dass diese noch Zen2-basiert sein werden, wofür auch die Bezeichnung 3995WX spricht. Dass AMD dann unmittelbar zum Zen3-Launch auch direkt einen aktualisierten Threadripper anbieten wird, ist eher nicht wahrscheinlich.
*) Mehr als 16 Kerne wird es auf der AM4-Plattform mit Zen3 jedoch anzunehmenderweise nicht geben. Bereits der 16-Kerner ist auf der Plattform schon ein reines Nischenprodukt und mit noch mehr Kernen wird es auch versorgungstechnisch problematisch.
Die Threadlimitierungen waren eh immer schon Sache des Betriebssystems und der Treiber, nicht der Software per se.
Nun nein ich meinte wirklich den Threadripper 3970x [...]
Ich weiß nicht, was genau ich da in der Liste sehe, ich vermute mal es geht um Videoencoding mittels x264?
Hierbei ist grundsätzlich zu beachten, dass nur wenig Software quasi unbeschränkt parallelisiert werden kann. Etliche Software lässt sich kaum sinnvoll bzw. nur sehr eingeschränkt parallelisieren, andere Software nur zu einem gewissen Grad, was auch für Videoencoding (und Game-Engines) gilt.
Hinzu kommt noch was sonst noch alles in der Renderpipeline genutzt wird und möglicherweise den Durchsatz bremsen könnte, bspw. eine Farbkorrektur, ein Scaler/Filter, etc. die möglicherweise nur auf 8 Threads ausgelegt sind und daher die nachfolgende Renderpipeline ausbremsen, etc. Zudem könnte auch das verwendete Videoprogramm selbst das Problem darstellen (wenn du nicht gerade mit etwas wie ffmpeg "low-level" arbeitest).
Um das Thema etwas abzukürzen. In einem reinen Transkodierdurchlauf mittels ffmpeg und bspw x264 wirst du auf einer hochkernigen CPU zweifelsfrei einen deutlich höheren (Gesamt)Durchsatz erreichen, wenn du bspw. vier Streams parallel kodierst und in den Settings, die Zahl der zu nutzenden Threads pro Stream auf einen sinnvollen Wert limitierst, als wenn du nur einen einzigen Stream mittels aller verfügbaren Kerne zu rendern versuchst.
Testing x265 encoder scaling on a 128 core Azure VM for 4K HDR
Das obige Beispiel betrifft zwar x265, jedoch dürften die Ergebnisse zumindest grob das Problem demonstrieren können; hier reichen zwei Graphen für die Betrachtung.
Einmal unter "Results" der obere Graph. Bereits beim Wechsel von 32 auf 64 Cores/Threads (in der VM dürfte ein Core einem Thread entsprechen) sieht man einen Rückgang des Zugewinns. Zuvor hat sich mit doppelter Kernzahl grob die Druchlaufzeit halbiert, jedoch mit noch mehr Kernen flacht diese Kurve sichtbar ab und von 64 auf 128 Cores sind die zusätzliche Kosten in der Art nicht mehr vertretbar, weil der Gewinn nicht mal mehr ansatzweise mit der Steigerung der Kernzahlen (und damit der Mietkosten) mithalten kann.
Dann einmal unter "Improving CPU usage" der obere Graph. Hier werden parallele Durchläufe auf "der CPU" prozessiert. Bereits bei der parallelen Prozessierung von nur zwei Streams sieht man einen deutlichen Zugewinn. Die Durchlaufzeit erhöht sich gerade mal um 28 %, jedoch hat man in der Zeit zwei komplette Streams gerendert, also die doppelte Anzahl Frames verarbeitet. Noch deutlicher wird es bei vier parallel gerenderten Streams, die gerade mal doppelt so viel Zeit in Anspruch nehmen, jedoch hat man hier die vierfache Anzahl an Videoframes verarbeitet, d. h. man kann auf diese Art die zur Verfügung stehenden CPU-Ressourcen weitaus besser ausnutzen.
Am Ende ist die Frage was du und wie du vergleichst bzw. misst. Manchmal muss man der Software (wenn es möglich ist) unter die Arme greifen, denn wie schon eingangs geschrieben, nur vergleichsweise wenige Workloads parallelisieren unbeschränkt.
Die in deiner Liste gezeigten 1:42 min auf einem 3950X ggü. nur geringfügig schnelleren 1:26 min auf einem 3970X zeigen ganz klar derartige Limitierungen auf. Im best case kann die doppelte Kernzahl durchaus zu einer doppelt so hohen Leistung führen:
Cinebench R20 MT
3950X ~ 7100
3970X ~ 17255
SPEC2017 INTrate / FPrate
Epyc 7742 ~ 344 / 268
Epyc 7452 ~ 201 / 176
Und wo die Software nicht übermäßig gut parallelisiert, kann man bspw. versuchen multiple Instanzen parallel laufen zu lassen.
*) Nicht unerwähnt bleiben soll natürlich auch ein I/O-Limit, dass sich ab einem gewissen Grade bemerkbar macht, aber hier, in dieser rein exemplarischen, rudimentären Diskussion zu weit führen würde.
Beispielsweise hast du einen 2970WX in deiner Liste, der im Vergleich zu dem dort ebenfalls gelisteten 2950X das Problem bereits im Ansatz demonstiert. Der 2950X hat noch eine direkte I/O-Anbindung für seinen beiden "Chiplets" gehabt, sodass der noch recht gut skalierte, der 2970WX dagegen nutzte vier "Chiplets" (zu je sechs Kernen) von denen lediglich zwei direkt angebunden waren, was Leistung kostet. Die größeren 2000er-TRs konnte man lediglich mit 3D-Rending und einigen HPC-Workloads gut auslasten, sprich alles was weitestgehend im L3 ablief und (relativ gesehen) wenig I/O beanspruchte; andernfalls bricht die Leistung dort deutlich ein.
Also kann man [...]
Und was wolltest du mir denn mit dem I/O damit sagen.Und gibt es bei den ganzen CPUS auch welche mit den IPC steigerung und kann man aus der Liste dann durch die IPC steigerung auch die Leistungssteigerung erahnen? Also Bezüglich 4950x.Du sagst mir das ich da nicht viel davon erwarten kann oder wie soll ich das denn verstehen?
Also zur info,ich habe nicht alle diese CPUS ,ich durfte sie selbst bei anderen Testen.Den i9 9980xe ist der einzige den ich habe.Und beim ram habe ich zwar ddr4 als Quadchannel.Bei Takt zwischen 2133 und 3600 habe ich keinen Unterschied gemerkt.Der wo einen Ryzen 3950x hat,hat ebenfalls 3600 mhz aber halt mit Dualchannel.Bandbreite beim Ram scheint wohl keine Rolle zu spielen.Mehr als 2 Instanzen gleichzeitig werde ich nicht auffahren.Erwarte dennoch ne Leistungssteigerung.Im moment habe ich einen 3950x bei mir stehen wo noch nicht geht.Wenn ich das system mal zum laufen kriege,dann kann ich auf dem 4950x warten und den 3950x wieder verkaufen und habe dann hoffentlich nen richtig guten boost.Ich hoffe das ich nicht zu hohe erwartung haben werde und es sich dann ne Entäuschung statt erwartung übertroffen sich herausstellt.Aber meine erwartung hast du schon etwas gedämpft.Ich weis nicht welche EInheit ich mich foksiere um eine Mehrleistung herausrechnen zu können.Oder kann man das denn nicht?Am Ende ist Videoencoding nicht unbedingt der beste Workload, um sehr hochkernige CPUs zu testen bzw. zu benchmarken. Will man hier tatsächlich ausloten, was auf den CPUs an Durchsatz möglich ist, dann braucht es hier mehrere parallele Instanzen.
I/O: Das war nur eine Anmerkung, ein weiterer Punkt, der ab einer gewissen Auslastung auf die Rechnung einzahlt. Ein aktuelles 2-Kanal-Speicherinterface bietet grob 50 GiB/s durchsatz, ein 4-Kanal rd. 100 GiB/s, Epyc kommt in seinen größeren Modellen mit 8 Kanälen auf um die 200 GiB/s. Die spielen bei I/O-lastigen Workloads natürlich auch eine Rolle.
Zen3: Wie schon oben zuvor erklärt, hier darf man durchaus gesichert eine Leistungssteigerung im Bereich von +10 % bis bestenfalls +25 % erwarten, d. h. bspw. von einem 3950X auf einen 4950X. Aber selbst eine best case-Steigerung würde den 16-Kerner nicht in den Bereich eines 3970X heben (es sei denn natürlich, du vergleichst nicht korrekt und lastest den 32-Kerner mit deinem Benchmark nur unzureichend aus). Wenn du jetzt schon einen 3970X hast, brauchst du dir über einen 4950X keine Gedanken zu machen, versuche dann lieber deinen TR besser auszulasten, denn der kann deulich mehr.
Btw, wenn du schon weist, dass deine App maximal 18 Threads ausführt, dann kannst du von einem 3970X (32 Kerne, 64 Threads) mit nur einer Instanz natürlich keine übermäßigen Leistungssteigerungen erwarten, was auch deine gemessenen Renderzeiten erklärt. Versuche einfach mal mehrere Programminstanzen parallel auszuführen und ein paar unterschiedliche Projekte gleichzeitig zu rendern; dein Gesamtdurchsatz wird sich beträchtlich erhöhen.
Das ist aber keine Limitierung.Schon mal SW geschrieben? Wenn du nichts extra für die Parallelisierung tust hast du am Ende genau einen Thread.
Jop. Gibt viele Faktoren die zur Limitierung führen können, die Client-Software ist meist das letzte Glied.Ist das echt so.Heißt das wenn das Betriebsystem neue Betriebystem die Leistung reduziert, dann nur noch die Treiber die Leistung beeinflussen.Wenn die Treiber also veraltet sind,das dann die CPU etwas an Leistung ausgebremst wird?