Special CPU-Perzentil-Index 2025: Diese Modelle liefern das schnellste Bild für PC-Gaming

Zur präziseren Einordnung der Methodik stellt sich mir zunächst die Frage, ob jedes einzelne Spiel separat normiert wurde und anschließend aus diesen normierten Einzelwerten ein geometrisches Mittel gebildet wurde, oder ob stattdessen eine arithmetische Mittelwertbildung erfolgt ist. Diese Unterscheidung ist für das Verständnis der Aussagekraft der Ergebnisse zentral, da sich arithmetisches und geometrisches Mittel gerade bei stark streuenden Einzelwerten deutlich unterschiedlich verhalten. Während das arithmetische Mittel absolute Abweichungen linear berücksichtigt und damit Ausreißer überproportional stark in das Gesamtergebnis einfließen lässt, bildet das geometrische Mittel relative Leistungsunterschiede ab und reduziert den Einfluss einzelner Extremwerte, was bei Performance-Indizes mit normierten Verhältniszahlen in der Regel als methodisch robuster gilt.

Ebenso relevant ist die Anzahl der durchgeführten Messdurchläufe pro Spiel sowie die Art der Aggregation dieser Runs, insbesondere ob einfache Mittelwerte, Mediane oder eine weitere statistische Gewichtung verwendet wurden. Gerade bei Titeln wie Starfield, deren Performanceverhalten stark schwankt und zu deutlich alternierenden Framezeiten neigt, erscheint ein einzelner Durchlauf nur eingeschränkt belastbar. Ohne Mehrfachruns und eine transparente statistische Zusammenführung besteht die Gefahr, dass zufällige Schwankungen oder kurzfristige Ausreißer das Ergebnis dominieren.

Vor diesem Hintergrund wäre auch eine ergänzende Betrachtung oder zumindest eine Gegenüberstellung mit der Gesamtheit der übrigen Frames sinnvoll. Performanceeinbrüche sind in der Praxis selten ausschließlich auf ein reines CPU-Limit zurückzuführen, sondern entstehen häufig aus dem Zusammenspiel von Engine-Charakteristik, Asset-Streaming, Scheduling-Effekten und weiteren systemischen Einflussgrößen, die in einer rein selektiven Auswertung einzelner Frames nur unvollständig abgebildet werden.

Ich will den Index nicht in Frage stellen, aber irgenwie wirkt das noch nicht ganz komplett, solange die restlichen 99% der Frames außen vor bleiben.
 
Ich will den Index nicht in Frage stellen, aber irgenwie wirkt das noch nicht ganz komplett, solange die restlichen 99% der Frames außen vor bleiben.
Moin Igor, danke für die Rückmeldung und die methodischen Hinweise, die sind völlig berechtigt.

Zur Einordnung vorab: Der Perzentil-Index ist bewusst nur ein Auszug aus dem vollständigen CPU-Index. Er betrachtet gezielt die unteren Frame-Perzentile und damit Worst-Case-Szenarien unter CPU-Limit. Der komplette CPU-Index erscheint noch in diesem Monat und wird sämtliche Fps-Werte der getesteten Spiele enthalten.

Nicht veröffentlicht werden dabei die einzelnen Benchmark-Runs. Die Mindestangabe pro Spiel basiert bereits auf einem Mittelwert aus mindestens drei Durchläufen. In der Praxis führen wir häufig mehr als drei Runs pro Spiel durch, insbesondere bei Titeln mit stark schwankender Performance. Entsprechend greifen wir bereits vor der eigentlichen Index-Berechnung eine maximale Abweichung von sieben Prozent bei den P1-Werten ab, um instabile Messreihen und zufällige Ausreißer möglichst früh zu eliminieren. Die in den Index einfließenden Avg-, P1- und P0.2-Werte sind daher keine Einzelmessungen.

Die Index-Bildung selbst erfolgt über normierte Relativwerte, die anschließend arithmetisch gemittelt werden. Der Perzentil-Index ergänzt dabei die bestehenden CPU-Indizes um eine gezielte Betrachtung der unteren Frame-Perzentile und steht gleichberechtigt neben dem klassischen Durchschnittsindex sowie dem P0.2-Index.
 
„Lesen bildet…“ – stimmt. Verstehen wäre der nächste Skillpunkt.

Das ist eine rhetorische Spitze, kein Argument ;) Aber Rhetorik üben wir noch, gell :D

Natürlich ist die Normierung nicht universell. Sie soll es auch gar nicht sein.

Das wiederum ist korrekt, adressiert aber nicht meine Kritik. Dass sie universell sein muss, schrieb ich nicht. Ich schrieb: sie ist nicht universell und daher nicht vergleichbar.

Sie normiert den PCGH-Parcours, nicht das Weltwissen. Alles andere wäre methodischer Unsinn. Ein Index bildet immer genau das ab, was gemessen wurde – was denn sonst?

Das ist eine Tautologie. Ich kritisierte, wie gemessen und wie normiert wird - nicht, dass ein Index etwas anderes abbilden sollte.

Der Vorwurf, der Index sei „künstlich“ und „anfällig für Verzerrungen durch einzelne Spiele“, ist besonders hübsch, weil er genau das Gegenteil trifft: Normierung ist das Mittel, um Ausreißer zu entschärfen, nicht sie zu verstärken. Ohne Normierung würden einzelne CPU-limitierte Titel den Mittelwert viel stärker verzerren.

Das stimmt, wenn die Normierung robust ist.

Aber:
  • Wenn der Spiele-Mix klein ist
  • und CPU-limitierte Titel überproportional gewichtet werden
  • und die Normierung auf einen proprietären Parcours zugeschnitten ist
…dann kann die Normierung trotzdem Verzerrungen erzeugen.

Normierung ist kein Zauberwort, das automatisch alles objektiv macht.

CPU-limitierte Spiele beeinflussen den Index naturgemäß stärker.

Dan Punkt sprach ich bereits an. Du nennst es "beabsichtigte Sensitivität", ich nannte es "Übergewichtung". Ist das gleiche in grün. Beides beschreibt denselben Effekt, nur mit unterschiedlicher Wertung.

Das ist kein Verzerrungseffekt, sondern die beabsichtigte Sensitivität eines CPU-Benchmarks. Würde sich ein CPU-Index davon nicht beeinflussen lassen, wäre die Messmethodik fragwürdig. Dass man mehrere Quellen vergleichen sollte? Absolut. Das gilt allerdings immer – völlig unabhängig davon, ob ein Index normiert ist oder nicht. Wer das als Kritikpunkt verkauft, kritisiert im Grunde die Existenz von Fachartikeln insgesamt.

Das ist sachlich falsch. Mehrere Quellen zu vergleichen ist Best Practice – gerade bei Benchmarks. Sowas ist kein Angriff auf Fachartikel, sondern ein Zeichen von Medienkompetenz.

Zu Dragon Age und Starfield: Geschmack ist kein Messverfahren. Ich mag beide Spiele auch nicht, Fakt ist aber, dass sie sich oft verkauft haben und durch ihre Engines eine interessante Mischung in den CPU-Testparcours bringen. Und lieber habe ich noch eine Engine mehr drin, als nur die Unreal Engine.

Ok, der Punkt ist verständlich und da gehe ich mit.

Mir ist bewusst, dass die Normierung nur den PCGH-Parcours abbildet. Genau deshalb habe ich darauf hingewiesen, dass der Index nicht universell vergleichbar ist – nicht als Vorwurf, sondern als Hinweis für Leser, die ihn als allgemeingültige Größe interpretieren könnten.

Dass Normierung Ausreißer dämpfen kann, ist richtig. Gleichzeitig hängt die Robustheit einer Normierung stark vom Umfang und der Zusammensetzung des Parcours ab. Bei einem kleinen oder CPU-lastigen Mix können einzelne Titel dennoch überproportional wirken – das meinte ich mit „anfällig“.

CPU-limitierte Spiele sollen natürlich Einfluss haben, aber die Frage ist, wie stark und ob das Verhältnis der Engines die reale Spielelandschaft sinnvoll widerspiegelt. Das ist keine Kritik an eurer Arbeit, sondern eine methodische Überlegung.

Der Hinweis auf mehrere Quellen war nicht gegen PCGH gerichtet, sondern allgemein gemeint. Gerade weil jeder Parcours anders gewichtet wird, halte ich Cross-Referenzierung für sinnvoll.
 
Ryzen 5600 'til I die.


Oder bis endlich ein ECHTES Thief 4 kommt. :-P

Eingebundener Inhalt
An dieser Stelle findest du externe Inhalte von Youtube. Zum Schutz deiner persönlichen Daten werden externe Einbindungen erst angezeigt, wenn du dies durch Klick auf "Alle externen Inhalte laden" bestätigst: Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit werden personenbezogene Daten an Drittplattformen übermittelt.
Für mehr Informationen besuche die Datenschutz-Seite.
 
Die Index-Bildung selbst erfolgt über normierte Relativwerte, die anschließend arithmetisch gemittelt werden.
Genau hier lagen ja meine Bedenken. Bei mehr als drei Indizes würde ich generell das geometrische Mittel nutzen, das ist ziemlich einfach abzuändern, vermeidet aber einseitige Ausreißer.

Bei der Bildung eines Gesamtindex aus mehreren normierten Einzelwerten ist das geometrische Mittel in der Regel vorzuziehen, da diese Werte Verhältnisgrößen darstellen und nicht additiv sind. Das arithmetische Mittel behandelt Abweichungen linear und gewichtet Ausreißer überproportional stark, was insbesondere bei stark streuenden Messergebnissen zu Verzerrungen führen kann. Dieser Effekt nimmt mit steigender Anzahl einbezogener Indizes weiter zu.

Das geometrische Mittel arbeitet auf relativer Ebene und behandelt prozentuale Abweichungen symmetrisch. Ein Leistungsfaktor von 1,2 wirkt dabei genauso stark wie ein Faktor von 0,83 in die Gegenrichtung. Dadurch werden Extremwerte gedämpft und gleichmäßige Leistungen über viele Tests hinweg angemessener abgebildet. Gleichzeitig bleibt die Rangfolge unabhängig von der gewählten Referenz, was für reproduzierbare Vergleichstabellen wesentlich ist.

Gerade bei mehr als drei normierten Indizes liefert das geometrische Mittel daher einen stabileren, robuster interpretierbaren Gesamtindex, der die typische Leistungsrelation besser widerspiegelt als ein arithmetischer Mittelwert. :)
 
Gerade bei mehr als drei normierten Indizes liefert das geometrische Mittel daher einen stabileren, robuster interpretierbaren Gesamtindex, der die typische Leistungsrelation besser widerspiegelt als ein arithmetischer Mittelwert. :)
Danke für die Ausführung, das ist methodisch völlig korrekt und der Vorteil des geometrischen Mittels bei normierten Verhältniswerten ist unstrittig. Der aktuelle Ansatz ist allerdings bewusst konsistent zu den bestehenden CPU-Indizes gehalten. Die arithmetische Mittelung erfolgt nicht auf Rohdaten, sondern auf bereits vorgefilterten Relativwerten. Instabile Runs werden vorab verworfen, zudem greifen Schwellen für maximale Abweichungen, sodass der Einfluss einzelner Ausreißer bereits vor der Index-Bildung begrenzt ist. In diesem Rahmen hat sich das Verfahren bislang als ausreichend stabil erwiesen.

Unabhängig davon ist der Hinweis valide. Mit wachsender Zahl normierter Teilindizes wird das geometrische Mittel zunehmend attraktiver, da es relative Abweichungen symmetrischer behandelt. Das ist ein Punkt, den wir intern auch gegenrechnen und bei künftigen Iterationen berücksichtigen können. Der Perzentil-Index ist ohnehin als Ergänzung zu den bestehenden CPU-Indizes gedacht und nicht als alleiniger Maßstab.
 
Das klingt vernünftig. Denn nicht ein einziger Industriebenchmark rechnet aus besagten Gründen arithmetisch, noch nicht mal der SPECviewperf :D

Selbst meine ganzen Statistiken, von der Grafik bis zur Paste sind seit Ewigkeiten geomean, das hat zwar bei der Einführung einiges geändert, aber Seiten wie Tom's Hardware US nutzen scheinbar heute noch (ohne jemals eine Lizenz besessen zu haben!) meine alte Software bzw. die Templates aus 2016 und die ist bei den Perzentilen nachweislich zu ungenau, da arithmetisch. Die Grafiken sind von mir und Yannick Guerini, aber die Amis haben Urheberrechte noch nie interessiert. Aber was soll ich mich da rumärgern. Vielleicht merken sie es ja irgendwann mal. Oder es bleibt weiter falsch :D
 
Zuletzt bearbeitet:
Huch, da läuft man ja Gefahr auf ein Zombie-Kommentar zu antworten. Mich freut so eine Grafik immer um einzuschätzen, wie groß das Delta zwischen AMD und Intel ist, weil die Average durch starke Peaks mit dem 3D-Cache stark verfälscht werden können.

Dann bin ich ja mit meinem 7800X3D noch weiterhin sehr gut bedient 😎

Für Gaming auf jeden Fall. Da kannst Du eine 5090 (und vermutlich auch noch eine 6090) bequem mit betreiben und bei jeder kleineren GPU tut es auch eine schwächere CPU idR. Viele kaufen nur noch Top-Notch um dann die CPU mit einer viel zu kleinen GPU im GPU-Limit einzubremsen.
 
Da kannst Du eine 5090 (und vermutlich auch noch eine 6090) bequem mit betreiben und bei jeder kleineren GPU tut es auch eine schwächere CPU idR. Viele kaufen nur noch Top-Notch um dann die CPU mit einer viel zu kleinen GPU im GPU-Limit einzubremsen.
In meinem Fall mit 9800X3D und (noch) RTX 4080 ist das so, dass die Grafikkarte auf WQHD Max Settings quasi immer voll ausgelastet ist, während die Prozessorauslastung zwischen 9-23% fest hängt. Da ist also noch richtig viel Luft nach oben. Morgen wird eine neue RTX 5080 mit großen OC-Ambitionen in den PC wandern und selbst dann wird sich die CPU noch langweilen. Diese Plattform wird sicherlich auch noch die nächste GPU-Generation wie eine RTX 6090 exzellent mitmachen, wahrscheinlich sogar darüber hinaus.
 
Hmm... Für bestenfalls +57% von meinem 5800X3D aus auf den 9950X3D, oder 48-52% auf den 9800/9850X3D, lohnt sich der Plattformwechsel für mich nicht wirklich... Das Kosten-Nutzen-Verhältnis ist da nicht so attraktiv...
 
Gibt es denn eine technische Erklärung warum der Intel 270K VOR dem 285k liegt? Schnellerer RAM erlaubt?
 
Gibt es denn eine technische Erklärung warum der Intel 270K VOR dem 285k liegt? Schnellerer RAM erlaubt?
Da hat sich auch unter der Haube ein bisschen was getan. Der Fabric und der D2D Takt sind jeweils ein gutes Stück gestiegen. Zusammen mit dem höheren Ram Takt sorgt das dann trotz minimal weniger Takt für mehr Leistung.
 
Am RAM-Takt hat sich bei den Refeshs quasi nichts getan.
Der beworbene höhere RAM-Takt gilt nämlich nur, wenn man sowohl CUDIMM nutzt, als auch ein Board das exakt 2 RAM-Slots bietet. PCGH testet jedoch nicht mit CUDIMM, dementsprechend wird der 270K ebenso wie der 285K mit 5600 MT/s getestet.

Damit kommt die Leistungssteigerung des 270K einzig durch die höheren internen Taktraten (Ring und D2D). Etwas, das man als Besitzer eines Arrow Lake K-Modells auch selbst (über-)takten könnte.

 
Zurück