Danke. Sehr naheliegend, so etwas in einem Renoir-Test zu suchen.
Die +20 ms/+25 Prozent für Inter-CCD versus Inter-CCX finde ich nicht so wahnsinnig merkwürdig. Es gibt zwar keine getrennten Controller auf derm I/O-Chip, aber die IF-Ports sind physisch getrennt und es ist sehr leicht vorstellbar, dass keine symmetrische Crossbar zwischen allen Ports existiert, sondern Übertragungen von einem IF zum anderen zusätzliche Puffer nutzen. So wird es auch leichter, einen I/O-Chip mit Defekt in einem IF-Abschnitt für einen Single-CCD-Matisse zu verwenden.
Aber das die Inter-CCX-Kommunikation auf dem zweiten CCD langsamer ist als auf dem ersten, spricht in der Tat gegen eine direkte Interpretation seiner Ergebnisse.
Bei 16 gegen 4 Kernen würde ich die Ergebnisse nicht weiter interpretieren. Da wird es schwierig zu unterscheiden, was durch interne Kommunikationsprozesse, was durch den Gesamtkommunikationsumfang und was möglicherweise durch simple Kernsprünge verursacht wird. Mit Zen3 wird sich nur die Organisation ändern, nicht aber die anderen Parameter und Rückschlüsse sind nur von Test-Setups möglich, für die das in gleichem Maße gilt. Also nur Messungen mit insgesamt acht Kernen, aber verschiedener Verteilung über die CCX. (Nimmt man Ians Ergebnisse dazu zusätzlich auch noch verschiedener Verteilung über die CCDs. Also 2+2+2+2, 4+0+4+0 und zusätzlich noch 4+4+0+0. In letzterem Fall muss man auch einen Blick auf die Taktraten halten, nicht dass einem Veränderungen im Turboverhalten das Ergebnis versauen.)
Mehrere verschiedene Videos würden selbst dann nicht beschleunigt werden, wenn der Cache groß genug für ganze Videos wäre. Nur die Wiederholung gleicher Elemente profitiert, das wäre im Video-Beispiel der eigentlich En-/Decoder, der bei jedem einzelnen Frame/Framepaket von vorne anfängt. Generell sind Caches und allgemein Speicherlatenzen in derartigen Anwendungen aber von geringer Bedeutung, weswegen diese auch so gerne für Kernskalierungen genommen werden: Solange die RAM-Transferrate insgesamt reicht, bremst eigentlich nichts, außer die reine Rechenleistung der Ausführungseinheiten. Die sieht man dann in Benchmarks schön, dafür kann man Verbesserungen (oder eben Schwachpunkte) an anderen Stellen nicht nachspüren.
Ein anderes Beispiel wären zum Beispiel Strategietitel, die für hunderte Einheiten die Wegfindung berechnen müssen. Da kommt jedesmal die gleiche Logik zum Einsatz und in vielen Fällen auch ähnliche Kartendaten. So etwas kann man wunderbar Cachen und lädt die Wegfindungsroutine und den Kartenabschnitt und nur bei der ersten Einheit aus dem RAM, für die zweite Einheit ist dann schon alles im Cache außer der aktuelle Standort eben dieser zweiten Einheit.