Locuza
Lötkolbengott/-göttin
Schritt für Schritt kommt AMD und die interessierte Technikmeute der neuen CPU-Zukunft von AMD näher.
Herrschte vor vielen Jahren generelles Unwissen über AMDs Zukunftspläne, wurden diese sehr grob 2014 von AMD auf der Core Innovation Summit offen gelegt.
Es folgten viele (falsche&richtige) Gerüchte, Spekulationen und potentielle Leaks, garniert mit weiteren offiziellen AMD-Angaben.
Ein echtes Bild konnte und kann man sich leider nur grob machen, da offizielle oder verlässliche Informationen rar gesät sind.
Klar und offiziell von AMD herausgegeben sind nur grobe Details:
Der Schleier hat sich aber seit dem 30. September nennenswert geöffnet, dank einem von AMD eingesendeten Compiler Patch für die GNU Compiler Collection, kurz GCC, welcher die ersten Optimierungen für Zen einpflegt:
https://patchwork.ozlabs.org/patch/524324/
Mit diesen Informationen hat sich ein bekannter Technik Veteran Matthias Waldhauer (Dresdenboy), welcher seit vielen Jahren eingereichte Patente analysiert und CPU-Entwicklungen verfolgt, auseinandergesetzt.
Citavia Blog
Folgendes, von Dresdenboy gezeichnete Schema, könnte Zen sehr nahe kommen:
Aus den Patch-Einträgen ergibt sich pro Zen-Kern:
- Ein 32-KB großer L1-Cache und 512-KB großer L2-Cache.
- Es gibt 4-Decoder
- Jeweils 4-Integer-Pipes, 2-AGUs, und 4-Floating-Point-Pipes.
- Zwei davon stellen ADD-Pipes und zwei MUL-Pipes dar, welche alle 128-Bit breit sind.
Auf der Integer-Seite fällt ein Zen-Kern damit sehr breit aus.
4 Integer-Pipes stellen das doppelte eines Jaguar oder Bulldozer Integer-Cores dar und sind auf dem selben Niveau wie Intel seit Haswell.
Das man 4-Integer-Pipes mit einzelnen Threads schwer auslasten kann, teilweise sogar 3, zeigt sich bei Intel seit Jahren, weswegen SMT eine geeignete Möglichkeit darstellt die Auslastung zu erhöhen.
Auf der Floating-Point-Seite überraschen mich die Daten.
Diese sind interessant ausgerichtet.
Der Durchsatz ist mit 2x 128-Bit ADD und MUL bei den "handelsüblichen" Operationen doppelt so hoch, wie bei Intels Prozessoren und der alten Bulldozer Linie von AMD (Jeweils 1x ADD+MUL pro Takt).
Kommt allerdings AVX und/oder FMA ins Spiel, zeigen sich Nachteile.
Bei 256-Bit AVX werden jeweils zwei Ausführungsschritte gebraucht, wo Intel schon ab Sandy-Bridge dank 256-Bit Pipes nur jeweils einen benötigt (Der Durchsatz liegt dann auf gleicher Höhe).
Bei FMA-Operationen soll laut Patch nur eine ADD-Pipe zur Funktion bereitstehen.
Damit würde sich pro Takt nur eine 1x 128-Bit FMA-Operation herausquetschen lassen, gegenüber 2 vom alten Bulldozer und ebenso 2 bei Intel ab Haswell (Welcher sogar 2x 256-Bit schafft).
Den normalen Verbraucher interessiert das unter Umständen wenig, da die meisten Programme nicht Gebrauch von AVX machen, geschweige denn FMA, bisher kenne ich selber nur die Codemasters Rennspiele, welche AVX verwenden und unter einfachen 128-Bit ADD/MUL Operationen ist der Durchsatz am höchsten, für spezielle Anwender und Enterprise/Hochleistungsrechner fällt die FPU dagegen schwach aus.
Unter Umständen wird AMD aber einen ähnlichen Ansatz wie Intel mit Skylake verfolgen.
Für Client-Kunden gibt es eine schmalere Floating-Point-Unit, während Enterprise-Kunden eine viel größere bekommen.
Diese Möglichkeit hat vor vielen Jahren schon die italienische Seite Bits&Chips genannt, welche angeblich Informationen erhalten haben, dass AMD mit Zen ein sehr modulares Konzept verfolgt, wo sogar unterschiedliche FPUs verbaut werden können, je nach Marktsegment.
Herrschte vor vielen Jahren generelles Unwissen über AMDs Zukunftspläne, wurden diese sehr grob 2014 von AMD auf der Core Innovation Summit offen gelegt.
Es folgten viele (falsche&richtige) Gerüchte, Spekulationen und potentielle Leaks, garniert mit weiteren offiziellen AMD-Angaben.
Ein echtes Bild konnte und kann man sich leider nur grob machen, da offizielle oder verlässliche Informationen rar gesät sind.
Klar und offiziell von AMD herausgegeben sind nur grobe Details:
Der Schleier hat sich aber seit dem 30. September nennenswert geöffnet, dank einem von AMD eingesendeten Compiler Patch für die GNU Compiler Collection, kurz GCC, welcher die ersten Optimierungen für Zen einpflegt:
https://patchwork.ozlabs.org/patch/524324/
Mit diesen Informationen hat sich ein bekannter Technik Veteran Matthias Waldhauer (Dresdenboy), welcher seit vielen Jahren eingereichte Patente analysiert und CPU-Entwicklungen verfolgt, auseinandergesetzt.
Citavia Blog
Folgendes, von Dresdenboy gezeichnete Schema, könnte Zen sehr nahe kommen:
Aus den Patch-Einträgen ergibt sich pro Zen-Kern:
- Ein 32-KB großer L1-Cache und 512-KB großer L2-Cache.
- Es gibt 4-Decoder
- Jeweils 4-Integer-Pipes, 2-AGUs, und 4-Floating-Point-Pipes.
- Zwei davon stellen ADD-Pipes und zwei MUL-Pipes dar, welche alle 128-Bit breit sind.
Auf der Integer-Seite fällt ein Zen-Kern damit sehr breit aus.
4 Integer-Pipes stellen das doppelte eines Jaguar oder Bulldozer Integer-Cores dar und sind auf dem selben Niveau wie Intel seit Haswell.
Das man 4-Integer-Pipes mit einzelnen Threads schwer auslasten kann, teilweise sogar 3, zeigt sich bei Intel seit Jahren, weswegen SMT eine geeignete Möglichkeit darstellt die Auslastung zu erhöhen.
Auf der Floating-Point-Seite überraschen mich die Daten.
Diese sind interessant ausgerichtet.
Der Durchsatz ist mit 2x 128-Bit ADD und MUL bei den "handelsüblichen" Operationen doppelt so hoch, wie bei Intels Prozessoren und der alten Bulldozer Linie von AMD (Jeweils 1x ADD+MUL pro Takt).
Kommt allerdings AVX und/oder FMA ins Spiel, zeigen sich Nachteile.
Bei 256-Bit AVX werden jeweils zwei Ausführungsschritte gebraucht, wo Intel schon ab Sandy-Bridge dank 256-Bit Pipes nur jeweils einen benötigt (Der Durchsatz liegt dann auf gleicher Höhe).
Bei FMA-Operationen soll laut Patch nur eine ADD-Pipe zur Funktion bereitstehen.
Damit würde sich pro Takt nur eine 1x 128-Bit FMA-Operation herausquetschen lassen, gegenüber 2 vom alten Bulldozer und ebenso 2 bei Intel ab Haswell (Welcher sogar 2x 256-Bit schafft).
Den normalen Verbraucher interessiert das unter Umständen wenig, da die meisten Programme nicht Gebrauch von AVX machen, geschweige denn FMA, bisher kenne ich selber nur die Codemasters Rennspiele, welche AVX verwenden und unter einfachen 128-Bit ADD/MUL Operationen ist der Durchsatz am höchsten, für spezielle Anwender und Enterprise/Hochleistungsrechner fällt die FPU dagegen schwach aus.
Unter Umständen wird AMD aber einen ähnlichen Ansatz wie Intel mit Skylake verfolgen.
Für Client-Kunden gibt es eine schmalere Floating-Point-Unit, während Enterprise-Kunden eine viel größere bekommen.
Diese Möglichkeit hat vor vielen Jahren schon die italienische Seite Bits&Chips genannt, welche angeblich Informationen erhalten haben, dass AMD mit Zen ein sehr modulares Konzept verfolgt, wo sogar unterschiedliche FPUs verbaut werden können, je nach Marktsegment.
Zuletzt bearbeitet: