AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

Elkinator · 3. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

100001 schrieb:
Die Steamroller hat 128bit pro Modul

unsinn, informier dich doch mal!

News AMD präsentiert Steamroller-Details, der 3. Generation der Bulldozer-Architektur auf der Hotchips-Konferenz: +30% IPC?

VikingGe · 3. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

Auch wenn man viele unabhängige Werte addiert oder Multipliziert, kann ein Compiler daraus einfach Vektoren bilden und das ganze in 1-2 Schritten berechnen.

Das geht eben nicht immer so 'einfach'. Kann man wunderbar am Compiler-Explorer sehen, wenn man den mit etwas Beispielcode füttert (Compilerflags auf -Ofast -march=core-avx2 -std=c++11):

Code:

#include <cstddef>

struct alignas(16) Vector4D {
  Vector4D() { }
  Vector4D(float _x, float _y, float _z, float _w)
  : x(_x), y(_y), z(_z), w(_w) { }
  float x, y, z, w;
  inline Vector4D operator + (const Vector4D& other) const {
    return Vector4D(
      this->x + other.x,
      this->y + other.y,
      this->z + other.z,
      this->w + other.w);
  }
  inline Vector4D operator * (const float scale) const {
    return Vector4D(
      this->x * scale,
      this->y * scale,
      this->z * scale,
      this->w * scale);
  }
};

struct Matrix4D {
  Vector4D cols[4];
  Vector4D operator * (const Vector4D& vector) const {
    return this->cols[0] * vector.x
      	 + this->cols[1] * vector.y
      	 + this->cols[2] * vector.z
      	 + this->cols[3] * vector.w;
  }
};

void multiplyMatrixVectorArray(const Matrix4D& matrix, Vector4D* dst, const Vector4D* src, const size_t count) {
  for (size_t i = 0; i < count; i++)
    dst[i] = matrix * src[i];
}

Clang generiert keinen sonderlich effizienten Code und bekommt das auch nicht auf 256 Bit vektorisiert, der supertolle Intel-Compiler kann das gar nicht vektorisieren und was GCC da versucht, weiß ich nicht. Handgeschrieben ist das dagegen recht straightforward:

Code:

[asmjit] ; MultiplyMatrixVectorArrayF32
[asmjit] vbroadcastf128 ymm0, [rsi]          ; C4E27D1A06          | vbroadcastf128 matrix[0], [mat]            .r..x... ....  ........
[asmjit] vbroadcastf128 ymm1, [rsi+0x10]     ; C4E27D1A4E10        | vbroadcastf128 matrix[1], [mat+16]         .r...x.. ....  ........
[asmjit] vbroadcastf128 ymm2, [rsi+0x20]     ; C4E27D1A5620        | vbroadcastf128 matrix[2], [mat+32]         .r....x. ....  ........
[asmjit] vbroadcastf128 ymm3, [rsi+0x30]     ; C4E27D1A5E30        | vbroadcastf128 matrix[3], [mat+48]         .R.....x ....  ........
[asmjit] mov rsi, rdx                        ; 488BF2              | [Move] src                                                        
[asmjit] test rcx, rcx                       ; 4885C9              | test count, count                          . .r.... ....  ........
[asmjit] jz L2                               ; 0F84........        | jz L2                                      . ...... ....  ........
[asmjit] cmp rcx, 6                          ; 4883F906            | cmp count, 6                               . .r.... ....  ........
[asmjit] jl L5                               ; 0F8C........        | jl L5                                      . ...... ....  ........
[asmjit] mov rax, 10                         ; 48C7C010000000      | mov alignHelper, 16                        . ......w....  ........
[asmjit] and rax, rdi                        ; 4823C7              | and alignHelper, dst                       r ......x....  ........
[asmjit] jz L3                               ; 0F84........        | jz L3                                      . ...........  ........
[asmjit] add rdi, rax                        ; 4803F8              | add dst, alignHelper                       x ......r....  ........
[asmjit] add rsi, rax                        ; 4803F0              | add src, alignHelper                       . x.....r....  ........
[asmjit] neg rax                             ; 48F7D8              | neg alignHelper                            . ......x....  ........
[asmjit] vmovaps xmm7, [rsi+rax]             ; C5F8283C06          | vmovaps v1-2.w, [src+alignHelper]          . r.....r...x  ........
[asmjit] vshufps xmm4, xmm7, xmm7, 0         ; C5C0C6E700          | vshufps v1-2.x, v1-2.w, v1-2.w, 0          . .......x..r  ........
[asmjit] vmulps xmm4, xmm4, xmm0             ; C5D859E0            | vmulps v1-2.x, v1-2.x, matrix[0]           . ..r....x...  ........
[asmjit] vshufps xmm5, xmm7, xmm7, 55        ; C5C0C6EF55          | vshufps v1-2.y, v1-2.w, v1-2.w, 85         . ........x.r  ........
[asmjit] vfmaddps xmm4, xmm5, xmm1, xmm4     ; C4E35168E140        | vfmaddps v1-2.x, v1-2.y, matrix[1], v1-2.x . ...r...xr..  ........
[asmjit] vshufps xmm6, xmm7, xmm7, AA        ; C5C0C6F7AA          | vshufps v1-2.z, v1-2.w, v1-2.w, 170        . .........xr  ........
[asmjit] vfmaddps xmm4, xmm6, xmm2, xmm4     ; C4E34968E240        | vfmaddps v1-2.x, v1-2.z, matrix[2], v1-2.x . ....r..x.r.  ........
[asmjit] vshufps xmm7, xmm7, xmm7, FF        ; C5C0C6FFFF          | vshufps v1-2.w, v1-2.w, v1-2.w, 255        . ..........x  ........
[asmjit] vfmaddps xmm4, xmm7, xmm3, xmm4     ; C4E34168E340        | vfmaddps v1-2.x, v1-2.w, matrix[3], v1-2.x . .....r.x..r  ........
[asmjit] vmovaps [rdi+rax], xmm4             ; C5F8292407          | vmovaps [dst+alignHelper], v1-2.x          r ......rr...  ........
[asmjit] sub rcx, 1                          ; 4883E901            | sub count, 1                               . .x.... ....  ........
[asmjit] L3:                                 ;                     |                                            . ...... ....  ........
[asmjit] mov rax, 2AAAAAAAAAAAAAAB           ; 48B8ABAAAAAAAAAAAA2A| mov cntLo, 3074457345618258603             . ...... ....w ........
[asmjit] mul rcx                             ; 48F7E1              | mul cntHi, cntLo, count                    . .r.... ....xw........
[asmjit] lea rdx, [rdx+rdx*2]                ; 488D1452            | lea cntHi, [cntHi+cntHi*2]                 . ...... .....x........
[asmjit] shl rdx, 1                          ; 48D1E2              | shl cntHi, 1                               . ...... .....x........
[asmjit] sub rcx, rdx                        ; 482BCA              | sub count, cntHi                           . .x.... .....r........
[asmjit] shl rdx, 4                          ; 48C1E204            | shl cntHi, 4                               . ...... .....x........
[asmjit] add rsi, rdx                        ; 4803F2              | add src, cntHi                             . x..... .....r........
[asmjit] add rdi, rdx                        ; 4803FA              | add dst, cntHi                             x ...... .....r........
[asmjit] neg rdx                             ; 48F7DA              | neg cntHi                                  . ...... .....x........
[asmjit] .align 32
[asmjit] L4:                                 ;                     |                                            . ...... ..............
[asmjit] vmovups ymm7, [rsi+rdx]             ; C5FC103C16          | vmovups v1-2.w, [src+cntHi]                . r..... ...x.r........
[asmjit] vmovups ymm11, [rsi+rdx+0x20]       ; C57C105C1620        | vmovups v3-4.w, [src+cntHi+32]             . r..... .....r...x....
[asmjit] vmovups ymm15, [rsi+rdx+0x40]       ; C57C107C1640        | vmovups v5-6.w, [src+cntHi+64]             . r..... .....r.......x
[asmjit] vshufps ymm4, ymm7, ymm7, 0         ; C5C4C6E700          | vshufps v1-2.x, v1-2.w, v1-2.w, 0          . ...... x..r..........
[asmjit] vshufps ymm8, ymm11, ymm11, 0       ; C44124C6C300        | vshufps v3-4.x, v3-4.w, v3-4.w, 0          . ...... ......x..r....
[asmjit] vshufps ymm12, ymm15, ymm15, 0      ; C44104C6E700        | vshufps v5-6.x, v5-6.w, v5-6.w, 0          . ...... ..........x..r
[asmjit] vmulps ymm4, ymm4, ymm0             ; C5DC59E0            | vmulps v1-2.x, v1-2.x, matrix[0]           . ..r... x.............
[asmjit] vmulps ymm8, ymm8, ymm0             ; C53C59C0            | vmulps v3-4.x, v3-4.x, matrix[0]           . ..r... ......x.......
[asmjit] vmulps ymm12, ymm12, ymm0           ; C51C59E0            | vmulps v5-6.x, v5-6.x, matrix[0]           . ..r... ..........x...
[asmjit] vshufps ymm5, ymm7, ymm7, 55        ; C5C4C6EF55          | vshufps v1-2.y, v1-2.w, v1-2.w, 85         . ...... .x.r..........
[asmjit] vshufps ymm9, ymm11, ymm11, 55      ; C44124C6CB55        | vshufps v3-4.y, v3-4.w, v3-4.w, 85         . ...... .......x.r....
[asmjit] vshufps ymm13, ymm15, ymm15, 55     ; C44104C6EF55        | vshufps v5-6.y, v5-6.w, v5-6.w, 85         . ...... ...........x.r
[asmjit] vfmaddps ymm4, ymm5, ymm1, ymm4     ; C4E35568E140        | vfmaddps v1-2.x, v1-2.y, matrix[1], v1-2.x . ...r.. xr............
[asmjit] vfmaddps ymm8, ymm9, ymm1, ymm8     ; C4633568C180        | vfmaddps v3-4.x, v3-4.y, matrix[1], v3-4.x . ...r.. ......xr......
[asmjit] vfmaddps ymm12, ymm13, ymm1, ymm12  ; C4631568E1C0        | vfmaddps v5-6.x, v5-6.y, matrix[1], v5-6.x . ...r.. ..........xr..
[asmjit] vshufps ymm6, ymm7, ymm7, AA        ; C5C4C6F7AA          | vshufps v1-2.z, v1-2.w, v1-2.w, 170        . ...... ..xr..........
[asmjit] vshufps ymm10, ymm11, ymm11, AA     ; C44124C6D3AA        | vshufps v3-4.z, v3-4.w, v3-4.w, 170        . ...... ........xr....
[asmjit] vshufps ymm14, ymm15, ymm15, AA     ; C44104C6F7AA        | vshufps v5-6.z, v5-6.w, v5-6.w, 170        . ...... ............xr
[asmjit] vfmaddps ymm4, ymm6, ymm2, ymm4     ; C4E34D68E240        | vfmaddps v1-2.x, v1-2.z, matrix[2], v1-2.x . ....r. x.r...........
[asmjit] vfmaddps ymm8, ymm10, ymm2, ymm8    ; C4632D68C280        | vfmaddps v3-4.x, v3-4.z, matrix[2], v3-4.x . ....r. ......x.r.....
[asmjit] vfmaddps ymm12, ymm14, ymm2, ymm12  ; C4630D68E2C0        | vfmaddps v5-6.x, v5-6.z, matrix[2], v5-6.x . ....r. ..........x.r.
[asmjit] vshufps ymm7, ymm7, ymm7, FF        ; C5C4C6FFFF          | vshufps v1-2.w, v1-2.w, v1-2.w, 255        . ...... ...x..........
[asmjit] vshufps ymm11, ymm11, ymm11, FF     ; C44124C6DBFF        | vshufps v3-4.w, v3-4.w, v3-4.w, 255        . ...... .........x....
[asmjit] vshufps ymm15, ymm15, ymm15, FF     ; C44104C6FFFF        | vshufps v5-6.w, v5-6.w, v5-6.w, 255        . ...... .............x
[asmjit] vfmaddps ymm4, ymm7, ymm3, ymm4     ; C4E34568E340        | vfmaddps v1-2.x, v1-2.w, matrix[3], v1-2.x . .....r x..r..........
[asmjit] vfmaddps ymm8, ymm11, ymm3, ymm8    ; C4632568C380        | vfmaddps v3-4.x, v3-4.w, matrix[3], v3-4.x . .....r ......x..r....
[asmjit] vfmaddps ymm12, ymm15, ymm3, ymm12  ; C4630568E3C0        | vfmaddps v5-6.x, v5-6.w, matrix[3], v5-6.x . .....r ..........x..r
[asmjit] vmovaps [rdi+rdx], ymm4             ; C5FC292417          | vmovaps [dst+cntHi], v1-2.x                r ...... r....r........
[asmjit] vmovaps [rdi+rdx+0x20], ymm8        ; C57C29441720        | vmovaps [dst+cntHi+32], v3-4.x             r ...... .....rr.......
[asmjit] vmovaps [rdi+rdx+0x40], ymm12       ; C57C29641740        | vmovaps [dst+cntHi+64], v5-6.x             r ...... .....r....r...
[asmjit] add rdx, 60                         ; 4883C260            | add cntHi, 96                              . ...... .....x........
[asmjit] jnz L4                              ; 0F854EFFFFFF        | jnz L4                                     . ...... ..............
[asmjit] test rcx, rcx                       ; 4885C9              | test count, count                          . .r.... ....          
[asmjit] jz L2                               ; 0F84........        | jz L2                                      . ...... ....          
[asmjit] L5:                                 ;                     |                                            . ...... ....          
[asmjit] shl rcx, 4                          ; 48C1E104            | shl count, 4                               . .x.... ....          
[asmjit] add rdi, rcx                        ; 4803F9              | add dst, count                             x .r.... ....          
[asmjit] add rsi, rcx                        ; 4803F1              | add src, count                             . xr.... ....          
[asmjit] neg rcx                             ; 48F7D9              | neg count                                  . .x.... ....          
[asmjit] .align 32
[asmjit] L6:                                 ;                     |                                            . ...... ....          
[asmjit] vmovaps xmm7, [rsi+rcx]             ; C5F8283C0E          | vmovaps v1-2.w, [src+count]                . rr.... ...x          
[asmjit] vshufps xmm4, xmm7, xmm7, 0         ; C5C0C6E700          | vshufps v1-2.x, v1-2.w, v1-2.w, 0          . ...... x..r          
[asmjit] vmulps xmm4, xmm4, xmm0             ; C5D859E0            | vmulps v1-2.x, v1-2.x, matrix[0]           . ..r... x...          
[asmjit] vshufps xmm5, xmm7, xmm7, 55        ; C5C0C6EF55          | vshufps v1-2.y, v1-2.w, v1-2.w, 85         . ...... .x.r          
[asmjit] vfmaddps xmm4, xmm5, xmm1, xmm4     ; C4E35168E140        | vfmaddps v1-2.x, v1-2.y, matrix[1], v1-2.x . ...r.. xr..          
[asmjit] vshufps xmm6, xmm7, xmm7, AA        ; C5C0C6F7AA          | vshufps v1-2.z, v1-2.w, v1-2.w, 170        . ...... ..xr          
[asmjit] vfmaddps xmm4, xmm6, xmm2, xmm4     ; C4E34968E240        | vfmaddps v1-2.x, v1-2.z, matrix[2], v1-2.x . ....r. x.r.          
[asmjit] vshufps xmm7, xmm7, xmm7, FF        ; C5C0C6FFFF          | vshufps v1-2.w, v1-2.w, v1-2.w, 255        . ...... ...x          
[asmjit] vfmaddps xmm4, xmm7, xmm3, xmm4     ; C4E34168E340        | vfmaddps v1-2.x, v1-2.w, matrix[3], v1-2.x . .....r x..r          
[asmjit] vmovaps [rdi+rcx], xmm4             ; C5F829240F          | vmovaps [dst+count], v1-2.x                r .r.... r...          
[asmjit] add rcx, 10                         ; 4883C110            | add count, 16                              . .x.... ....          
[asmjit] short jnz L6                        ; 75C6                | jnz L6                                     . ...... ....          
[asmjit] L2:                                 ;                     |                                                                   
[asmjit] vzeroupper                          ; C5F877              | vzeroupper                                                        
[asmjit] L1:                                 ;                     |                                                                   
[asmjit] ret                                 ; C3                  |

Aber der Code kümmert sich auch um korrektes Store-Alignment und um den Fall, dass die Anzahl der zu verarbeitenden 128 Bit-Vektoren ungerade ist. Das sind eben diese Probleme, die ich meinte.

Die Steamroller hat 128bit pro Modul

Steamroller hat 2x128 Bit FMA, genau wie Piledriver und Bulldozer auch. Weggefallen ist nur irgendeine Einheit, die ein paar exotischere Befehle ausgeführt hat - nichts Weltbewegendes.

Pu244 · 3. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

Elkinator schrieb:
bei Excavator hat jeder kern seinen eigen decoder.
die hohen cache latenzen haben NICHTS mit CMT zutun.

Für den Fall das du es nicht weißt: die absolute Überlegenheit des Bulldozers ist vermutlich in den Cachelatenzen begraben. Allein das der L3 Cache nur mit Northbridgegeschwindigkeit angebunden ist kostet wohl 30% und mehr Leistung, irgendwo muß ja die theoretische Überlegenheit des großen Centurios gegenüber dem 4790K von sagenhaften 235% abgeblieben sein.

Tatsache ist nunmal das für einen guten CMT Ansatz eine optimale Cacheanbindung unerläßlich ist.

Cross-Flow schrieb:
#2
Was NV daran nicht kann? Öhm ja, x86 CPUs APUs z.B.

Was aber eher an der fehlenden x86er Lizenz liegt und weniger an der Skalierbarkeit der Maxwellarchitektur. Nvidia hat dafür übrigens den Tegra, da hat AMD nichts (dem dämlichen Ex CEO sei dank...).

Cross-Flow schrieb:
#3
Furmark Vergleiche sind sowas von sinnlos. Oder "spielt" hier irgendwer den ganzen Tag Furmark? Okay Auto Vegleiche sind banane aber "Bencht" der ADAC den Energieverbrauch von Fahrzeugen bei Vollgas mit 250 KMh auf der Autobahn. Wer den Lastverbrauch mit Prime, Furmark o.Ä. misst und daraus schlüsse zum Alltagsverbrauch zieht hat ganz gewaltige Probleme mit der eigentlichen Realität.

FurMark und Prime 95 erzeugt die höchste anzunehmende Last und ist somit mMn das wonach der Netzteilkauf ausgelegt werden sollte, plus Sicherheitsreserven. Somit erlebt man keine bösen Überraschungen wenn mal etwas kommt was das System so richtig auslastet. Auch sonst sieht es nicht allzu gut aus für die Fury X, es hat schon seinen Grund warum AMD auf eine Wakü gesetzt hat während sich Nvidia weiterhin mit Luft begnügt.

Elkinator · 3. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

eine MMX-Pipe ist weggefallen, weil die unnötig war.

Cross-Flow · 3. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

AMD, könnte wenn sie denn wollten, die Fury X ebenso mit Luft kühlen. 20 Mhz Chiptakt runter und den Kühler der Sapphire Fury benutzten - tadaa.

Das es bei NV an der fehlenden x86 Lizenz liegt ist mir schon klar. Tegra ist eine interessante sache die aber keinerlei Verbreitung findet. Vorallem vergisst du einen ganz entscheidenen Punkt:

ARM Cores und CPUs sind was ganz anderes als das mit dem wir uns hier beschäftigen. ARM ist bei Tegra für low power optimiert, ebenso wie die "GPU" die da mit drann hängt.

Was NV im Gegensatz zu AMD NICHT kann ist ein Design vorweisen welches von größen FM2+ APU mit 95 Watt bis zur AM1 20 Watt Klasse und noch drunter skaliert.

Es ist nicht möglich bei einem low power prozess so wie es Tegra ist mal eben die Hardwareeinheiten zu erhöhen, mehr Spannung und Takt drauf zu geben und eine "95 Watt APU" zu basteln.

AMDs Grafiklösungen in den APUs sind konkurenzlos, nicht mal Intel hält da mit.

R_Apid_Pr0 · 3. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

Cross-Flow schrieb:
AMDs Grafiklösungen in den APUs sind konkurenzlos, nicht mal Intel hält da mit.

Und das weis niemand zu schätzen! Immer nur: Ööööh AMDs sind so langsam.
Das Konzept hinter CMT ist wirklich Gut! Mit besseren Caches und co. würde da viel gehen..

KingofKingzZ · 3. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

R_Apid_Pr0 schrieb:
Und das weis niemand zu schätzen! Immer nur: Ööööh AMDs sind so langsam.
Das Konzept hinter CMT ist wirklich Gut! Mit besseren Caches und co. würde da viel gehen..

Kann mir jemand erklären, warum die Caches beim Bulli denn so lahm waren? Ich mein wenn das außenstehenden schon auffällt, wird es den Ingenieuren ja wohl mehr als klar sein. Warum hat man da bei auf Bulli folgenden Ausbaustufen nicht drauf geachtet bzw. warum überhaupt bei BD nicht von Anfang an nochmal dran geschraubt?

Elkinator · 3. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

Kann mir jemand erklären, warum die Caches beim Bulli denn so lahm waren?

weil der 32nm prozess bis zum ende ******* war?

28nm SOI war geplant, der FX dafür war fertig und GF hat den prozess nie zum laufen bekommen.
AMD kann entwickeln was sie wollen, bringt alles nichts wenn es keinen fertiger gibt der mit Intel mithalten kann.
jetzt mit Samsung wird sich das ändern, mit 14nm zieht AMD dann gleich und bei 10nm könnte AMD dann sogar führend sein.
Intel könnte 10nm zugunsten von 7nm aufgeben!

Brehministrator · 3. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

Elkinator schrieb:
AMD kann entwickeln was sie wollen, bringt alles nichts wenn es keinen fertiger gibt der mit Intel mithalten kann.

Das ist sehr wahr, kann ich so unterschreiben. Leider ist es nicht ganz leicht, mit Intel mitzuhalten. Wenn das Design/Layout und die Fertigung im gleichen Unternehmen stattfinden, ist es viel einfacher, beides sehr fein aufeinander abzustimmen. Also mal abgesehen von der eigentlichen Qualität des Fertigungsverfahrens ist auch diese Feinabstimmung ein Pluspunkt für Intel.

Elkinator schrieb:
jetzt mit Samsung wird sich das ändern, mit 14nm zieht AMD dann gleich

Kann man nur die Daumen drücken, dass es so kommt. Es kann bei solchen extrem anspruchsvollen Prozessen immer zu unvorhergesehenen Schwierigkeiten kommen (hat man ja z.B. bei GloFo gesehen, und selbst Intel hatte ja länger als geplant zu kämpfen mit dem Shrink für Broadwell...).

Cross-Flow · 3. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

KingofKingzZ schrieb:
Kann mir jemand erklären, warum die Caches beim Bulli denn so lahm waren? Ich mein wenn das außenstehenden schon auffällt, wird es den Ingenieuren ja wohl mehr als klar sein. Warum hat man da bei auf Bulli folgenden Ausbaustufen nicht drauf geachtet bzw. warum überhaupt bei BD nicht von Anfang an nochmal dran geschraubt?

Ohne zu tief in die Materie zu gehen ( wenn es gewünscht ist kann ich dir das genau erklären ), ist es Quasi so das BD ( ähnlich wie GCN auch ) ein CPU design ist welches auf durchsatz und nicht zeitkritische Operationen hin optimirt ist. Willst du einen hohen parallelen Durchsatz haben ( in diesem Fall dank CMT ) werden die Chaches langsam.

BD und GCN betteln mit ihrem design quasi darum in arbeit zu ersticken und den workload direkt in die fresse zu bekommen. Bei GCN geht das noch auf, BD war seiner Zeit leider vorraus. Um so mehr workload da ist, um so mehr steigt auch die effizienz und co. Schau dir mal die Energiemessungen an welche bei DX12 Benches bei den Radeons gemacht werden. Trotz mehr FPS hast du keinen Watt mehr Verbrauch.

Würde es so sein das DX 12, AC und co schon lange vorhanden wären so könnte AMD die Chips am sweetspot betreiben. So ne 390 @ 850 Mhz würde weniger verbrauchen als jede GTX 970 - hat dafür aber 8 GB Ram und ein 512 Bit SI.

Wenn man vorurteilsfrei an die ganze sache, und den aufbau der GPUs ran geht erkennt man das Maxwell ein design ist welches extrem "anti parallel" ist. DX11 Code liegt aufgrund der ( seriellen ) DrawCalls extrem gut, es sind halt DX11 karten mit DX12 Sticker drauf. AMD kann unter DX11 niemals so schnell werden wie NV weil da nen ganz anderer Ansatz vorhanden ist. Das ändert sich erst in hohen Auflösungen wenn die Brutal schnellen sharder der Radeons gefüttert werden können.

Rarek · 4. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

tja... sie kriegt halt nicht genug zu futtern, wie Cross-Flow auch schon geschrieben hatte

denn schmeiß mal auf nem Bulli dinge wie F@H, BOINC, etc. an... dann haste mehr Leistung als vergleichbare Intel Pedanten ^^

Oberst Klink · 4. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

AMD ist doch mit Zen mehr oder weniger zum Erfolg verdammt. Wird Zen ein Flop, dürfte das für AMD weitreichende Konsequenzen haben, AMD sogar ruinieren.
Sollte Zen aus technischer Sicht ein voller Erfolg werden, bleibt abzuwarten was AMD aus dem Erfolg machen kann. In der Vergangenheit haben wir ja bereits erlebt, dass AMD Erfolge wie den Athlon 64 nie wirklich in langfristiges Wachstum bzw. den Aufbau einer soliden, finanziellen Basis umwandeln konnte.

Genau das wäre für AMD aber enorm wichtig, damit auch die Nachfolge von ZEN sichergestellt werden kann, damit nach dem Erfolg nicht wieder 7 Jahre Regenwetter drohen, sollte sich eine Architektur mal mehr oder weniger als Fail herausstellen.

rum · 4. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

Schimpft mich pragmatisch, aber wenn ich von AMD ne neue Platform inkl Board, DDR4, USB3(.1) mit dem ganzen aktuellen Schnick-Schnack bekomme und dazu nen 4-8 Kerner, welcher in der eigentlichen CPU Leistung / Kern schneller ist als mein aktueller Phenom II und das alles für um die 600€, ists mir ziemlich wurscht "was die anderen bauen". Ein ordentliches Intel System ist mir einfach zu teuer - naja - vielleicht liegts ja daran, das lange nichts mehr von AMD kam. Zen macht erst mal nen guten Eindruck.

Elkinator · 4. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

schon eine XV-APU mit 6 kernen würde den Phenom 2 überholen, Zen wird da deutlich schneller

Rarek · 4. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

also ich denke mein getretener 4'er Bulli könnte es schon gleichauf sein

(wobei mein 6300'er, aus Spielerechner, bei 4,2 GHz schön geschmeidig rennt mit BOINC ^^ )

Rollora · 4. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

SirBerserk schrieb:
naja, genauso wie heute immernoch 8kerne des bulli so in szene gesetzt werden , dabei ist der bulli ne echte krücke.

naja du kannst dem Blödmarktkunden ja trotzdem dem Bulli - 8 Kerner andrehen. Der reicht auch nach wie vor für die meisten Aufgaben. Wenn er denn mal nicht mehr reicht, war der Kunde einige Jahre zufrieden mit der Marke AMD - und hat sicher nichts dagegen, erneut zu AMD zu greifen.

biamaster schrieb:
Also ich tue schon als Privatperson mein bestes um AMD in die Öffentlichkeit zu tragen.
Hab 2 T-Shirts und einen Pullover drucken lassen.
Und eine kleine LKW-Plane mit "AMD - Smarter Choice" Aufdruck am Balkon hängen so wie mancher seine Deutschlandflagge zur WM/EM.

Brav. Und ich hab' ein paar hundert Schülern und Studenten davon erzählt

Geht auch.

Rollora · 4. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

plusminus schrieb:
Abwarten und Tee trinken bis....... vieleicht 2017 erste ernst zu nehmende Benches da sind
Obwohl ich da auch schwarz für AMD sehe,denn 2017 ist Intels Cannonlake in 10nm Fertigung draussen

Hm also, dass wenn AMD mit einer CPU anrückt, Intel ihren Fertigungsvorsprung haben wird sich nicht so schnell ändern. Selbst wenn es 2016 noch ist und 14nm, ist der verwendete GloFo 14nm nicht mit Intels 14nm Prozess vergleichbar.
Und 2017 wird man auch bei AMD schon mit 10 nm rumspielen, auch wenn dies nur ein Name ist

SKPC schrieb:
AMD wird im Q4/2016 spätestens (wenn es bei GloFo schneller geht Q3) Zen veröffentlichen, dann werden auch bei PCGH etc. Benches veröffentlicht werden.

ZEN hat noch keinen Tapeout, vom Tapeout bis zum Release vergeht locker 1 Jahr bei Prozessoren. Und jetzt darfst du rechnen.
Ich würde eher von 2017 ausgehen (was breite Verfügbarkeit betrifft) und alles andere als positive Überraschung ansehen.
Wäre ZEN in den nächsten 9 Monaten zu erwarten, würde ein Releasetermin längst rausposaunt werden

Cross-Flow schrieb:
Klar, wenn man 24/7 Furmark und Risen spielt ist das schon ********. Aber wenn man das tut hat man eh ganz anderen Probleme.

Jede Hardware hat ihren Einsatzzweck. Mit meinem M3 fahre ich auch nicht einkaufen, dafür habe ich nen 316i.

Was aber wenn zurkünftige Spiele die GPU so auslasten wie Risen?

Und den Vergleich verstehe ich nicht, ich fahre auch damit zum Einkaufen... es ist ja schließlich nicht günstiger, sich ein Zweitauto zu Kaufen, nur um dann mit dem Spritsparauto zu fahren

Cross-Flow schrieb:
AMDs Grafiklösungen in den APUs sind konkurenzlos, nicht mal Intel hält da mit.

Tatsächlich hat Intel mit Broadwell eine CPU mit eDRAM rausgebracht, welche im GPU Teil wesentlich (30-50%) schneller ist als alles was AMD bislang geliefert hat - bei weitaus weniger Stromverbrauch.
Rein technisch also überhaupt kein Problem.
Der Preis ist einfach nur höchst uninteressant.

Elkinator schrieb:
weil der 32nm prozess bis zum ende ******* war?

28nm SOI war geplant, der FX dafür war fertig und GF hat den prozess nie zum laufen bekommen.
AMD kann entwickeln was sie wollen, bringt alles nichts wenn es keinen fertiger gibt der mit Intel mithalten kann.
jetzt mit Samsung wird sich das ändern, mit 14nm zieht AMD dann gleich und bei 10nm könnte AMD dann sogar führend sein.
Intel könnte 10nm zugunsten von 7nm aufgeben!

Also das Cacheproblem lag nie am 32nm Prozess, sondern war "error by design".
Samsung ist NICHT so viel besser wie GloFo und mit 10nm ist man auch noch nicht an Intels 10nm dran. Viel eher ist das was GloFo derzeit als 10nm bezeichnet mit Intels 14nm vergleichbar. Somit wird man dann auch nicht plötzlich führend sein.
Intel wird NICHT 10nm überspringen (höchstens umbenennen), zumal man für 7 nm ULV benötigt - was noch lange nicht ausreichend bereit ist.

SKPC · 4. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

Rollora schrieb:
Interessant wie du das als Fakt darstellst.
ZEN hat noch keinen Tapeout, vom Tapeout bis zum Release vergeht locker 1 Jahr bei Prozessoren. Und jetzt darfst du rechnen.
Ich würde eher von 2017 ausgehen (was breite Verfügbarkeit betrifft) und alles andere als positive Überraschung ansehen.
Wäre ZEN in den nächsten 9 Monaten zu erwarten, würde ein Releasetermin längst rausposaunt werden

Ähm, 1. Nur weil AMD noch nicht von einem "Zen-Tapeout" gesprochen hat, muss es nicht heißen, dass es nicht schon einen gegeben hat.
2. Entstammt dies wohl von einem Mainboardhersteller AMDs Zen-Prozessoren sollen frühestens im 4. Quartal 2016 kommen
3. Daher, wenn GloFo Probleme in dem Griff bekommt Q3 2016.
Wo ist die Quelle für deine Behauptung?

Olstyle · 4. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

Die Integer Leistung des Zen hat aber nun wirklich gar nichts mit der Fury zu tun. Also bitte wieder BTT.

biamaster · 4. Oktober 2015

AW: AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

plusminus muss halt seine infantilen Gelüste befriedigen.

Freu mich auf Zen, dann wird der Haswell-E eines Freundes alt aussehen.

AMDs Zen: Neue Architekturdetails sprechen für deutlich höhere Integer-Leistung

Freizeitschrauber(in)

Software-Overclocker(in)

Kokü-Junkie (m/w)

Freizeitschrauber(in)

gesperrt

Software-Overclocker(in)

Software-Overclocker(in)

Freizeitschrauber(in)

BIOS-Overclocker(in)

gesperrt

BIOS-Overclocker(in)

Lötkolbengott/-göttin

BIOS-Overclocker(in)

Freizeitschrauber(in)

BIOS-Overclocker(in)

Kokü-Junkie (m/w)

Kokü-Junkie (m/w)

Freizeitschrauber(in)

Moderator

PC-Selbstbauer(in)

Ähnliche Themen