Sollte sich das bewahrheiten, verstehe ich nicht, warum AMD noch immer diesen Weg geht. Ich bin ja eher der Meinung, dass die erreichbare Performance immer mit so wenig Kernen wie möglich erzielt werden sollte. So entgeht man der Abhängigkeit von stark parallelisierbaren Anwendungen.
Sorry, aber ich verstehs nicht, möchte jetzt aber auch nicht behaupten, dass ich darüber ein objektives Urteil fällen kann. Dafür kenne ich mich zu wenig mit der Architektur von CPUs aus...


Letztlich kommt es darauf an, wie hoch das Endprodukt getaktet ist. 40% IPC heißt nicht 40% mehr Leistung, wenn die Taktraten 300-700
mHz niedriger sind. Das einzige was dann bleibt, ist Effizienz.
Man sollte aber auch bedenken, dass es Architekturverbesserungen sind und die 40% sich wohl darauf beziehen. Wir wissen alle nicht, wie schnell Excavator mit L3-Cache wäre, denn eine solche CPU gab es nie. Bulldozer scheint diesen aber sehr nötig zu haben, also lief Excavator immer mit angezogener Handbremse. Heißt also 40% IPC-Vorteil + L3-Cache. Das scheint also eine relativ knappe Kiste mit Haswell/Skylake zu werden, aber mit 4 zusätzlichen Kernen weiß ich jedenfalls wer in meinen PC wandert ^^
Ähm...dir ist aber schon klar dass Zen keine "Module" mehr wie Bulldozer hat ? Es sind 8 Kerne und 16 Threads, eben genau wie bei dem angesprochenen Intel.
Somit sollte dann auch nur 20% der Leistung fehlen...
Wir wissen ja weder, wie gut ein AotS auf so viele Threads skaliert, noch kann man darüber Aussagen treffen wie sehr die Leistung dann ein bricht.
Zudem geht AMD eben nicht den alten Weg mit vielen Integer-Kernen und einer FPU sondern zurück auf die alten Pfade, aber jetzt mit SMT.
Viele Kerne bieten den Vorteil, dass diese eigenständig arbeiten und für die geteilte Last nicht hoch takten müssen, was Energie spart. Ein hoch gezüchteter Kern mit 4GHz kann weitaus mehr verbrauchen als 4 Kerne mit 1GHz, um eine Parallelisierung des Workloads kommen wir seit Jahren eh nicht drum rum und das wird sich auch nicht mehr ändern.
Man muss auch bedenken, dass irgendwann eine Pipeline einfach voll ist und noch mehr Stufen diese irgendwann ausbremsen. Da sind zusätzliche Kerne der Geschwindigkeit einfach zuträglicher statt den Kern immer weiter aufzublasen. In dieses Bottleneck rennt Apple momentan rein, weil ihr iOS nicht von vorn herein auf Multicore ausgelegt war und ihr ganzes Ökosystem ein kleiner Flickenteppich ist. Android war von vorn herein vollständig auf Multicore ausgelegt, darum haben die Handys auch mehrere kleine Kerne statt 1-2 große wie beim iPhone
Um die Sache anschaulicher zu machen, stell dir einfach n fetten Strongman vor, den du mit Steroiden ans Limit bringst um einen LKW zu ziehen. 10 durchschnittlich trainierte Menschen können den mit Leichtigkeit ziehen während der Strongman ans Limit muss und für 10 Leute frisst
Man sollte aber auch bedenken, dass es Architekturverbesserungen sind und die 40% sich wohl darauf beziehen. Wir wissen alle nicht, wie schnell Excavator mit L3-Cache wäre, denn eine solche CPU gab es nie. Bulldozer scheint diesen aber sehr nötig zu haben, also lief Excavator immer mit angezogener Handbremse. Heißt also 40% IPC-Vorteil + L3-Cache. Das scheint also eine relativ knappe Kiste mit Haswell/Skylake zu werden, aber mit 4 zusätzlichen Kernen weiß ich jedenfalls wer in meinen PC wandert ^^
iGameKudan schrieb:Naja, abwarten. Bei Engineering Samples gibt es eine ganze Menge an Möglichkeiten, welche die Performance drücken...
- geringe Taktraten
- Optimierungspotenzial an der CPU selbst (z.B. beim Xeon E5-2670 wurden ja im Nachhinein noch Änderungen vorgenommen und ein neues Stepping eingeführt, welche z.B. mögliche Probleme mit USB-Ports behoben haben)
- keine oder nur schlecht funktionierende Treiber
- das BIOS/UEFI dürfte auch noch ein großes Optimierungspotenzial bieten
-...
Ich kann auch gut vorstellen (z.B. wegen den FX-Patches für Windows 7...)´, dass Windows noch kleinere Anpassungen für eine optimale Performance benötigen könnte...
Außerdem ist es ja nur ein Spiel unter den vielen Spielen und Anwendungen...
Da ist ja auch schon die einfache Antwort.[...]
Na ja, einen perfekten Weg scheint es nicht zu geben, sonst würden Intel und AMD diesbezüglich sehr ähnliche Ansätze verfolgen.
Gab gestern schon 2 Thread zu: Wahrscheinlich erster ZEN Benchmark
Trotzdem ändert das doch nichts daran, dass extrem viele Anwendungen nur wenige Threads nutzen. Je mehr Kerne, desto größer ist der Leistungsabfall in diesen Anwendungen.
Ich bin halt der Meinung, solange man die Pro Kern Leistung steigern kann, sollte man das auch tun. IMHO sollte das das Primäre ziel sein, sonst wird der Kompromiss immer größer und ein Auslasten der CPU immer schwieriger.
AMD selbst sagt nichts dazu, das sind nur Spekulationen aus ForenDas halte ich für zu optimistisch. AMD sagt ungefähr Haswell? Ich vermute mal die landen im Endeffekt bei minus 5% Haswell Leistung. Aber mal sehen was dann die Tests im neuen Jahr sagen.


Ich weiß nicht woher die Vorstellung kommt immer HBM als Cache verwenden zu wollen, dass wäre für die meisten Anwendungsfälle heftig unsinnig.
Das ganze wäre auch nicht mit Intels eDRAM-Lösung zu vergleichen, wenn man so etwas haben möchte, dann löst man das auch besser ebenso.
Naja schon, aber wenn erhöhter IPC sich nicht in einen gewissen %-Satz Leistung niederschlägt, kann ich mir als Endverbraucher mit der Info den Hintern abwischen
Eigentlich wollte ich damit auch keine Diskussion über Begrifflichkeiten lostreten, da gibt es ja immer jemanden der es besser weiß - mir ging es in erster Linie darum, dass das mit dem Versprechen gepaart war, wieder "an INTEL ran" zu kommen.
Ähm...dir ist aber schon klar dass Zen keine "Module" mehr wie Bulldozer hat ? Es sind 8 Kerne und 16 Threads, eben genau wie bei dem angesprochenen Intel.
Somit sollte dann auch nur 20% der Leistung fehlen...
Soweit ich mich erinnere, liegen die internen Caches bei ~20-30ns, normaler DRAM bei 60-80ns und HBM irgendwo zwischen 40-60ns. Zudem hat man die Möglichkeit über einen viel breiteren Datenbus schneller die Daten zu schieben, was gerade bei Inhalten die hintereinander im Speicher liegen ziemliche Vorteile bringen kann.

Ein weiterer großer Nachteil von HBM beim Einsatz als CPU-Cache wäre auf alle Fälle die Granularität. Pro Takt werden 256 Byte ausgelesen, die kleinste Zugriffseinheit müsste 32 Byte betragen. Zum Vergleich: Der Wechsel von 4 auf 8 Byte Prefetch (für ein ganzes Modul) zwischen DDR2 und DDR3/4 hat bereits für messbare Performance-Einbußen bei gleichem Takt und gleichen Latenzen gesorgt – und das war beim Einsatz als Hauptspeicher, wo vergleichsweise große Datenblöcke transferiert werden.
Nö, wieso?Mit einem Cache verbindet man aus Hardware-Sicht etwas mehr als einfachen Speicher.