Bulldozer-Benchmarks des 3D Mark Vantage: CPU-Score deutlich vor Phenom II X6

Skysnake · 15. Mai 2011

>50%

Die 6 Kerner sind aber die gleichen DIEs wie die 8 Kerner.

Daher ist das mit den Preisen auch immer so ne Sache. Keiner von uns hat ne Ahnung wie gut oder schlecht die Yeald-Raten bei AMD und Intel sind.

quantenslipstream · 15. Mai 2011

Sturmtank schrieb:
wow die 20 Mbyte sind schon eine Menge.
die 15 Mbyte für den 6 kerner sind ja auch schon riesig
wie viel der fläche fällt eigentlich auf den Speicher.

Du musst relativieren, im LLC sind auch der erste und zweite Cache drin (also der Inhalt).
Bei AMD kannst du die Caches zusammenrechnen, was auch eine Menge macht. 2MB pro Modul plus 8MB 3rd LC.

XE85 · 16. Mai 2011

quantenslipstream schrieb:
Du musst relativieren, im LLC sind auch der erste und zweite Cache drin (also der Inhalt).

da die aber nicht so groß sind ist der verlust nicht so wirklich groß - beim 8 Kerner bleiben immer noch 17,5MB und beim 6 Kerner 13MB im Wost Case Fall das L1 und L2 zu 100% belegt sind

mfg

Skysnake · 16. Mai 2011

Was heißt Worste Case? Du wirst immer den L1 und L2 voll haben mit Daten. Jedes popelige leere Windows liefert ja schon genug Prozesse mit genug Speicherbedarf mit um den L1 und L2 voll zu schreiben. Da wird ja nicht erst nach Bedarf rein geschrieben, sondern erst mal rein geschrieben und erst wenn nötig ersetzt.

PCGH_Marc · 16. Mai 2011

BD ist teilweise inklusive, also einfach aufaddieren geht nicht.

Skysnake · 16. Mai 2011

Aha, woher haste denn das Marc? :wow:

Wäre mir ja absolut neu. Hab von einer Änderung noch nirgends etwas gelesen, das Teile vom L1 oder L2 in einem anderen Cache mit abgelegt werden.

PCGH_Marc · 16. Mai 2011

Ich zitiere den SOG:

2.5.1 L1 Instruction Cache
The out-of-order execution engine of AMD Family 15h processors contains a 64-Kbyte, 2-way setassociative L1 instruction cache. Each line in this cache is 64 bytes long. However, only 32 bytes are fetched in every cycle. Functions associated with the L1 instruction cache are instruction loads, instruction prefetching, instruction predecoding, and branch prediction. Requests that miss in the L1 instruction cache are fetched from the L2 cache or, subsequently, from the L3 cache or system memory. On misses, the L1 instruction cache generates fill requests to a naturally aligned 64-byte line containing the instructions and the next sequential line of bytes (a prefetch). Because code typically exhibits spatial locality, prefetching is an effective technique for avoiding decode stalls. Cache-line replacement is based on a least-recently-used replacement algorithm. Predecoding begins as the L1 instruction cache is filled. Predecode information is generated and stored alongside the instruction cache. This information is used to help efficiently identify the boundaries between variable length AMD64 instructions.

2.5.2 L1 Data Cache
The AMD Family 15h processor contains a 16-Kbyte, 4-way predicted L1 data cache with two 128- bit ports. This is a write-through cache that supports up to two 128 Byte loads per cycle. It is divided into 16 banks, each 16 bytes wide. In addition, the L1 cache is protected from single bit errors through the use of parity. There is a hardware prefetcher that brings data into the L1 data cache to avoid misses. The L1 data cache has a 4-cycle load-to-use latency. Only one load can be performed from a given bank of the L1 cache in a single cycle.

2.5.3 L2 Cache
The AMD Family 15h processor has one shared L2 cache per compute unit. This full-speed on-die L2 cache is mostly inclusive relative to the L1 cache. The L2 is a write-through cache. Every time a store is performed in a core, that address is written into both the L1 data cache of the core the store belongs to and the L2 cache (which is shared between the two cores). The L2 cache has an 18-20 cycle load to use latency. Size and associativity of the AMD Family 15h processor L2 cache is implementation dependent. See the appropriate BIOS and Kernel Developer’s Guide for details.

2.5.4 L3 Cache
The AMD Family 15h processor supports a maximum of 8MB of L3 cache per die, distributed among four L3 sub-caches which can each be up to 2MB in size. The L3 cache is considered a non-inclusive victim cache architecture optimized for multi-core AMD processors. Only L2 evictions cause allocations into the L3 cache. Requests that hit in the L3 cache can either leave the data in the L3 cache—if it is likely the data is being accessed by multiple cores—or remove the data from the L3 cache (and place it solely in the L1 cache, creating space for other L2 victim/copy-backs), if it is likely the data is only being accessed by a single core. Furthermore, the L3 cache of the AMD Family 15h processor also features a number of micro-architectural improvements that enable higher bandwidth.

Skysnake · 16. Mai 2011

Ok krass, hab den Passus auch gelesen gehabt, aber wohl drüber gelesen, ohne wirklich diese feinen Einzelheiten zu erfassen.

Nur damit ich das jetzt richtig verstanden habe, können wir ja nun nochmals zusammenfassen, was nun genau Sache ist:

Also jedes mal, wenn ein Kern ein store (was für ein Store? Ein Store im Sinne von Speicherzugriff, oder ganz generell im Sinne von halt ein Schreibvorgang?) habe, wird die Adresse dieses stores in den L1 Data und den L2 geschrieben, aber nicht die dazugehörigen Daten :ugly:

Hä??? Das macht irgendwie keinen Sinn, oder wird hier jetzt die Store-Adresse jedes mal mit geschrieben, sozusagen als Anteil der ccNuma Architektur? Wäre das Einzige was mir jetzt gerade einfallen würde. Müsste mich mal erkundigen, ob da 18 clocks jetzt gut oder schlecht sind. Wobei es eigentlich eher schlecht sein müsste. Wenn ich mich nicht täusche, dann wird ja über den "Bus" gesnifft, was an Stores abläuft und da dann abgeglichen, ob eine Cacheline dirty wird. Also innerhalb eines Taktes.

Damit versteh ich den Zweck nicht so recht, den AMD damit verfolgt. Zumal ja nur die Adresse geschrieben wird anscheinend und nicht auch noch die Daten. Hat da jemand eine Idee, was das soll :huh:

Den roten Passus beim L3 Cache versteh ich auch nicht so recht. Soll damit etwa angedeutet werden, das man nicht nur unterscheiden kann, zu welchem Prozess die Daten gehören, sondern sogar schauen kann, ob die Daten von mehr als einem Thread angefasst werden????
Damit würden Sie so etwas wie eine erweiterte Wertung dafür einführen, ob Daten jetzt im L1 oder L2 liegen.

PS:

See the appropriate BIOS and Kernel Developer’s Guide for details.

DAS SUCKT!!!

Hab das Dokument schon händeringend gesucht, aber nirgends gefunden. Habt ihr dafür ne öffentliche Quelle?

PCGH_Marc · 16. Mai 2011

Ich weiß schon, warum ich fast einen kompletten verregneten Sonntag an dem Ding hing :ugly:

Allerdings muss ich zugeben, dass mir das Cache-Prinzip immer noch nicht wirklich klar ist, da braucht's weitere Informationen.

Skysnake · 16. Mai 2011

Ja geb ich dir absolut RECHT! Ich hing auch zich Stunden über dem Ding, und ganz ehrlich ich kann mich sogar wieder dunkel an den Passus erinnern, hab den nämlich als aller erstes mir angeschaut, aber schon damals wie ich mich jetzt erinnere absolut nicht gerafft, was die damit bezwecken wollen.

Naja, solange dieser zweite Guide nicht verfügbar ist, wird sich wohl vieles nicht wirklich aufklären

Wie du schon sagst. Da brauch es einfach noch mehr Infos, damit man die Sache versteht.

Dabei ist das ja eigentlich noch einer der Sachen, die einfacher zu verstehen sind in dem Guid :ugly:

Der Rest ist ja oft noch weit weniger zu verstehen....

Scorpio78 · 16. Mai 2011

PCGH_Marc schrieb:
Ich weiß schon, warum ich fast einen kompletten verregneten Sonntag an dem Ding hing

Allerdings muss ich zugeben, dass mir das Cache-Prinzip immer noch nicht wirklich klar ist, da braucht's weitere Informationen.

Also jetzt mal ehrlich,wirklich was erfährt man da ja nicht.
Bei jeder Info-Speicherung eines Cores wird die Info in L1 sowie L2 gespeichert? Die Info im L2 ist jeweils mit den beiden Cores mit bis zu 20 Zyklen zwischengespeichert, also sind die Cores durch den L2 verbunden?
Verstehe ich das Richtig?
Bin für jede Belehrung dankbar!
:ugly:

Skysnake · 16. Mai 2011

Teilweise richtig.

Ja die beiden Cores eines Moduls sind per L2 miteinander verbunden. Das ist aber schon SEHR lange klar. Glaub über 1 Jahr schon.

Es werden aber nicht die Daten gespeichert, sondern nur wo Sie stehen. Also die Speicheradresse. Zumindest so wie ich das verstanden habe.

Scorpio78 · 16. Mai 2011

Bedeutet das, dass der L1 nur eine Art Verzeichnis für den L2, der dann sowas wie ne Bibliothek ist, ist?

Skysnake · 16. Mai 2011

Nein.

Der L1 ist einfach ein Cache, der ermöglicht in einem Takt etwas rein zu schreiben, und im nächsten/den nächsten Takt/en die gerade geupdateten Daten wieder zu lesen. Er ist halt einfach extrem schnell. Gleich schnell oder nur wenig langsamer wie die Register der CPU.

Im Prinzip sind die Daten die im L1 und L2 stehen die gleichen. Daher verstehe ich auch nicht so wirklich, was die Aussage mit der Adresse beim schreiben vom L1 in den L2 bedeuten soll :ka:

steinschock · 16. Mai 2011

Falls jemand gut Französich kann.
Dossier : L'architecture AMD Bulldozer (page 1: Introduction) - HardWare.fr

Ist vom CPU-Z entwickler
Ich kommaber auch mit der Übersetzung nicht klar,
liegt aber evtl. daran das es mir auch auf Deutsch schwere fällt.

Bulldozer-Benchmarks des 3D Mark Vantage: CPU-Score deutlich vor Phenom II X6

Skysnake

Lötkolbengott/-göttin

quantenslipstream

Flüssigstickstoff-Guru (m/w)

XE85

Lötkolbengott/-göttin

Skysnake

Lötkolbengott/-göttin

PCGH_Marc

Lötkolbengott/-göttin

Skysnake

Lötkolbengott/-göttin

PCGH_Marc

Lötkolbengott/-göttin

Skysnake

Lötkolbengott/-göttin

PCGH_Marc

Lötkolbengott/-göttin

Skysnake

Lötkolbengott/-göttin

Scorpio78

BIOS-Overclocker(in)

Skysnake

Lötkolbengott/-göttin

Scorpio78

BIOS-Overclocker(in)

Skysnake

Lötkolbengott/-göttin

steinschock

Volt-Modder(in)

Ähnliche Themen