Die Bulldozer-Bibel: Zusammenfassung bekannter und weniger bekannter CPU-Details

PCGH-Redaktion

Kommentar-System
Teammitglied
Jetzt ist Ihre Meinung zu Die Bulldozer-Bibel: Zusammenfassung bekannter und weniger bekannter CPU-Details gefragt.

Bitte beachten Sie: Der Kommentarbereich wird gemäß der Forenregeln moderiert. Allgemeine Fragen und Kritik zu Online-Artikeln von PC Games Hardware sind im Feedback-Unterforum zu veröffentlichen und nicht im Kommentarthread zu einer News. Dort werden sie ohne Nachfragen entfernt.

Zurück zum Artikel: Die Bulldozer-Bibel: Zusammenfassung bekannter und weniger bekannter CPU-Details
 
Danke für die Zusammenfassung, gut gemacht. Aber ohne offizielle Benchmarks sind es nur Herstellerfolien, mit denen Praxis-orientierte Menschen nicht viel anfangen können. leider
 
Ein Tippfehler am Anfang in der News - sollte XOP heißen.

Weiters vermute ich, dass das FX in der Tabelle aus zwei Großbuchstaben bestehen sollte - da bin ich mir aber nicht sicher.

LG
 
Sehr schöner Artikel :daumen:

Da waren sogar einige Punkte enthalten, die mir beim lesen des Developer Guides entgangen sind. Grad das mit den Taktzyklen des L1 :daumen:

Auf die Sache mit der gestiegenen Assoziativität und der damit gestiegenen Nutzbarkeit hätte man aber noch eingehen können. Das versteht hier wohl so gut wie niemand.
 
Auf die Sache mit der gestiegenen Assoziativität und der damit gestiegenen Nutzbarkeit hätte man aber noch eingehen können. Das versteht hier wohl so gut wie niemand.

Ich glaube, eine Erklärung der Auswirkungen einer hohen Assoziativität, die auch nur für 25% der Leser hier nachvollziehbar wäre, würde bequem einen eigenen Artikel dieser Größe füllen ;)
Außerdem käme man dann mit den Vergleichen ganz schnell ins teufelsküche, denn Intel ist afaik schon bei 8-fach für einige Caches...

Imho wird das Front-End und die Lastverteilung auch wesentlich wichtiger für die Realperformance des Bulldozer sein.
 
Was den "copy&paste-Fehler" angeht, so würde ich das nicht sagen. Im Developer Guide kann man halt kein plattes Marketinggeblubber von sich geben, sondern muss die Eier auf den Tisch legen und zeigen was man hat und was nicht. Würde AMD da mit 8 Cores werden, würden Sie sich lächerlich machen, da jedem der das liest klar ist, dass da einfach einige Bestandteile fehlen damit es 8 Cores wären. Für 4 langt es, mehr aber auch nicht.

Die Seite mit den 16MB L3 hättet ihr aber ruhig angeben können :P (btw ist die Seite 212)

Und die Antwort auf eure Frage steht eine Seite zuvor :ulgy:

For data, the AMD Family 15h processor has three levels of cache, a16-Kbyte L1 data cache, a 1–
2MB unified L2, and a 16MB or greater L3.
Seite 211

WTF :ugly: den Teil da hinten hat doch noch verdammt viele interessante Inhalte. Ich muss wohl doch auch den hinteren Teil mal genau lesen und nicht nur am Anfang alles und dann nur noch die Einführungen :wall:

Für mich hört sich das so an, als ob ein BD nicht 8 MB L3 hätte, sondern 16MB L3 Cache bei den 4 Modulern, und halt bis zu 32MB dann bei den Server CPUs. Das wäre schon SEHR krass.

Btw. Ich hab jetzt die Lösung dafür gefunden, was mit "mostly exclusive" gemeint ist. Das war ja ganz am Anfang des Guides SEHR schwammig formuliert.

However, in AMD Family 15h processors, for
purposes of optimizing for multiple readers, multiple cores may generate local copies when they
access the shared L3 cache line. For this reason, the cache is termed “mostly” exclusive.

Das heißt, man kann die Caches noch immer einfach zusammen zählen, und nur wenn Daten von mehreren Threads benutzt werden, werden diese entsprechend im L2 oder L3 einmalig doppelt vorgehalten. Für Const Werte wird dies sicherlich nicht der Fall sein, aber für alle anderen schon.

Kurzes Beispiel:
Wir haben 2 Threads die auf eine Variable zugreifen, und die Threads laufen auf einem Modul. Dann liegt eine Kopie dieses Werts im L2 vor, damit sollte einer der beiden Threads diesen verändern, der andere dies sofort merkt und seine Cacheline dirty setzt.

Wenn wir 2 Threads haben, die auf zwei unterschiedlichen Modulen laufen, ist die Kopie nicht im L2 sondern im L3.

Ich denke soweit ist das klar. Mit 3,4,5,6 etc. Threads bleibt es auch bei jeweils einer Kopie, dann halt immer im L3.

Sehr gut gelöst. Wie ich finde deutlich besser als bei Intel, da man wirklich nur die Daten doppelt vorhält, die wirklich auch doppelt gebraucht werden :daumen:
 
Direkt mal die erste Seite aus dem Review rausgenommen, mh? :ugly:

Persönlich finde ich das ganze ziemlich unnötig. Als ob Bulldozer nicht schon genug Werbung bekommen würde.
Für ein Produkt was ich erst in 2-3 Monaten kaufen kann und dessen genaue Leistung noch recht in den Sternen steht ist es mmn einfach nur ein unnötiges rumgehype das mir ziemlich auf die Nerven geht.
 
Apropos Werbung, wann kommt eigentlich mal eine Themenseite zu IvyBridge ??
 
Was den "copy&paste-Fehler" angeht, so würde ich das nicht sagen. Im Developer Guide kann man halt kein plattes Marketinggeblubber von sich geben, sondern muss die Eier auf den Tisch legen und zeigen was man hat und was nicht. Würde AMD da mit 8 Cores werden, würden Sie sich lächerlich machen, da jedem der das liest klar ist, dass da einfach einige Bestandteile fehlen damit es 8 Cores wären. Für 4 langt es, mehr aber auch nicht.

Im Kapitel 2.1 heißt es eben noch anders:
"Up to 8 Compute Units (CUs) with 2 cores per CU"
Auch sonst wären mir in dem Schinken an keiner Stelle eine Verwendung von "Core" für die Compute Units aufgefallen - wenn es überhaupt mal verwendet wird, dann für die Integer Execution Units. "Copy/Paste" erscheint deswegen möglich, weil sich die externe Kommunikationsstur der ersten Bulldozer nicht ändert (ist nunmal durch die Sockel vorgegeben), d.h. Multi-CPU-technisch bleiben alle Konzepte der K10 gültig.

Für mich hört sich das so an, als ob ein BD nicht 8 MB L3 hätte, sondern 16MB L3 Cache bei den 4 Modulern, und halt bis zu 32MB dann bei den Server CPUs. Das wäre schon SEHR krass.

Im Teil zu den technischen Daten spricht AMD ausdrücklich von "The AMD Family 15h processor supports a maximum of 8MB of L3 cache per die" (2.5.4).
Das einzige mal, dass 16 MiB L3 Cache in Kombination mit einem Vierkerner erwähnt werden, ist die in der News zitierte Passage. Ausdrücklich Single-DIE wird nie in Verbindung mit 16 MiB genannt.


Apropos Werbung, wann kommt eigentlich mal eine Themenseite zu IvyBridge ??

*Zeitmaschiene anschmeiß*
Special: ivy bridge - PC GAMES HARDWARE ONLINE
 

Anhänge

  • ivybridge.jpg
    ivybridge.jpg
    44,3 KB · Aufrufe: 46
Ahso. Der Platz für Links an der Stelle ist begrenzt, da wird Ivy Bridge wohl erst vertreten sein, wenn es zum top aktuellen Thema mit täglichen Meldungen wird. Nach Bulldozer würde ich erstmal Sandy-E erwarten.
 
Ruyven, es ist insgesamt 3 mal von 16 MB die Rede:

Seite 211:
For data, the AMD Family 15h processor has three levels of cache, a16-Kbyte L1 data cache, a 1–
2MB unified L2, and a 16MB or greater L3.
Seite 212:
On a four compute-unit processor, four producer/consumer pairs can run simultaneously, so
the most optimal allocation would be to divide the L3 cache evenly between pairs; for example, on a
microprocessor with a 16MB L3 cache and a 2MB L2 cache, each pair should be allocated 16MB/4 of
L3 cache.

Ein vertipper ist da schon eher unwahrscheinlich, zumal die Guides rauf und runter korrigiert werden. Da ist so ein eklatanter Fehler schon SEHR unwahrscheinlich.

Was da eher sein kann ist, das hier schon auf BD2 angespielt wird, der natürlich über mehr L3 Cache verfügen wird.
 
Ruyven, es ist insgesamt 3 mal von 16 MB die Rede:

Seite 211:

1


2

und wo ist 3?

2 ist das Beispiel aus der News, 1 erwähnt zwar 16 MiB Cache, aber weder Kern- noch CU-Zahlen. Das es einen Dual-Die-Octa-CU-16-MiB-G34-Opteron geben wird, ist aber schon seit nem halben Jahr bekannt. Vorbehalten Beispiel 3 sind wir also bei genau einer Erwähnung, die auf 4 MiB L3 pro CU hinweist und der tonnenweise Einträge gegenüberstehen, die entweder 2:1 ausdrücklich erwähnen, oder dazu passen.
 
Das dritte Beispiel sollte einfach die zweite Nennung im zweiten Zitat sein.

Wenn du den Sinn vom zweiten Zitat erfasst, wo auch jeweils von 16 MB die Rede ist, sollte dir klar sein, dass dort ein 4 Moduler gemeint ist. Du teilst ja den gesamten L3 durch die Anzahl der Producer-Consumer-Pärchen, weil die zusammen eben nicht mehr Cache belegen sollen als der L3 zur Verfügung stellt.
 
Nette Zusammenfassung
sehr detailiert.

aber bei den Gulftown I7 gehört der 960 denk ich nicht dazu ;)

und schon geändert
 
Zuletzt bearbeitet:
Wie läuft das jetzt genau mit den Integercores bei Multithreadanwendungen?
Wenn ein Programm mit 4 Threads auf einem 4 Moduler läuft, sind dann pro Modul jeweils ein Kern aktiv und die anderen werden abgeschaltet,
oder arbeiten 2 Module mit beiden Int.cores und 2 Module "idlen".
Performancetechnisch wäre natürlich Variante 1 interessanter da jedem Integerkern dann alle Ressourcen des ganzen Moduls zur Verfügung stehen würden.
Also Cache, Prefetcher, FPU usw.
 
Warum steht bei der Ramunterstützung "????"

Ich meine es ist schon hinlänglich bekannt, dass BD DDR3 1866 nativ unterstützen wird.

Ansonsten nette Zusammenfassung, wobei zum Ende hin mal wieder alles durch die "Akzeptanz des Endkunden" relativiert wird.
 
Zurück