AMDs Bulldozer mit bis zu 8 MiByte L3-Cache?

ruyven_macaran · 24. September 2010

Geschwindigkeit <> Latenz.
Natürlich ermöglichen erst die geringeren Ansprüche an die Geschwindigkeit eines L2 oder L3 Caches dessen Größe im Vergleich zu einem L1 oder L2 bei einem vertretbaren Transistorbudget. Aber es ist auch einfach so, dass die Adressierung eines größeren Speichers mehr Aufwand und somit Zeit benötigt und somit dauert es bei gleicher Technik/Generation immer Länger, auf einen großen Cache zuzugreifen, wie auf einen kleinen - selbst wenn die eigentliche Geschwindigkeit des Auslese/Schreibvorganges am Ende die gleiche ist.

belle schrieb:
Wahrscheinlich weil diese Architektur den Vorteil hat, dass man die Daten nicht doppelt halten muss. Das hat erstens den Nachteil, dass Speicher verschwendet wird und zweitens kann es passieren, dass es zu einem Fehler kommt, weil 2 gleiche Daten unterschiedliche Zeitstempel haben (Aktualisierung nicht weitergegeben).

Fehler sind afaik sehr unwahrscheinlich, weil die Daten in höheren Cache-Stufen zwangsläufig die neueren und die als erste genutzt sind, wärend die in niedrigeren Cache-Stufen eh für andere Kerne gesperrt werden.
Die aufwendige Suche nach Daten, die sich in einem von 5 Caches verstecken können, hat dagegen AMD schonmal massive Verluste eingebracht.

@Marc: mein "mutmaßlich" bezog sich auf die Auswirkung, nicht die Ursache

XE85 · 24. September 2010

Skysnake schrieb:
@XE85 von den 20 MB Cache musste halt pro Kern deine 32kb+ glaub nochmal 512kb für den L2 abziehen, und wie gesagt wurde, das musste eigentlich sogar zweimal abziehen, wiel die Daten ausm L1&L2 halt doppelt vorhanden sind.

wie oft den noch, SB soll 20MB L3 Cache haben, um den Gesammtcache zu erhalten müsste man die L1 und L2 Cachegrößen noch dazuzählen, man wäre dann bei einem 8Kerner bei etwa 25MB Gesammtcache die SB Topmodelle haben sollen

mfg

PCGH_Marc · 24. September 2010

Wie kommst du auf 20M? Die Topmodelle haben 8M L3 + 1M L2 + 0,25M L1.

XE85 · 24. September 2010

PCGH_Marc schrieb:
Wie kommst du auf 20M? Die Topmodelle haben 8M L3 + 1M L2 + 0,25M L1.

das ist ja "nur" der i7-2600 für den Sockel 1155 - Ich spreche von der Romley EN/EP Plattform, diese sollen bis zu 20M L3 pro CPU haben. Ich gehe davon aus das diese die Gegner der BD Topmodelle (sowohl im Desktop als auch im Server Bereich) sein werden und nicht der i7-2600.

mfg

PCGH_Marc · 24. September 2010

Die SBe kommen erst mit BD, so mein Stand. 20M ist heftig, das frisst ja Die-Fläche ohne Ende :ugly:

XE85 · 24. September 2010

PCGH_Marc schrieb:
Die SBe kommen erst mit BD

jap, die sollen etwa gleichzeitg, Mitte 2011 erscheinen

PCGH_Marc schrieb:
20M ist heftig, das frisst ja Die-Fläche ohne Ende

jap. Westmere-EX wird da noch deutlich drüber liegen, aber gut das ist eine Plattform die hier für nimanden interessant ist, es sei desshalb nur am Rande erwähnt

mfg

ruyven_macaran · 24. September 2010

PCGH_Marc schrieb:
Die SBe kommen erst mit BD, so mein Stand. 20M ist heftig, das frisst ja Die-Fläche ohne Ende

Ich würde mal vermuten, das 20MB die Gesamtgröße von L2&L sind (ein Gerücht, dass Ahnung von der Trennung hat, ist mir noch noch nicht begegnet). Das wären dann die 512kb pro Kern und ein 16MB 3rd lvl Cache. Viel, aber gegenüber den 12MB von Gulftown eine normale Entwicklung.
Intel hat schon immer gern große Caches bei nicht-Einsteiger-CPUs verbaut. Egal ob Pentium Pro oder die Slot Xeons oder sämtliche Itaniums oder... - immer riesen Caches.
Mal nen Gallatin angeguckt? Vom Aufbau her ein Northwood mit "etwas" L3. Ein Northwood hat 55 Millionen Transistoren und davon entfällt schon sehr viel auf die 512kb L2. Ein Gallatin hat 123 Millionen Transistoren ZUSÄTZLICH. Das macht >2/3 der Transistoren allein für den L3. (Zieht man noch L2 und L1 und n bissl Interface ab, bleiben vielleicht 20% der Chipfläche für die eigentliche Recheneinheit :crazy:

)

Skysnake · 24. September 2010

Also wenn ich mich recht erinnere warens aber für den kompletten Cache 20 MB, aber gut, kann michda auch täuschen, wobei meines wissens nach noch nicht feststeht, wieviel L3 Cache die AMD Server Prozessoren bekommen werden. Man sollte schon Äpfel mit Äpfeln vergleichen.

@ruyven_macaran: Du kannst eigentlich jeden beliebig großen Cache schnell machen (gut gewisse Grenzen gibts. Halt die Strecke/Fläche die du mit Lichtgeschwindigkeit erreichen kannst). Du brauchst halt nur beliebig viel Logig. Genau das macht ja die L2, L3 Caches auch mit langsamer. Die Logic ist einfach deutlich reduziert um den Cache auszulesen etc.

quantenslipstream · 24. September 2010

XE85 schrieb:
jap. Westmere-EX wird da noch deutlich drüber liegen, aber gut das ist eine Plattform die hier für nimanden interessant ist, es sei desshalb nur am Rande erwähnt

mfg

Größerer Cache kann aber auch mal ein Hindernis werden, weil der L3 Cache recht langsam ist, im Vergleich zum ersten udn zweiten und wenn eine Architektur nicht auf maximalen Cache ausgelegt ist, braucht sie den auch nicht.
Intel geht halt eigene Wege, Hauptsache Cache, der Rest wird hinterhergeschlossert.

thysol · 24. September 2010

quantenslipstream schrieb:
Größerer Cache kann aber auch mal ein Hindernis werden, weil der L3 Cache recht langsam ist, im Vergleich zum ersten udn zweiten und wenn eine Architektur nicht auf maximalen Cache ausgelegt ist, braucht sie den auch nicht.

Nur wenige Anwendungen ziehen keinen Nutzen aus viel Cache. Die CPU selber entscheidet generell was in den Cache kommt und was nicht.

quantenslipstream schrieb:
Intel geht halt eigene Wege, Hauptsache Cache, der Rest wird hinterhergeschlossert.

Ich finde den Weg von viel Cache gut. Ansonsten bremst ja der RAM die CPU extrem aus.

quantenslipstream · 24. September 2010

thysol schrieb:
Ich finde den Weg von viel Cache gut. Ansonsten bremst ja der RAM die CPU extrem aus.

die Schnittstelle ist entscheident, was nützt Cache, wenn der nicht genutzt werden kann.

thysol · 24. September 2010

quantenslipstream schrieb:
die Schnittstelle ist entscheident, was nützt Cache, wenn der nicht genutzt werden kann.

Ganz zufaelliger weise ueberlassen heutzutage die Schnittstellen der CPU wie die Daten verlegt wird. Nur mit Fortran oder so ist bei schlechter Programmierung kein Performance Schub durch mehr Cache zu verzeichnen.

ruyven_macaran · 24. September 2010

Es gibt auch Anwendungsspezifische Hindernisse: Wenn der Cache genug Platz für den eigentlichen Programmcode bietet, aber die zu verarbeitende Daten auch mit deutlich mehr Cache nicht annähernd reinpassen, dann macht das auch kaum einen Unterschied.

thysol · 24. September 2010

ruyven_macaran schrieb:
Es gibt auch Anwendungsspezifische Hindernisse: Wenn der Cache genug Platz für den eigentlichen Programmcode bietet, aber die zu verarbeitende Daten auch mit deutlich mehr Cache nicht annähernd reinpassen, dann macht das auch kaum einen Unterschied.

Jo, dass stimmt. Kann die CPU dann nicht wenigstens einen Teil der Daten in den Cache legen?

quantenslipstream · 24. September 2010

Wieso einen Teil? Dann muss erst mal nachgeschaufelt werden.
Dann lieber einen Cache, der zur Prozessorarchitektur passt und nicht Cache reinbauen, weil er gerade da ist.

thysol · 24. September 2010

quantenslipstream schrieb:
Wieso einen Teil? Dann muss erst mal nachgeschaufelt werden.

Da hast du Recht. Aber zumindest in einigen Faellen hat mann einen starken Vorteil durch mehr Cache.

quantenslipstream schrieb:
Dann lieber einen Cache, der zur Prozessorarchitektur passt und nicht Cache reinbauen, weil er gerade da ist.

Wieso sollten 20MB Cache nicht zum Sandy Bridge passen? :what:

ruyven_macaran · 24. September 2010

thysol schrieb:
Jo, dass stimmt. Kann die CPU dann nicht wenigstens einen Teil der Daten in den Cache legen?

Kann sie schon. Aber was nützt es einem Daten in den Cache zu legen, die nur einmal aufgerufen werden?

thysol schrieb:
Da hast du Recht. Aber zumindest in einigen Faellen hat mann einen starken Vorteil durch mehr Cache.

Es hängt halt immer davon ab, wie groß der Programmcode tatsächlich ist.
Die Pentium 4 haben z.B. trotz all ihrer Schwächen im Spielebereich allgemein in Q3-Engine Spielen regelmäßig die Konkurrenz versägt und um so größer der Cache wurde, um so größer wurde der Vorsprung.
Aber in 95% der anderen Spiele hat es ihnen gar nichts genutzt.
Mehr Cache ist somit im Schnitt immer eine gute Idee, aber er verhilft einem in einzelnen Anwendungen nicht immer zum Sieg - und wenn man ihn deutlich überdimensioniert, dann zahlt er sich ggf. erst aus, wenn die CPU gar nicht mehr verkauft wird.
(auf meinem Gallatin konnte ich z.B. die Crysis-"will it play Crysis?"-Demo gut spielen. Weiß nicht, ob das am Cache lag, könnte auch HT gewesen sein - aber in jedem Fall eine Leistung für einen Pentium4-Kern des Jahres 2003. Aber im Kampf gegen den Athlon 64 FX hat ihm das nichts gebracht

)

quantenslipstream · 24. September 2010

thysol schrieb:
Wieso sollten 20MB Cache nicht zum Sandy Bridge passen?

Das weiß ich nicht, das wird nur Intel wissen. Offensichtlich haben sie gemerkt, dass sie mehr Cache brauchen um den Datentransfer zu gewährleisten, daher wird mehr eingebaut.
Bei AMD ist das eben nicht so, da spielt es keine Rolle ob nun 8 oder 12 MB Cache, also wieso dann mehr einbauen als nötig tut?
Cache kostet Geld, Platz und Energie.

ruyven_macaran schrieb:
Mehr Cache ist somit im Schnitt immer eine gute Idee, aber er verhilft einem in einzelnen Anwendungen nicht immer zum Sieg - und wenn man ihn deutlich überdimensioniert, dann zahlt er sich ggf. erst aus, wenn die CPU gar nicht mehr verkauft wird.

Ist wie mit Grafikkarten, erst jetzt ist eine ATI X1000 Serie (ist doch die gewesen, die es zur 7800GT gab, oder) deutlich schneller als eben die 7800er, aber damals, zu der Zeit und mit den Games war die Nvidia schneller.

thysol · 24. September 2010

ruyven_macaran schrieb:
Kann sie schon. Aber was nützt es einem Daten in den Cache zu legen, die nur einmal aufgerufen werden?

Da hast du auch recht.

ruyven_macaran schrieb:
Es hängt halt immer davon ab, wie groß der Programmcode tatsächlich ist.

Bei Multi-core optimierten Anwendungen ist der Programmcode generell immer etwas groesser. Vielleicht will Intel deswegen den Cache so stark vergroessern weil immerhin hat ein High-End Sandy 16 Threads.

Am optimalsten waere natuerlich einfach schnellerer RAM wie dass bei GPUs der Fall ist.

quantenslipstream schrieb:
Das weiß ich nicht, das wird nur Intel wissen. Offensichtlich haben sie gemerkt, dass sie mehr Cache brauchen um den Datentransfer zu gewährleisten, daher wird mehr eingebaut.
Bei AMD ist das eben nicht so, da spielt es keine Rolle ob nun 8 oder 12 MB Cache, also wieso dann mehr einbauen als nötig tut?

Dass wuerde ich nicht so sehen. Ich sehe dass eher so dass beide Hersteller meinen die Leistung an verschiedenen Stellen zu steigern, Intel halt unter anderem beim Cache. Wer erfolgreicher dabei sein wird sich wahrscheinlich noch zeigen.

quantenslipstream · 24. September 2010

Nun ja, AMD entwickelt den Bulldozer ja nicht erst seit gestern, die haben sicher durchprobiert, welche Cachegröße die richtige ist und einige Testexemplare dabei versägt.
Letztendlich gehts auch um Kosten, wenn 12MB Cache einen Vorteil von 1-2% bringen, aber die Herstellungskosten um 3% steigen, dann macht man das eben nicht und belässt den Cache, wie er ist.

Vielleicht ist Intel da etwas anders und sagt sich, dass sie die höheren Herstellungskosten in Kauf nehmen und sie dann eben an den Kunden weiter geben.
Wie man sieht...

AMDs Bulldozer mit bis zu 8 MiByte L3-Cache?

Trockeneisprofi (m/w)

Lötkolbengott/-göttin

Lötkolbengott/-göttin

Lötkolbengott/-göttin

Lötkolbengott/-göttin

Lötkolbengott/-göttin

Trockeneisprofi (m/w)

Lötkolbengott/-göttin

Flüssigstickstoff-Guru (m/w)

BIOS-Overclocker(in)

Flüssigstickstoff-Guru (m/w)

BIOS-Overclocker(in)

Trockeneisprofi (m/w)

BIOS-Overclocker(in)

Flüssigstickstoff-Guru (m/w)

BIOS-Overclocker(in)

Trockeneisprofi (m/w)

Flüssigstickstoff-Guru (m/w)

BIOS-Overclocker(in)

Flüssigstickstoff-Guru (m/w)

Ähnliche Themen