Was mir aber noch aufgefallen ist bei dem neuen Bild, das ja Marc gepostet hat ist, das Bulldozser 2 MB L2 Cache haben wird je Modul. Also insgesamt 8 MB L2 und 8 MB L3. Intel hat ja "nur" bis zu 20 MB L3 und jeweils 512kB L2, wobei ja der L3 ja direkt ne Kopie des L2 hält. Also zumindest wenn sie nichts zu dem Konzept der Core ix Prozessoren ändern.
Gilt das schon als gesichert, dass die oberste Bulldozer-Ausbaustufe nur 4 Module und 8MB haben wird? 20MB sind bei Sandy Bridge afaik nur für die EX im Gespräch. Für einen Magny-Cours-Nachfolger würde ich von AMD aber wenigstens 8 Module und >12MB 3rd lvl erwarten.
Damit hätten beide Effektiv 16MB L2+L3 zur Verfügung, denn AMD hält meines Wissens nach keine Kopie des L2 im L3 vor.
Wie kommst du von 20MB 3rd lvl bei Intel durch Addition auf 16MB insgesamt?
Es stimmt zwar, dass der L2 nicht zusätzlich zur Verfügung steht, aber man kann soviele Daten auf Vorrat halten, wie der L3 Platz bietet.
Bei AMD gehen bei Mehrkernsystemen ggf. auch wieder 2MB als Zwischenspeicher drauf, um die ganzen exklusiven Caches zu organisieren.
Da der L2 aber schneller ist als der L3 könnte AMD in einigen Anwendungen eventuell sogar schneller sein als Intel. Also ich find das nicht uninteressant!
Abwarten, wie die Latenzen aussehen. Schon Nehalem hatte eine verdammt flotten L3 und für SB wurde er nochmal deutlich beschleunigt. AMD dagegen hat um so mehr Overhead, je mehr Kerne im Spiel sind. Wenn Bulldozer da nicht ebenfalls optimiert wurde, würde es mich nicht wundern, wenn er im Schnitt genauso lange warten muss, obwohl er die Daten zu einem größeren Teil aus seinem L2 beziehen muss.
Wenn man dann noch bedenkt das AMD das Modul Konzept Haupsaechlich deshalb nutzt um DIE Flaeche einzusparen , bin ich schonmal gespannt wie gross die 8 Kern Intel sein werden .
wenn der 80 % Leistende 2te CPU CLuster gerade mal 25 % mehr DIE braucht , wird zwar ein weiterer Kern 100% Leistung bringen beim Intel OCta Core und so schneller sein aber wohl mehr verbrauchen und deutlich mehr DIE belegen !
Aufgrund der mit ziemlicher Sicherheit integrierten PCI-E Controller bei Intel wird man die DIE-Flächen kaum vergleichen können.
Auf die TDP hat das ganze übrigens kaum eine Auswirkung: Was wirklich Leistung schluckt, dass sind die Recheneinheiten. AMD spart gerade die Teile eines Kerns eins, die zwar recht viel Fläche belegen (z.B. L2), aber umgekehrt auch wenig Strom für ihre Fläche ziehen. Unterm Strich würde ich von CMT keine gesteigerte Leistungseffizienz erwarten, trotz der eingesparten Fläche.
Wie definierst du "taktfreudig" ? - der P4 war nur auf Takt ausgelegt und erreichte trotzdem nicht die Taktraten die er erreichen sollte, nichtmal annähernd. Man verabschidete sich nicht ohne Grund von der P4 Architektur. Die aktuellen 3,4GHz erreicht man schlicht durch das schlanke Design kombiniert mit kleinen Fertigung. Mit einer Architektur kann man schlicht Physikalische Gesetze (höherer Takt = höherer Verbrauch, höherer Takt = immer schlechtere Signalgüte) nicht umgehen.
Netburst hat mitlerweile über 8 GHz erreicht.
Das die Architektur aufgegeben werden musste, lag nicht an mangelnder Taktbarkeit (auch abseits von Rekord-OC wurden durchaus über 5 GHz stable erreicht und das in 65nm), sondern an der Verlustleistung. Es wurde wirklich ausschließlich auf Takt optimiert und die angepeilten 10GHz-CPUs wären zwar vermutlich möglich gewesen, aber trotz schrumpfender Fertigung jenseits der 300W gelandet.
Im Bulldozerbeispiel ging es aber gerade darum, dass aufgrund der Deaktivierung der Hälfte der Kerne jede menge Luft für mehr Verlustleistung ist, wenn nur wenige Threads laufen. Wenn die Architektur "taktfreudig" ist, kann man diese Reserve nutzen, um massiv Leistung bei Single/Dualthread-Anwendungen zu gewinnen.
(ob sich Oligothreadanwendungen finden, bei denen sich das lohnt, bleibt abzuwarten, die Optimierung der Thread-Verwaltung auch von Windows dürfte eine entscheidende Rolle Spielen. Im Worst Case wird ein Multi-Thread-Spiel weiterhin durch einen Masterthread limitiert, weil Windows alle anderen Kerne mit Kleinkram zu 20-30% auslastet und die CPU so nicht den maximalen Turbo fahren kann. Bzw.: Bei reinen Single-Thread-Anwendungen zwar neue Rekorde aufgestellt werden, aber niemand sieht den Sinn von 200fps in 5 Jahre alten Spielen, dafür sticht die maximale Leistungsaufnahme ins Auge)