AMD 32 Nanometer: Technikdetails zu Bulldozer und Llano

Erstmal ist es einfach nur logisch, dass AMD mit Llano und seiner IGP (da bricht man sich ja fast die Zunge bei) eine Antwort auf Intels Calrkdale und Sandybridge gibt. Für alle Nicht-Spiele-Rechner (welche nachwievor den mit Abstand größten Anteil aller PC's bilden) eine sehr sinnvolle Sache, da mMn die Integration der Grafik in die CPU aus der onboardgrafik heraus eine logische Entwicklung ist und dort eher ihren Platz hat.

Richtig interessant für uns Zocker wird hingegen Bulldozer, der ohne IGP daherkommt. Knackpunkt wird sein, den Shrink auf 32nm in Kombination mit diesen neuen Stromspartechnicken zu nutzen, um eine TDP deutlich unter 100W zu erreichen.
 
Hülfe? Fällt denn keinem ausser mir auf, dass der angebliche Llano-Die Shot in wirklichkeit ein K10-Die Shot ist ?? Und das in der Quelle auch kein Wort über eine Reduzierung der Alus um 33% steht? Und das die Meldung wenn dem so ist irgendwie ziemlich falsch ist?
Ausserdem: k10: 64bit (1x fmul & 1x fadd) logik und Llano: 2x 128 bit FMAC (= fmul&fadd) => 2xfmul & 2x Fadd. Das sieht für mich eher nach ner satten verdopplung der FP leistung bei verdopllung der bitbreite aus. Und Sandybridge kann noch nicht mals FMAC (gleichzeitig addieren und multiplizieren).

Kann mich bitt mal jemand aufklären, da ich scheinbar der einzuge bin mit dem Verständnisproblem?
 
Zuletzt bearbeitet:
Entgegen bisheriger Erwartungen hätte ein Bulldozer-Kern somit nicht 33% mehr Recheneinheiten als ein K10-Kern (mit 3 ALUs und 3 Load/Store-Einheiten), sondern 33% weniger.
Da es lediglich eine Spekulation von Hiroshige Goto ist, heisst das erstmal gar nichts. Andere Spekulationen gehen zB von 4x ALU+AGU aus. Offiziell hat AMD dazu noch nichts gesagt. Vermutlich erfahren wir erst mehr Details am Analyst Day Ende des Jahres. Das ist auch nicht der entscheidende Punkt. Die Execution Units werden letztendlich so dimensioniert, dass die Pipelines nicht unnötig stallen. Und hier hat AMD die Kapazitäten gegenüber K10 auf jeden Fall vergrössert (4-fach vs 3-fach). Letzterer kann die 6 EUs auch gar nicht komplett ausnutzen, weil das Frontend einfach nicht mitspielt. Man sollte auch bedenken, dass Bulldozer über einen Trace Cache verfügt, der den Druck auf die EUs erhöht. Angesichts dessen erscheinen 2x ALU + 2x L/S doch recht knapp bemessen. Aber da wir auch den Aufbau der ALUs nicht kennen, ist das alles Rätselraten.

Diese überwacht, ähnlich wie Intels PCU (Power Control Unit), kontinuierlich Auslastung und Stromverbrauch einzelner CPU-Bereiche
Nicht ähnlich. AMD nutzt eine digitale Überwachung, überwacht also mittels digitaler Signale diverse logische Einheiten. Das hat mit Intels PCU nicht viel zu tun.

Nur 2 pipelines wären ja ein echter Rückschritt.
Wo siehst du 2 Pipelines? Bulldozer hat pro Integer Cluster 4 Instruction Pipelines. K10 hat lediglich 3 Instruction Pipelines.

Ich hoffe euch ist bewusst, dass der llano/bulldozer 2x128bit FMAC bekommt.
Bulldozer ja, Llano nein. Llano ist ein überarbeiteter K10 in 32 nm. Der hat mit Bulldozer nichts zu tun. Der Llano Screen eines Kerns ist auch korrekt. Stammt von der ISSCC 2010.

Es wird geschrieben, dass der K10 nur ein modifizierter K8 ist. So weit ich weis, hat der K10 aber eine doppelt so breite FPU (128 vs. 64 Bit), einen viel besseren Speichercontroller, SSE4A, HT 3.0, höhere IPC-Rate, Level 3 Cache und so weiter.
Meiner Meinung nach ein bisschen mehr als eine Modifikation.
Absolut. Verstehe auch nicht, warum es oft so untertrieben hingestellt wird. Dann war der Core 2 auch "nur" eine Modifikation des Core/Pentium-M. :schief:
 
Da es lediglich eine Spekulation von Hiroshige Goto ist, heisst das erstmal gar nichts. Andere Spekulationen gehen zB von 4x ALU+AGU aus. Offiziell hat AMD dazu noch nichts gesagt. Vermutlich erfahren wir erst mehr Details am Analyst Day Ende des Jahres. Das ist auch nicht der entscheidende Punkt. Die Execution Units werden letztendlich so dimensioniert, dass die Pipelines nicht unnötig stallen. Und hier hat AMD die Kapazitäten gegenüber K10 auf jeden Fall vergrössert (4-fach vs 3-fach). Letzterer kann die 6 EUs auch gar nicht komplett ausnutzen, weil das Frontend einfach nicht mitspielt. Man sollte auch bedenken, dass Bulldozer über einen Trace Cache verfügt, der den Druck auf die EUs erhöht. Angesichts dessen erscheinen 2x ALU + 2x L/S doch recht knapp bemessen. Aber da wir auch den Aufbau der ALUs nicht kennen, ist das alles Rätselraten.

Ich bin schon ziemlich gespannt auf den Analyst Day :-) der TraceCache bringt angeblich durchschnittlich 28% mehr Fetchleistung Quelle. Ich denke mal dass die 4fach Anbindung die erhöhte Fetchleistung verabeiten kann. So wie ich das verstanden gibts bis jetzt nur die fmacs also 2x fmadd/fadd gleichzeitig. würd aber auch gerne wissen was mit den 8entry-shedulern passiert. bleiben die bei 3agu/alu oder werden die erweitert/vermehrt? wenns gleich bleibt werdens immerhin 4agu/alu, dazu dann noch die zwei 128 bit fmacs. könnt schon was feines werden. als laie würd ich mal behaupten das der bulldozer echt interessant wird. Irgendwie hat das Rätselraten was von Weihnachten :-)

Bulldozer ja, Llano nein. Llano ist ein überarbeiteter K10 in 32 nm. Der hat mit Bulldozer nichts zu tun. Der Llano Screen eines Kerns ist auch korrekt. Stammt von der ISSCC 2010.
:wall: oh man ich hase! wer lesen kann ist klar im Vorteil! DANKE!
In derQuelle steht unter dem Bild "k10", hier steht llano drunter daher die Verwirrung. Aber Danke nochmal!
 
Nur 2 pipelines wären ja ein echter Rückschritt. Kann mir nicht vorstellen, warum das amd machen sollte.

Weil es Transistoren/Fläche spart, die man auf andere Art sinnvoller nutzen kann?
CPUs mit vielen parallelen Pipelines kämpfen immer damit, dass es nicht genug unabhängige Instruktionen gibt. Stellt sich heraus, dass die Berechnungen, die eine Pipeline spekulativ durchgeführt hat, eigentlich auf das Ergebniss einer Instruktion aus einer andereren Pipeline hätten warten müssen, war alles umsonst.
Je weniger Pipelines man hat, desto weniger Leistung wird verschwendet. Da Anwendungen zunehmend mehr Threads nutzen, kann es effizienter sein, die Zahl der Pipelines pro Kern zu verringern, damit man insgesamt mehr Kerne bei gleichem Transistorbudget einsetzen kann. Unterm Strich hat man dann die gleiche oder eine nur leicht reduzierte Anzahl an Pipelines (wie im Beispiel 16 vs. 18), kann diese aber viel effizienter auslasten und steigert so die Rechenleistung.
Zudem ist unklar, welche Fähigkeiten die Ansteuerung hat. AMD spricht bislang nur von einer Einheit für beide Kerne - das könnte ein Hinweis auf das "inverse HyperThreading" sein, dass schon vor Jahren eine Runde durch die Presse geisterte und es in schlecht multithreadoptimierten Anwendungen ermöglichen könnte, alle 4 ALUs eines Clusters wie einen Kern anzusprechen.


Häh?? Ich hab keine Ahnung was die detaillierte Version ist? wie kommt ihr darauf kommt dass der llano 33% weniger Alus hätte?

Wo steht das?
Da steht, dass Bulldozer (scheinbar?) 33% weniger ALUs pro Kern hat. Bei Llano ist ausdrücklich die Rede von K10-Kernen, demenstprechend wird er genau 100% soviele ALUs pro Kern haben, wie andere K10er...

Ich hoffe euch ist bewusst, dass der llano/bulldozer 2x128bit FMAC bekommt. also in meinen augen eher richtung verdopplung. ich kann da auch aus der quelle nichts dergleichen entnehmen.

Llano bekommt diese nicht.
Und Bulldozer bekommt sie pro Cluster. K10 dagegen hat je eine FADD, FMUL und FMISC pro Kern. (davon zwei 128Bit SSE tauglich). Ob die neuen FMAC die vierfache Leistung dieser haben (=Verdoppelung der Leistung pro Kern) bleibt abzuwarten.
Hier geht es aber gar nicht um SIMD-, sondern um Integer-Einheiten.

und ganz nebenbei intels sandybridge bekommt noch gar keine FMAC... nur mal so zum vergleich der zukünftiges chips

Was schade für Spieler ist, im Worst Case aber auch schade für AMD - denn was 80% des Marktes nicht haben, wird ggf. gar nicht unterstützt.

und eh wenn meine augen sich nicht täuschen ist das kommentierte die kein llano-kern sondern ein K10-Kern??

Das gezeigte kommentierte "Llano-die" ist ein K10 Die.

Wie vielleicht bekannt ist (und alternativ im Text steht):
Llano nutzt K10-Kerne. Das Bild zeigt einen einzelnen K10 Kern (kein ganzes DIE) und die einzigen Veränderungen sind die Fertigung in 32nm (sieht man nicht) und die Power-Gating-Schaltungen rund um den Kern (sieht man nicht, weil die Hervorhebung so fett ist :ugly: ). Der Rest muss gleich aussehen, sonst wäre dass der Fehler.

Und wenn die Aussage der -33% auf diesem Die-shot basiert sollte man vielleicht nochmal überlegen ob die News so stimmt.

Wie in der News geschrieben wird, basiert die -33% Aussage auf den Angaben von Hiroshige Goto. Der gibt, leider, wie üblich nicht Preis, wo er seine Informationen her hat. Aber in der Vergangenheit hatten seine Aussagen eine Trefferquote, von der Fuad Abazovic 10 ganze Webseiten versorgen könnte.


Es wird geschrieben, dass der K10 nur ein modifizierter K8 ist. So weit ich weis, hat der K10 aber eine doppelt so breite FPU (128 vs. 64 Bit), einen viel besseren Speichercontroller, SSE4A, HT 3.0, höhere IPC-Rate, Level 3 Cache und so weiter.
Meiner Meinung nach ein bisschen mehr als eine Modifikation.

HT3.0: Takterhöhung
Speichercontroller: Wär mir nicht viel bekannt, ist aber eh Uncore-Bereich
3rd lvl-Cache: Uncore.
SSE4: afaik das gleiche wie die 128 Bit und nur eine Erweiterung einer Einheit, kein neues Konzept.

Unterm strich macht das alles einen spürbaren Unterschied, weswegen das "nur" ja auch in Anführungszeichen steht. Aber es sind keine Änderungen am eigentlichen Kern. Wenn man sich den Bereich von Decoder bis Ausführungseinheit eines K10 anguckt und ihn mit einem K7 vergleicht, dann wird die Verwandschaft sehr deutlich. AMD hat einige wenige Einheiten in ihrer Kapazität erweitert, aber ansonsten wurde im letzten Jahrzehnt am Drumherum/der Infrastruktur gearbeitet. (was ja nichts schlechtes ist, sondern im Gegenteil für das enorme Potential des K7 spricht)
Die Änderungen für Bulldozer sind um ein vielfaches tiefgehender.


Nicht ähnlich. AMD nutzt eine digitale Überwachung, überwacht also mittels digitaler Signale diverse logische Einheiten. Das hat mit Intels PCU nicht viel zu tun.

Das hat mit der PCU rein gar nichts zu tun, stellt aber genauso wie diese einen deutlichen Fortschritt gegenüber älteren, softwarebasierten Systemen dar.

Absolut. Verstehe auch nicht, warum es oft so untertrieben hingestellt wird. Dann war der Core 2 auch "nur" eine Modifikation des Core/Pentium-M. :schief:

Das ist er ja auch :huh:
Es gibt genug Leute, die wollen den Core2 sogar als P6-basiert klassifiezieren. (obwohl seit dem fast alles einmal durch die Mangel gedreht und im Core2 letztlich mehr Netburst als P6 stecken dürfte)
 
Wo steht das?
Da steht, dass Bulldozer (scheinbar?) 33% weniger ALUs pro Kern hat. Bei Llano ist ausdrücklich die Rede von K10-Kernen, demenstprechend wird er genau 100% soviele ALUs pro Kern haben, wie andere K10er...
meinte auch den Bulldozer irgendwie war ich nicht ganz da als ich das geschrieben habe, sorry!

Und Bulldozer bekommt sie pro Cluster. K10 dagegen hat je eine FADD, FMUL und FMISC pro Kern. (davon zwei 128Bit SSE tauglich). Ob die neuen FMAC die vierfache Leistung dieser haben (=Verdoppelung der Leistung pro Kern) bleibt abzuwarten.
Hier geht es aber gar nicht um SIMD-, sondern um Integer-Einheiten.
so wie ich das verstanden habe soll so ein cluster wie ein Kern behandelt werden können (möglicherweise über dieses inverse HT) dann wäre es eine steigerung um 1 einheit (4 gegen 3), wobei ich ehrlich gesagt gerade gar nciht weiss was die fmisc macht?

Was schade für Spieler ist, im Worst Case aber auch schade für AMD - denn was 80% des Marktes nicht haben, wird ggf. gar nicht unterstützt.
Hmm ja stimmt, das ist natürlich nen zweischneidiges schwert. leider.

Wie vielleicht bekannt ist (und alternativ im Text steht):
Llano nutzt K10-Kerne. Das Bild zeigt einen einzelnen K10 Kern (kein ganzes DIE) und die einzigen Veränderungen sind die Fertigung in 32nm (sieht man nicht) und die Power-Gating-Schaltungen rund um den Kern (sieht man nicht, weil die Hervorhebung so fett ist :ugly: ). Der Rest muss gleich aussehen, sonst wäre dass der Fehler.
Hätt ich mal ein bischen gewissenhafter gelesen... *werlesenkannistklarimvorteil...* aber Danke für den Hinweis, ich habs echt überlesen:ugly:

Wie in der News geschrieben wird, basiert die -33% Aussage auf den Angaben von Hiroshige Goto. Der gibt, leider, wie üblich nicht Preis, wo er seine Informationen her hat. Aber in der Vergangenheit hatten seine Aussagen eine Trefferquote, von der Fuad Abazovic 10 ganze Webseiten versorgen könnte.
Da bin ich mal gespannt was rauskommt. bleibt spannend, kannte den werten herren noch gar nicht, nur charly.
 
Die Fertigung der ersten Bulldozer-Desktop-CPU wird in 32nm SOI erfolgen und als Plattform kommen Sockel AM3 und voraussichtlich Chipsätze der 8xx-Serie zum Einsatz. Die Auslieferung wird aber erst im ersten Halbjahr 2011 erfolgen.
Bezieht sich dieser Satz nun auf Bulldozer wie beschrieben, oder auf Llano? Die Daten überschneiden sich massiv.

Wäre nämlich interessant zu wissen, ob ein Umstieg auf Chipsatz 8XX als zukunftssicher gilt(bezogen auf Bulldozer).
 
@ X Broster

Der Chipsatz dürfte wohl wenig aussagekräftig für die Bulldozer-Unterstützung sein, sondern nach aktuellem(!) Kenntnisstand lediglich AM3 als Sockel und dann natürlich entsprechend ein BIOS-Updates des jeweiligen Herstellers.

Der Text ist hier imho einfach etwas ungünstig formuliert, da ich technisch keine Abhängigkeit von CPU zum Chipsatz sehe, bestenfalls über die Hypertransport-Anbindung, deren Bandbreite sich ja nicht geändert hat. Soll vielleicht nur heißen, dass der AMD-800er ohnehin Standard wird bei zukünftigen Boards, was natürlich eigentlich keine "Voraussetzung" ist. :huh:
 
das mit dem inversen ht hatte ich auch schon seitdem vermutet, seit ich das erste mal von bulldozers ht done right gelesen hab. Ist es eigentlich möglich, dass die kompletten integer berechnungen vom grafikkern der Llano übernommen werden könnten, oder ist das nicht möglich, da kein x86? Wäre doch mal hammer, wenn sowas möglich wäre, oder? Dann wären amd cpus auf einmal in vielen dingen um den faktor 4+ schneller als jede verfügbare intel cpu... Und intel sähe kein land mehr gegen amd in bestimmten bereichen. Und das auf viele jahre, da intel in sachen gpu um jahre hinterherhinkt. (sogar hinter s3)
 
das mit dem inversen ht hatte ich auch schon seitdem vermutet, seit ich das erste mal von bulldozers ht done right gelesen hab. Ist es eigentlich möglich, dass die kompletten integer berechnungen vom grafikkern der Llano übernommen werden könnten, oder ist das nicht möglich, da kein x86? Wäre doch mal hammer, wenn sowas möglich wäre, oder? Dann wären amd cpus auf einmal in vielen dingen um den faktor 4+ schneller als jede verfügbare intel cpu... Und intel sähe kein land mehr gegen amd in bestimmten bereichen. Und das auf viele jahre, da intel in sachen gpu um jahre hinterherhinkt. (sogar hinter s3)
ach? Aktuelle Intel Grafiklösungen können durchaus mit denen von AMD bzw ATI mithalten. Etwa die integrierte Grafikeinheit in den Core Prozessoren und vergleicht man diese mit dem 780G, so ist Intel mal knapp vorne, mal knapp hinten
 
ach? Aktuelle Intel Grafiklösungen können durchaus mit denen von AMD bzw ATI mithalten. Etwa die integrierte Grafikeinheit in den Core Prozessoren und vergleicht man diese mit dem 780G, so ist Intel mal knapp vorne, mal knapp hinten

Ja nur mit dem Unterschied, dass wir bei AMD nicht mehr bei einer integrierten HD3200 sind, sondern bei der 5000er Serie angelangt sind. Intel ist schwach besetzt, hat in allen Bereichen in der Grafik die Nase hinten. Meiner Meinung nach sollte Intel ein Agreement abschließen mit einem der beiden und sich die Grafikchips kaufen, wären sie besser bedient und würden ne Menge kosten für die Entwicklung sparen. Alleine was Larabee gekostet hat.
 
@ X Broster

Der Chipsatz dürfte wohl wenig aussagekräftig für die Bulldozer-Unterstützung sein, sondern nach aktuellem(!) Kenntnisstand lediglich AM3 als Sockel und dann natürlich entsprechend ein BIOS-Updates des jeweiligen Herstellers.

Der Text ist hier imho einfach etwas ungünstig formuliert, da ich technisch keine Abhängigkeit von CPU zum Chipsatz sehe, bestenfalls über die Hypertransport-Anbindung, deren Bandbreite sich ja nicht geändert hat. Soll vielleicht nur heißen, dass der AMD-800er ohnehin Standard wird bei zukünftigen Boards, was natürlich eigentlich keine "Voraussetzung" ist. :huh:

Soweit mir das fachkundig geschriebene Artikel logisch vermittelt haben, wird Bulldozer auf jeden Fall einen neuen Sockel erhalten. U.a. wegen einem neuen/breiteren IMC, der IGP sowie dem erhöhten Bedarf durch 8 und mehr Kerne, was die 940 derzeitigen AM3 Pins deutlich überragen sollte.
Der Anfang des Threads eingebrachte Bright Side Of News-Artikel spricht von über 2000 Pins was mir doch etwas sehr hochgegriffen vorkommt, aber denke schon in der richtigen Größenordnung liegt.

Den Chipsätzen dürfte das abgesehen von eventuellen neuen Features egal sein, aber ich spekulier mal darauf, dass mit Bulldozer bereits der Nachfolger vom 890 in den Startlöchern steht (Spekulation).
Angesichts der vorausgesehenen hohen Effizienz von BD wird die Chipsatz-Produktion in diesem Atemzug vllt. auch auf 45nm umgestellt, damit die dann erscheinende Plattform (Scorpius?) auch stimmig ist.
 
Soweit mir das fachkundig geschriebene Artikel logisch vermittelt haben, wird Bulldozer auf jeden Fall einen neuen Sockel erhalten. U.a. wegen einem neuen/breiteren IMC, der IGP sowie dem erhöhten Bedarf durch 8 und mehr Kerne, was die 940 derzeitigen AM3 Pins deutlich überragen sollte.

Wie kommst du darauf?
Ganz unten im Text steht doch, dass der Bulldozer für AM3 kommen wird.
 
Das würde außerdem zu AMD´s Sockelpolitik nicht Passen. Die wollen einen Kompatiblem Sockel an den Mann bringen. Ist günstig und bringt viel in meinen Augen.
 
Im Desktop Bereich konnte man bisher nur von "Bulldozer/Zambesi kommt auf AM3 (bzw. AM3r2)" lesen.
Mit dem Sockel mit 2000 Pins von denen die Rede war, könnte eben der schon eingeführte G34 gemeint sein, welcher aber einen Server-Sockel darstellt. Darauf kommt Bulldozer in Form vom Interlagos natürlich auch...
 
Zurück