AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

AW: AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

SMT dient dazu, existierende Recheneinheiten effizienter auszulasten. Da ist es egal, wie die Kerne angeordnet sind. 2CMTx2SMT pro Bulldozereinheit würde auch nicht dem Sinn der Modulbauweise wiedersprechen, sondern allenfalls alten AMD-Marketingweisheiten (aber die sind ja flexibel. *hustUnechterMulticorehust*)

Jetzt stellt sich nur noch die Frage, wie effizient die Modulbauweise vom Bulli in der Praxis ist. Hab' irgendwo mal aufgegriffen, dass Single-Core-Anwendungen durch die Bauweise vom Bulli einen Modul als einen Kern betrachten werden und somit die Leistung bei einem 2-Kern-Modul nahezu doppelt sein wird gegenüber einem normalen Core?! "HTT" hätte da ja eig. nur die Effizienz gesteigert, aber der Bulli hat sowas nicht aus welchen Gründen auch immer :(.

"Also, wenn ich das jetzt richtig verstanden habe ist SMT (also HT) das Simulieren von einem Kern pro echten Kern und CMT das benutzen von 2 Kernen in einem Modul, wobei bei einem Modul pro weiteren Kern nur +12% Die-Fläche benutzt wird... Was ist effektiver? Ist HT in den Kernen integriert oder macht das ein separates Gerät auf dem Die?"

Diesen Teil hätte ich gerne noch von einem hilfsbereiten User erklärt gekriegt :);). Ansonsten versuch ich eig. nur einen Grund zu finden, warum AMD kein HTT bei seinen Bullis haben könnte :ugly:...

MfG 'XT
 
AW: AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

SMT braucht ein paar zusätzliche Einheiten, die einem Kern zugeordnet sind. Es ist quasi alles doppelt vorhanden, was ein Kern braucht, um Befehle entgegen zu nehmen - aber nichts von dem, was er braucht, um sie auch auszuführen. Braucht also Einheiten, aber sehr wenig Platz (iirc <4%)
Die Effizienz von beiden kann man quasi nicht vergleichen. SMT steigert die Auslastung vorhandener Recheneinheiten, CMT steigert die Zahl der Recheneinheiten. Die Effizienz von SMT steht und fällt somit mit der Fähigkeit einer Software, die Recheneinheiten zu nutzen (hoch z.B. wenn ein Programm viele Daten aus dem RAM braucht und oft auf den Speichercontroller wartet. Sinnlos, wenn fast alles in den Cache passt). Die Effizienz von CMT hängt dagegen von der Fähigkeit der Software ab, die Berechnungen über viele Kerne zu verteilen.

In einer Situation, in der weniger Threads zu Bearbeiten sind, als Kerne zur Verfügung stehen und in der es Sinn machen würde, zwei Kerne gegenüber der Software wie einen zusammenzufassen, macht HT überhaupt keinen Sinn. Was soll man mit virtuellen Kernen, wenn nicht mal die realen ausgelastet werden?
Abgesehen davon kann der Bulldozer das auch nicht. "Anti-Hyperthreading" bei AMD ist ein Gerücht aus der ersten Hälfte des Jahrzehnts, keine real existierende Technologie. Die einzige Besonderheit bei Bulldozer ist, dass ein Kern bei Single-Thread-Anwendungen die volle SIMD-Leistung des Moduls nutzen kann. Das bringt aber nicht die doppelte Leistung für alle Berechnungen und wie leistungsfähig die SIMD-Einheit in der Praxis überhaupt ist, ist eine der spannensten Fragen zu Bulldozer überhaupt. (neben den Decodern und ihrer Ansprechung und den Unstimmigkeiten rund um FPU und IU Anzahl)
 
AW: AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

Hmmh... Ist es nun nicht so wichtig, dass der Bulli kein HT hat, da er mit CMT genug leistet oder hätte man das vielleicht doch einbauen können um die Recheneinheiten effizienter nutzen zu können (oder wäre größerer Cache wichtiger und vom Platzverbrauch auch lohnender)? Ich hab' mal gelesen, dass Cache ab einer bestimmten Größe nicht mehr viel Sinn ergibt, aber anscheinend ist es doch besser als HT. Was ist denn nun richtig? Wieso?

Btw @ruyven_macaran: Woher weisst du das alles :what:?

MfG 'XT
 
Zuletzt bearbeitet:
AW: AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

Warum kommst du denn nicht von HTT weg? :)

Das ist kein Allheilmittel oder sonstwas sondern nur aus der Not heraus entstanden. Heutzutage ist es relativ unwichtig.
 
AW: AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

Das ist kein Allheilmittel oder sonstwas sondern nur aus der Not heraus entstanden. Heutzutage ist es relativ unwichtig.

Aus welcher Not soll es denn entstanden sein? SMT ist alles andere als unwichtig, IBM verwendet es sogar schon in einer erweiterten Form bei der ein physikalischer Kern 4 Threads bearbeiten kann. Gerade bei weniger aufwendigen Workloads kann SMT einiges an Leistung bringen. Aktuell merkt man das sehr stark bei Dual Cores mit SMT, die legen mit SMT schonmal 50% zu, eine Leistungssteigerung die man mit einem zusätzlichen physikalischen Kern nur in der Theorie erreicht.

mfg
 
AW: AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

Aus welcher Not soll es denn entstanden sein?

Aufgrund der viel zu tiefen Pipeline des P4. Sobald die mal geflushed werden mußte, konnte man fast mit Zettel und Stift rechnen (übertrieben).


bei Dual Cores mit SMT, die legen mit SMT schonmal xx% zu
Genau das meinte ich mit "heutzutage"... HTT lohnt nur so richtig in Systemen, welche nicht genug Recheneinheiten zur Verfügung haben.
 
AW: AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

HTT lohnt nur so richtig in Systemen, welche nicht genug Recheneinheiten zur Verfügung haben.

ist aber irgenwie logisch oder, denn warum sollte man ein logischen Kern nutzen wenn noch ein physikalischer zur Verfügung steht. SMT zu nutzen ist nur dann Sinnvoll wenn mehr Threads zu bearbeiten sind als physikalische Kerne vorhanden sind. Daher profitieren aktuell Dual Cores besonders von SMT. Wen noch mehr Threads, zB auch in Spielen, standart werden wird selbiges auch mal für Quad, Six und Octa Cores geltten. Selbiges gilt aber auch für CMT, dort ist es ebenso nicht sinnvoll einen CMT Kern zu nutzen bevor nicht alle kompletten Kerne ausgelastet sind.

mfg
 
AW: AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

Hmm ich vermute mal das AMD Plant, auf Ihren CPUs so viele Module unterzubringen das sich ein SMT so oder so erueberiegt ...
wenn ein weiterer Modul Kern nur 12 % mehr DIE braucht geht die Rechnung sogar irgendwann mal auf ...
Nur denke ich das AMD das nicht wirklich gut vermarkten wird , wenn die 1 Modul also 2 Unechte Kerne wie jemand sagte :), als 1 Kern Vermarkten wuerden waere das was die Leistung angeht natuerlich deutlich besser .
Aber man haette somit eben Noch weniger Kerne und was vorher die GHZ waren sind wohl jetzt die Kernanzahl im Marketing oder nicht ? :)
Aber wie ich schon sagte , fuer mich wird sich vergleichen lassen muessen was gleich teuer ist und nicht was gleichviel Module Kerne Etc. hat , also wenn ein 4 Modul Bulli , also ein Vermeindlich 8 Kern gleich oder schneller ist als der gleich teure Intel sehe ich das als Erfolg fuer AMD ...

mfg F-4
 
AW: AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

@ ruyven_macaran

Die Module mit den vielen Int-Cores gehen ja bereits stark in die Breite (viele Threads gleichzeitig), dennoch braucht der 2te Int-Core pro Modul nur 12% mehr Die-Fläche. Jetzt noch SMT dazu, was bei Intel iirc 6% mehr kostet, würde den BD deutlich aufblasen. Und (Milmädchen!) 6% von 12% wäre die Hälfte, man gewinnt aber nicht in gleichem Maße an Performance hinzu. Ergo für die schlanken, aber oft vorhandenen Module nicht sehr effizient. Das meinte ich - SMT und CMT geht freilich. Aktuelle Schätzungen für BD reichen über 1,5 Milliarden Transistoren hinaus, ein Gulftown hat 1,17. Interessant wird, wie mächtig ein Modul wirklich ist - der Kern eines SB ist einem Thuban-Kern klar überlegen (wobei der Rest natürlich nicht außer gelassen werden sollte wie Ringbus, LLC, BPU, neues Frontend usw.).
 
AW: AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

ist aber irgenwie logisch oder

Ja, aber auch eine Antwort auf seine Frage

SMT zu nutzen ist nur dann Sinnvoll wenn mehr Threads zu bearbeiten sind als physikalische Kerne vorhanden sind. Daher profitieren aktuell Dual Cores besonders von SMT...

...Selbiges gilt aber auch für CMT, dort ist es ebenso nicht sinnvoll einen CMT Kern zu nutzen bevor nicht alle kompletten Kerne ausgelastet sind.

Das kann man so noch nicht sagen. Immerhin ist es das erste mal, das mehr Arbeiter als Zuarbeiter in einem Kern vorhanden sind. Wenn man das ganze mal bildlich betrachtet:

CMT
Man hat EINEN Handlanger und ZWEI Maurer. Der Handlanger reicht den Maurern immerwieder Ziegelsteine zu sodaß sie zügig arbeiten können. Zwar kommt dieser Handlanger manchmal nicht hinterher, weil die Maurer zu schnell sind und diese so teilweise nichts tun, aber insgesamt gehts sehr schnell voran.

SMT
Man hat ZWEI Handlanger aber nur EINEN Maurer. Die Handlanger reichen wieder fröhlich dem Maurer alles zu, was er so zum arbeiten braucht. Nun kommt es aber dazu, das der eine Handlanger versehentlich den falschen Stein zureichen möchte und in diesem Fall macht sich der zweite bezahlt, der dem Maurer schnell den richtigen zureichen kann, sodaß es zu fast keinen Verzögerungen kommt.

Hmmm, bissl ZU bildlich/idealisiert geworden. Nunja, denke mal man kann die unterschiedliche Funktionsweise erkennen.
 
AW: AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

Hmmh... Ist es nun nicht so wichtig, dass der Bulli kein HT hat, da er mit CMT genug leistet oder hätte man das vielleicht doch einbauen können um die Recheneinheiten effizienter nutzen zu können (oder wäre größerer Cache wichtiger und vom Platzverbrauch auch lohnender)?

Mit SMT hätte man die Recheneinheiten besser auslasten können.
Ob das pro Flächeneinheit sinnvoll gewesen wäre, hängt vom Zusammenspiel zwischen Software, Kern und ggf. sogar Sparmechanismen ab. Wenn die Software den Kern ohnehin schon voll auslastet (was außer Testprogrammen bislang keine gemacht hat) oder/und wenn die CPU-Leistung durch das Temperaturbudget limitiert ist, so dass man schlechte Auslastung vollständig durch Takt kompensieren kann, dann lohnt es sich ggf. nicht.
In Anbetracht der weiterhin positiven Wirkung bei Intel, inbesondere bei den Zweikernern, denke ich persönlich aber, dass es sich lohnen würde, solange genug Threads zur Verfügung stehen.
Damit wären wir beim markttechnischen Teil: "Wieviel Software unterstützt jetzt schon 16 logische Kerne?" gegen "Wieviel kostet die Entwicklung von SMT?". Ersteres ist im Enduserbereich quasi null, so dass nachvollziehbar ist, warum AMD sich die Entwicklung vorerst spart, auch wenn sie rein technisch attraktiv erscheint.

Ich hab' mal gelesen, dass Cache ab einer bestimmten Größe nicht mehr viel Sinn ergibt, aber anscheinend ist es doch besser als HT. Was ist denn nun richtig? Wieso?

Jeder einzelne Schritt in der Datenverarbeitung kann einen Leistungsgewinn bringen - aber wirkliche Fortschritte macht man nur, wenn man den Engpass bei der aktuellen Verwendung findet und behebt. SMT macht keinen Sinn, wenn die Recheneinheiten zu 100% ausgelastet sind. CMT macht keinen Sinn, wenn man nur einen Thread hat. Und mehr Cache macht nur dann Sinn, wenn er die Speicherzugriffe deutlich reduziert. Im Idealfall liegt der komplette Programmcode, der ständig gebraucht wird, im Cache vor, wärend die Daten, die von diesem Programm bearbeitet werden im RAM sind. Weniger Cache würde die Performance drastisch reduzieren (bzw. umgekehrt: Von weniger Cache ausgehend den Cache vergrößern), weil wärend jeder Berechnung Codeabschnitte aus dem RAM nachgeladen werden. Mehr Cache dagegen würde gar nichts bringen, wenn die Daten nicht komplett reinpassen und nur einmal benötigt werden: DIe CPU müsste weiterhin jeden Datensatz erstmal aus dem RAM laden, würden ihn dann verarbeiten (was sie mit weniger Cache genauso gut konnte) und schreibt die Daten danach wieder zurück in den RAM.
In der Realität ist der Übergang fließend, da ein Teil der Daten für spätere Berechnungen nochmal benötigt wird und weil Programme unterschiedlich groß ausfallen. (Pentium4s waren den AthlonXP in Spielen oft unterlegen, aber in Q3-Engine Spielen fast immer vorn, u.a. weil sie mehr Cache hatten.)
Weitere Gleichungen in dieser unbekannten ist die Geschwindigkeit der RAM-Anbindung und ihre Latenz. Wenn man die Daten ganz schnell aus dem RAM bekommt, bringt der Cache kaum noch Vorteile, gehen RAM-Zugriffe mit einer großen Wartezeit einher, lohnt er sich eher. (Siehe P4 vs. Athlon64)

Btw @ruyven_macaran: Woher weisst du das alles :what:?

Ich bin technisch interessiert und habe die Einfühung von SMT und von Multicore im Desktopbereich mitverfolgt. Der Rest ist ein bißchen Logik.


Aus welcher Not soll es denn entstanden sein? SMT ist alles andere als unwichtig, IBM verwendet es sogar schon in einer erweiterten Form bei der ein physikalischer Kern 4 Threads bearbeiten kann.

Nicht nur IBM. Sun hat vorgemacht, wie extrem effizient die Kombination aus mehrfachem SMT und platzsparenden in-order-Pipelines sein kann, wenn optimierte Software zum Einsatz kommt. Alle anderen machens nach.
Im Desktopbereich war aber schon ein bißchen Zwang im Spiel:
Die langsame Speicheranbindung der P4 im Vergleich zur Rechengeschwindigkeit des Kerns sorgte für viele Wartezeiten in den Threads, die schwerwiegenden Folgen falscher Sprungvorhersagen machte es attraktiv, ein Ergebniss zu berechnen und bis zu seinem Erhalt unabhängige Aufgaben anzunehmen und die hohe Verlustleistung erschwerte die Entwicklung eines Dual-Core (Schaltungstechnisch ein Kinderspiel bei einer FSB-Architektur), wärend fehlende Multithreadfähigkeit einen massiven Nachteil im Bedienkomfort darstellte.


@ ruyven_macaran

Die Module mit den vielen Int-Cores gehen ja bereits stark in die Breite (viele Threads gleichzeitig), dennoch braucht der 2te Int-Core pro Modul nur 12% mehr Die-Fläche. Jetzt noch SMT dazu, was bei Intel iirc 6% mehr kostet, würde den BD deutlich aufblasen.

Bist du sicher, dass Intel die 6% auf den gesamten Chip bezieht?
Iirc sind das 6% der Größe der Recheneinheit (und das sogar auf die winzigen Netburstkerne bezogen.?), also sehr wenig Silizium. AMDs 12% beziehen sich dagegen auf das Modul inklusive Cache und Anbindung - deutlich mehr also.

Beim Leistungsgewinn sollte man neben der unterschiedlichen Szenarien auch bedenken, dass SMT sich in gleichem Maße auf die (gerade für uns wichtige) SIMD-Leistung auswirkt. AMDs CMT Implementierung bringt da gar nichts. (jedenfalls wenn die Betrachtung wählt, der die 12% zu Grunde liegen, d.h. "was macht der zusätzliche Kern in Relation zum restlichen Modul - inklusive SIMD-Einheit?")
 
AW: AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

Nein, ich bin nicht sicher - daher iirc. Muss schauen, worauf sich die 6% bezogen. Ich denke auch, es war nur der reine Kern (ohne Caches usw.).
 
AW: AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

Wenn zwischen Bulldozer- und SaBrE/Llano-Stress genug Zeit ist, könnt ihr ja mal eine Leistung/Transistor Testserie mit allen Architekturen von Williamette bis zu den aktuellesten Modellen machen. Theorie bringt einen nicht immer bis ans Ziel :)
 
AW: AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

Ich bin jedenfalls sehr gespannt , wer Mitte/Ende 2011 das Beste Preis-/Leistungsangebot für Gamer auf dem Tisch hat. So lange wart ich noch und zock mit meinem alten AMD64 3400+ Herr der Ringe online ;-)

Ich find von 1 auf 8 Kerne .... das lohnt dann mal so langsam ... obwohl ich ja noch n 64er 3400+ als Ersatz hier rumliegen habe, falls mein alter das Zeitige segnen sollte ;-) Aber der rennt und rennt und rennt .... und das schon viele , viele Jahre :-) . Will einfach nicht kaputt gehen.
Ich denke irgendwann nächstes Jahr rüste ich dann auch mal auf. Wird ja auch langsam Zeit vom 1Kerner ;-)

Aber :hail: AMD64 3400+ :hail:

Eine AM3+ Basis könnte mir aber schon gefallen. Mal schaun was Intel bis dahin so bietet.
 
AW: AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

Was dann wohl aus dem guten alten Taskmanger wird 16 Threads beobachten ist schon schwer^^ Ich denke das diese 500mhz plus 1. für den Markt genutzt werden nach dem Motto intelligenter Prozessor blablabla und 2.Als zusätzliche Stromsparmaßnahme zusehen ist.
 
AW: AMDs Bulldozer: Über 3,5 GHz inklusive 500 MHz per Turbocore, L3-Cache mit über 2,4 GHz?

Danke für die Antworten (vor allem ruyven_macaran); dadurch kann ich jetzt endlich viel besser nachvollziehen warum welche CPU trotz "xy" nicht schneller als die andere ist :daumen:.

MfG 'XT
 
Zurück