AMD Bulldozer: Neues Sample des FX-8130P samt frischen Benchmarks

Zuletzt bearbeitet:

In dem Artikel steht aber 12% mehr Transistoren und nicht Ausführungseinheiten! Zudem geht aus dem Artikel nicht klar hervor auf was sich die 12% genau beziehen, auf die Transitorzahl des ganzen Chips, nur des Moduls ohne Cache? Das steht dort leider nicht genau. Zum geht man hier nur auf die zusätzlichen Transistoren für dien int Einheit ein, aber die ist ja nicht das einzige was doppel vorhanden bzw. verbreitert ist. Vll sind meine 80% etwas zu hoch, kann sein, aber 15% kann ich mir auch nicht vorstellen. Zudem muss sich in der Praxis erst zeigen wieviel von den 80% im Mittel dann übrigbleiben.

mfg
 
Zuletzt bearbeitet:
Aber die Integer-Einheit ist doch das einzige was im Modul doppelt vorhanden ist,deswegen reden Pessimisten von 8 Kernen und Optimisten von 4 Modulen.(Die Wahrheit liegt wahrscheinlich irgendwo in der Mitte.):)
 
..mann muss ja nicht gleich persönlich werden.
,hast ja Recht, war auch so eigentlich nich gedacht und sollte so rüberkommen.
Mich nervts nur tierisch immer und immer wieder in jedem (AMD)Bulldozer Thread den gleichen Schmu zu lesen aufgrund von "dicker Hose". Das Ding is noch nich ma draußen und wird nach jeder News regelmäßig zerrissen. Und es sind meist die selben Leute, die mit den selben unterirdischen Argumenten daherkommen.

@PsychoQeeny
Schon mal drangedacht, das die Integerkerne mehr Ähnlichkeit mit kompletten Kernen haben als mit SMT gemeinsam? Und das für Bulldozer nich gleich das Layout von dem tool geändert wird. Nur weils bei CPU-Z "steht heißt es noch lange nix.
 
Aber die Integer-Einheit ist doch das einzige was im Modul doppelt vorhanden ist

Zumindest laut den AMD Folien ja, ich bin mir aber sicher das einige Decoder, Scheduler usw. sicher um einiges breiter Ausgeführt sind, sonst würde ja dort Flaschnehälse entstehen.

...Optimisten von 4 Modulen

naja, die optimisten sagen eher 4 Kerner

(Die Wahrheit liegt wahrscheinlich irgendwo in der Mitte.):)

Da stimme ich dir voll und ganz zu - wie ich schon weiter oben schrieb, weder 4 noch 8 Kerner ist im vergleich zu klassichen Quadcores 100% korrekt

mfg
 
Die 80% beziehen sich aber auf einen Kern der K10.5 Architektur. Was da am Ende als Leistung bei rauskommt muss man erstmal sehen. Dazu kommt das die FPU ja nur einmal pro 2 Modulen da ist.
GoldenMic, das ist falsch, war falsch und wird auch immer falsch bleiben....

Hier auch für dich auch grafisch, damit du es vielleicht verstehst durch SEHEN, durch lesen scheints ja nicht zu klappen...

pdf-6-1280.jpg



Der stärkste Zambezi hat 8 physische Kerne - Aussage von AMD. Punkt.
Aussage des AMD Marketings für Desktops.... Da kann man nämlich die Sache so bezeichnen. Überall anders ist man sehr darauf bedacht von Integer-Cores oder Modulen zu sprechen, da ein Modul eben NICHT aus 2 (vollwertigen) Kernen besteht.

Andernfalls: Definiere "physikalischer Kern".
ICH muss das nicht, da bereits andere Leute eine Definition bereits erarbeitet haben. Mit minimalen Aufwand kann man die auch im Internet nachlesen. Ich könnte jetzt auch entsprechende Fachliteratur rausziehen, da dort aber nicht wirklich etwas anderes steht als bei Wikipedia nutze ich einfach das. So kannst du das auch selbst nachprüfen, ohne 100€+ Buch.

PS: Hab ich das nicht für dich sogar schon mal aufgedröselt, oder war es XE85?

Wikipedia schrieb:
Als Prozessorkern wird der zentrale Teil eines Mikroprozessors bezeichnet, der mindestens aus der arithmetisch logischen Einheit (Arithmetic Logical Unit, ALU), den Rechenregistern, und den zum Transportieren von Daten von und zur Peripherie notwendigen logischen Schaltungen besteht.
So jetzt stellen wir mal einen kurzen Vergleich an, ob das 2 mal pro Modul vorhanden ist, also ob es von den Funktionseinheiten her für 2 Kerne pro Modul recht.:

ALU: Check
zumindest einen Adress-Dekoder: Kein echter Check, da geshared
Instruction-Dekoder: Kein echter Check, da geshared
Akkumlator: Check

Der Adress und Instruction Decoder kann man aber nicht auseinander reisen, und so genau unterteilt ist die auch nicht, als das man diese virtuell teilen könnte. Den Integer-Kernen fehlt einfach etwas, damit man Sie als vollwertige Kerne bezeichnen kann. Sie sind zwar verdammt nah dran, durch die gesharten Anteile hat man aber eben doch keine echten vollwertigen Kerne laut Definition. Ergo ist erst ein Modul ein vollwertiger Kern, welcher dann aber recht groß ausgelegt ist. Ein echter Fett-Core halt.

Man muss es so sehen, nur weil die Integer-ALUs auf 2 Threads aufgeteilt sind, sind das noch keine zwei Cores. Es kommt ja auch keiner von euch auf die Idee, die 4 (?) Integer-ALUs eines SB Kerns als Quadcore zu bezeichnen, oder?

Wenn die Anwedung nicht parallel genug läuft wird der Effekt der 8 Kerne verpuffen wenn die Pro takt Leistung nicht endlich mal zugelegt hat.
Das ist aber schon immer so gewesen, und wird auch immer so sein. Man sollte allerdings bedenken, das BD recht aggresiv an der Taktschraube dreht, wenn nicht alles ausgelastet ist. Damit kann man sehr viel kompensieren. Pro Takt Leistung ist gut, aber nicht alles. Das Gesamtpaket muss stimmen. Denn eine hohe Pro-Takt-Leistung erfordert einen großen Fett-Core. Fett-Cores sind aber kompliziert, brauchen viel Strom und Platz auf dem DIE. Wenn man den Fett-Core nicht zwingend braucht, will man ihn nicht....


Falsch. 2 Module teilen sich eine FPU
Falsch siehe oben...

AMD bewirbt es als Achtkerner. Also ist es ein Achtkerner.
Ansonsten: Definiere Kern und mail es AMD.
Siehe oben.... Und AMD weiß das selbst, daher achten Sie auch sehr darauf, in wirklich relevanten Dokumenten etc. nur von Modulen oder Integer-Cores zu sprechen. Nur weil hier einige, du eingeschlossen nicht GENAU lesen können, und nicht zwischen Marketinggeblubber und echte handfesten Dokus, wo man die Hose runter lassen muss, unterscheiden können, kann ich nichts.


Afaik wird die FPU nicht für alles benötigt. Aber sag mir doch mal welche Einheiten genau zu einem Kern gehören um ihn als Kern bezeichnen zu können.
Wenn du sagst Modul = pyhsikalischer kern, dann hat Zambezi also doch 8 Kerne? Du widersprichst dir selbst.
Siehe oben.... Ich hoffe der Aufstellung konntest du folgen, aber nur zur Sicherheit. Eine FPU ist kein zwingender Bestandteil einer CPU.

Pro Takt ist nebensächlich? Ah deshalb kommt ein i3-2100 an einen X6 in Spielen ran. Ist klar.
Eine gute Pro takt Leistung ist ein Muss. Der rest sein kann so gut sein wie es will, es verpufft wenn du zu viele taktzyklen brauchst.
Das kommt immer ganz speziell auf die Anwendung drauf an. Ich kann dir auch eine Anwendung schreiben, in der der X6 deutlich schneller ist als ein i3 bei gleichem Takt.... Ich werf mal nur den Begriff OS-Traps in den Raum :schief: Da bist du froh wenn du mehr Threads ausführen kannst, um seltener damit in die Quere zu kommen.

Wie sehr man von SMT profitiert liegt an der Anwendung.
Da kann ich dir endlich mal zustimmen. Nämlich genau zwischen 0 und 100% Vorteil bringt SMT rein von der Theorie her.

Im CPUz steht --> 8 Core , AMD sagt 8 Core also ist es ein 8 Core und Basta , wenn AMD sich dadurch Käufer verspricht müssen sie auch mit der Negativen Seite der Medaile klar kommen ... und nicht mal so oder mal so !
Ok, ich schreib dir ne Anwendung, die dir sagt, das jede Integer-ALU ein eigener Kern ist. Damit haben wir dann schon 20 Kerner und mehr im Desktop Bereich. TOLL gell. Und weil das dann in dem Programm steht, ist das auch richtig :ugly:

natürlich ist er das, es sind doch bei einer SMT CPU keinerlei zusätzliche Ausführungseinheiten vorhanden. Seine Kernlogik entspricht exakt dem einer baugleichen CPU ohne SMT.
Falsch du brauchst ein Arbiter um die einzelnen Threads zu händeln, bzw. halt um zu unterscheiden, zu welchem Thread etwas gehört, und wer dran ist. Also brauchst du auch einige Bits wohl mehr, auch insgesamt einige Datenleitungen wirst du mehr benötigen. Du hast da also schon eine andere Kernlogik. Der Hauptteil befindet sich zwar vor den einzelnen Funktionseinheiten, aber gewissen Wires brauchst du dennoch in den Funktionseinheiten, oder aber zumindest welche, die die Daten drum herum leiten. Die "Kernlogik" in physikalischer Hinsicht ist also eine andere mit SMT als komplett ohne. Nur die Art und Weise, wie einzelne logische Operationen auf Daten etc. ausgeführt werden, sind gleich.

Ah, jetzt sollen es schon 90% sein, das wird ja immer mehr. AMD spricht von maximal 80%. Und das das deutlich mehr ist als bei SMT ist auch kein Wunder:
Das kommt halt ganz drauf an, wie die Auslastung und Struktur der Software ist. Im minimalen Fall hast du 0% Mehrleistung, da du nur einen Thread hast, und dieser auch nur Integeroperationen ausführt. Damit verpufft alles. Im Vergleich zum Phenom II hast du da wahrscheinlich sogar einen Leistungsverlust, wenn ich es nämlich richtig im Kopf habe, sind die Integer-ALUs nur noch 3 fach Superskalar und nicht mehr 4 fach, bin mir da aber zugegeben nicht mehr sicher, irgendwie war da aber was. Dem gegenüber steht aber ein größeres Fenster für die Umstellung der Instructionen etc. sagen wir also mal einfach 0 % Mehrleistung.

So und das andere extrem sind 2 Threads, welche fast nur die FPU brauchen, aber jeweils nur in jedem zweiten (xten) Taktzyklus drauf zugreifen können, wenn dann aber die gesamte breite der FPU nutzen können z.B. AVX Befehle, diese sich aber so verschränken lassen, das statt der 50% Auslastung der FPU eine 100% Auslastung entsteht. In diesem Fall hast du 100% Mehrleistung im Vergleich ohne gesharte FPU.

Wie wir sehen hängt es sehr stark von der Software ab, was wir in der Realität sehen werden. Wo genau sich das Mittel findet kann man auch nicht sagen, da die Streuung durch die gesharte FPU, die halt auch exklusiv genutzt werden kann und das pro Takt wechselnd, deutlich größer sein wird als mit SMT.

CMT: max. 80% Mehrleistung bei etwa. 80% mehr Ausführungseinheiten.
siehe oben. Zudem sind es keine 80% Ausführungseinheiten, bzw. man sollte sich eher den Flächenverbrauch ansehen anstelle der reinen Anzahl. Die FPU ist von den Logikblöcken mit einer der größten.

SMT: 20% Mehrleistung bei 0% mehr Ausführungseinheiten und etwa 5% zusätzlichen Registern.
Siehe oben. Es sind zwar 0% mehr Ausführungseinheiten, diese sind aber wohl einige % größer als ohne SMT, und zudem sehr wahrscheinlich einige Hz/MHz langsamer als ohne SMT.
Auf was beziehen sich die 5% Register? Von den Statusregistern etc. brauchst du 100% mehr.... Die Angaben sind alle sehr irreführend und bei genauer Betrachtung absolut nichts sagend...

Na ist recht, dann können wir beim BD ja eh von einem 8/6/4 Kerner sprechen so wie es das Marketing macht.
Und wenn Dachia ihr neues Modell als Luxusauto bezeichnet, reden wir auch davon, obwohl jedes Mittelklasse-Auto besser ausgestattet ist, aber hey, das Marketing sagt es :schief:

komisch, wenn das selbe Marketing aber behauptet BD wurde aus Strategischen Gründen verschoben und nicht wegen technischer Probleme dann heisst es von den selben Leuten das das 100% ig stimmen muss was AMD sagt und jeder der die Aussagen des haargenau selben Marketings anzweifelt wird sofort kritisiert.

mfg
Das ist ein berechtigter Einwand, allerdings sind alle Llanos verkauft. Daher kann man durchaus durch gesunden Menschenverstand der Begründung eine Berechtigung anerkennen. Natürlich muss dies nicht stimmen, oder es können auch noch andere Gründe MIT eine Rolle spielen, allerdings ist die Begründung stimmig und kann von keinem von uns widerlegt werden. Bei der Aussage bzgl. der Cores sieht das schon wieder ganz anders aus.
 
Falsch du brauchst ein Arbiter um die einzelnen Threads zu händeln, bzw. halt um zu unterscheiden....

Richtig, hab ich aber geschrieben das man das braucht und es auch vorhanden ist.

siehe oben. Zudem sind es keine 80% Ausführungseinheiten, bzw. man sollte sich eher den Flächenverbrauch ansehen anstelle der reinen Anzahl. Die FPU ist von den Logikblöcken mit einer der größten.

hab mich auch selbst korrigiert, die 80% waren wohl etwas zu hoch gegriffen.

Auf was beziehen sich die 5% Register? Von den Statusregistern etc. brauchst du 100% mehr.... Die Angaben sind alle sehr irreführend und bei genauer Betrachtung absolut nichts sagend...

Die 5% bezogen sich damals beim P4 auf die Transistorzahl des ganzen Chips. Sprich ein P4 mit SMT brauchte für die zusätzlichen SMT Register 5% mehr Transistoren. Für heutige CPUs gibt es dazu keine Angaben. 5% auf den ganzen Chip sind es mit sicherheit nicht mehr, schlicht weil heute deutlich mehr Chache, die NB, der IMC usw in der CPU sind - alles das hatte der P4 nicht. Ich gehe daher davon aus das es etwa. 5% mehr Transistoren sind als grundsätzlich für die reine Kernlogik erforderlich sind. Das stimmt mit sicherheit auch nicht 100%ig. Aber genaue Werte gibt es halt leider nicht. Da die komplexität deutlich zugenommen hat, SMT aber relativ einfach ist, könnte es sogar deutlich weniger als die 5% sein.

mfg
 
SMT ist mehr oder weniger einfach.

Das Problem ist halt, das du da auch einen größeren Prefetcher etc etc brauchst. Man darf sich da nicht nur auf die Register versteigern. Auch ist die Komplexität der anderen Einheiten immer weiter gestiegen. Da trägt SMT dann seinen Teil mit bei. Die ALUs an sich sind ja nicht sooo mega komplex. An den komplexen Sachen wie FPU macht das wenig aus, das stimmt, aber ich würde durchaus sagen, dass das zwischen 5 und 10% an Mehrbedarf mit sich bringt. Nichts desto Trotz ist für die meiste Software SMT eine ganz nette Sache, die sich lohnt. Software ist einfach meist nicht so hoch optimiert, bzw. einfach von der Struktur des Problems halt schon so gegeben, dass man die Cores nicht 100% Auslasten kann.
 
Der stärkste Zambezi hat 8 physische Kerne - Aussage von AMD. Punkt.
Andernfalls: Definiere "physikalischer Kern".
Wenn die Anwedung nicht parallel genug läuft wird der Effekt der 8 Kerne verpuffen wenn die Pro takt Leistung nicht endlich mal zugelegt hat.

Die Marketing Abteilung von AMD wirbt mit 8 Kernen weil man das besser verkaufen kann als 4 Module.
Aber jeder, auch AMD, weiß dass das keine vollwertigen 8 Kerner sind aber versuch mal dem Media Markt und Aldi Käufer klar machen was Module sind.
 
Ich kann mich irren aber wenn er das übertaktet hat, bedeuten weniger Komponenten weniger Fehlerquellen.
 
Threshold schrieb:
Die Marketing Abteilung von AMD wirbt mit 8 Kernen weil man das besser verkaufen kann als 4 Module.
Aber jeder, auch AMD, weiß dass das keine vollwertigen 8 Kerner sind aber versuch mal dem Media Markt und Aldi Käufer klar machen was Module sind.

Wieso denn das?
Nur weil sich zwei Mietwohnungen die Kochnische teilen, heisst das noch lange nicht, dass das auch weniger Wohnkomfort (Leistung) bedeutet.
Wenn die Kochnische voll luxuriös ist und genau geregelt ist, wer wann kochen darf hat man nur kosten gespart.
Ich hoffe ihr versteht meinen Vergleich.
 
Mal Retur zum Thread ... SuperPi ist sehr gut geeignet um die pro Kern Leistung offen zu legen , weil es mal nur 1 Kern Bencht .
Und da hatte SB zum beispiel eine weit bessere als der alte GT , dieses sich ja bekanntermaßen in Games wiedergespiegelt hat .Ich hab mal bei SuperPi ,die kerne der jeweiligen CPUs hochgerechnet und was auffällt ist, das beim AMD x6 und dem i7 920 fast gleichstand ist (wie im Realen) .


432944d1309010584-amd-bulldozer-neues-sample-des-fx-8130p-samt-frischen-benchmarks-bd.jpg



Der 2600k hat stock 11 sec im SuperPi , wenn der BD wie hier gezeigt mindestens 10,00 hat(was ich aber nicht glaube , ehr so 18) und auf 4,6ghz getaktet war , sieht es in Anwendungen die von einer hohen pro Kern Leistung profitieren Übel aus .
Aber wiederum Anwendungen die bis zu 8 Kerne unterstützen sähe das wieder gut aus .
Geht man mal von 19sec aus pro kern , dann wären es Quasi 9,5sec(Theorie) Pro Modul ...

 

Anhänge

  • Bd.jpg
    Bd.jpg
    104,4 KB · Aufrufe: 180
Zuletzt bearbeitet:
Ich hab mal bei SuperPi die kerne der jeweiligen CPUs hochgerechnet , und was auffällt ist m das beim AMD x6 und dem i7 920 fast gleichstand ist (wie im Realen) .

Bloomfield hat aber eine höhere Leistung pro Takt als der Phenom 2.
Der AMD X6 kommt dann an den Bloomfield ran weil er 2 Kerne mehr hat.

attachment.php
 

Anhänge

  • bild1.jpg
    bild1.jpg
    334,3 KB · Aufrufe: 199
Ach so meinst du das.
Da kannst du aber auch Cinebench anschauen, wo der AMD X6 gut steht weil er eben 6 Kerne hat.
Hier wird die schwächere Pro Takt Leistung durch mehr Kerne ausgeglichen aber wenn Bulldozer die gleiche Schwäche hat bringt das eigentlich nichts denn selbst wenn eine Anwendung auf alle 4 Module laufen und dabei nur ein Kern pro Modul benutzt wird (also die volle Leistung liefern kann) wird das nicht reichen weil es dann nur wieder 4 Kerne sind also ein Quad Core.
Laufen aber zwei Module komplett und zwei werden nicht beansprucht, sieht es noch schlimmer aus. Auch hier ist es dann ein 4 Kerner doch der hat weniger Leistung als 4 einzelne Module.
AMD muss schon viel Turbo Modus einbringen um das auszugleichen.
 
Zurück