Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

Skysnake hat nur gesagt, dass sich die IPC nicht erhöhen soll, aber die Argumentation von VinD hört sich imho schlüssig an. Performance wird durch Optimierung aber so oder so steigen. Da das wichtigste, was angegangen werden muss die Performnce/Watt ist und die wird garantiert steigen mit den nächsten Modellen.

Hm, was Marcs Aussage angeht, hab ich auch zu wenig Ahnung. Aber es stimmt schon, dass Zacate sehr chaotisch aussieht und Bulldozer sehr strukturiert. Aber Optimierungen lassen sich garantiert auch bei BD finden, bei 2 Mrd Transistoren kann man nie alles perfekt gemacht haben, weder von Hand noch per Programm.
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

Trifft deine Aussage zu, dann wäre der Orchi von Hand Designd. Nur sagt Cliff ja die würden bei AMD das Design per Programm erstellen und dadurch an die 20% Verlust gegenüber per hand Design in Kauf nehmen. Was stimmt den jetzt.
Das hier aufgegriffene Gerücht ist in der Urform schon älter und es liegt nahe, dass dieser AMD-Mann eventuell Bulldozer mit Zacate verwechselt - warum auch immer.
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

@Cuthbert: willst du wissen was "Handoptimiert" ist, vergleiche alle Die-Shots der P4-Generationen. Die werden chaotischer, je "handoptimierter" sie sind.

Performance/Watt wird sich definitiv verbessern, durch einige Kniffe ist es möglich einzelne Transistorgruppen überflüssig zu machen und an anderer Stelle reichen stromsparendere Varianten von Transistoren.
Es ist unmöglich mittels VHDL in geringster Zeit eine gesamte Simulation einer CPU laufen zu lassen, daher muss man die Schaltzeiten mittels anderer Programme und FPGA abstrahieren. Die grundsätzliche Architektur der entwickelten CPU ist dabei irrelevant, bei der Abstraktion lassen sich nicht einzelne Transistoren verschieben, da es keine gibt.
Der nächste schritt ist die Erstellung des Netzplanes in dem nicht mal die erschaffenden Ingenieure mehr sagen können welches Bauteil welche genaue Funktion hat.
Erst wenn man ein funktionstüchtiges Produkt besitzt kann man überprüfen in wie weit was funktioniert oder nicht.
Daher gibt es schon beim Design und beim Abstrahieren Makierungsmethoden, um spätere Einzelteile genauer zu Analysieren. Sprich im ersten Produkt gibt es Messpunkte.
Nun können anhand dieser Messpunkte Bauteile eingegrenzt werden und mittels weiterer Forschungs-Produkte überprüft werden was passiert. Stellen sich bestimmte Änderungen als Positiv heraus gibt es eventuell eine neue Revision.
Bei einem negativen Ergebnis ist wertvolle Zeit und wertvolles Material verloren gegangen. In dieser Sparte kann man nur noch auf Erfahrung zurückgreifen.

Seit Jahren setzten AMD/ATI/Nievidia/INTEL/IBM auf Plugins von internen Teams, die Baugruppen im VHDL-Editor überschreiben.

@Sauerland: beide Aussagen sind wahr, weil ja die eine auf dem anderen Aufbaut ;)
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

Diese Vorgehensweise ist so klug wie dumm. Einerseits konnten AMD schnell ein funktionierendes Design herausbringen, andererseits ist es höhst ineffizent - man schaue sich nur mal die intenen Latenzen an.
Klug an dieser Vorgehensweise ist allerdings, dass dieses Design nun in relativer ruhe per Hand über Generationen optimiert werden kann.

Die Frage ist, ob man das nötige Know-How dafür hat. Iirc ist Handoptimierung in den letzten Jahren wieder schwer im kommen und wenn AMD zeitgleich komplett auf Automatik umgestellt hat, dann würde ich aus Einsparmaßnahmen tippen - und entsprechende Entlassungen erwarten.


Nehme ich dann auch noch Intel Aussage hier in den News zur kenntnis, dann will man derzeit keinen 8-Kerner auf den Markt bringen weil die zuviel Strom benötigen. Als Vergleich zeigte man auf das derzeit 130Watt für den Sechskerner benötigt würden und 150-160Watt für den Achtkerner.

Intel hat 8- und 10-Kerner am Markt (Nehalem und Westmere-EX) und wird Octacore Xeons im Rahmen von SB-E bringen.


Ihr dürft hier wirklich nicht von der Leistungsfähigkeit der Architektur sprechen. Also kurz mit dem Schlagwort IPC in Verbindung bringen. Ob jetzt von Hand designed oder per Tool sollte es keine Unterschiede geben. Man baut ja in der Regel mit beiden Verfahren die gleiche Logik auf. Sie ist eben nur etwas anders aufgebaut.

Wenn er also sagt, die tools sind langsamer, dann meint er damit, dass der Chip halt langsamer takten kann, oder bei gleichem Takt mehr Leistung aus der Dose zieht. Mit der Rechenleistung hat das wirklich nichts zu tun.

Jetzt verplaperst du dich selbst, denn mehr Takt bei gleichem Schaltbild/IPC hat eindeutig war mit Rechenleistung zu tun ;)
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

@ruyen_macaran

Zitat: Intel hat 8- und 10-Kerner am Markt (Nehalem und Westmere-EX) und wird Octacore Xeons im Rahmen von SB-E bringen.

ich hab mich dabei auf diesen Artikel bezogen: Sandy Bridge E kommt vorerst mit maximal sechs Kernen - cpu, intel, sandy bridge

demnach will Intel bei Sandy Bridge E ja nicht mehr auf 8-Kerner konzentrienen, weil die eben soviel Strom ziehen.

Diesen Artikel folgend könnte ich vermuten, dass der Bulldozer doch nicht grundlos soviel Strom zieht und dies nicht unbedingt als Manko anzusehen ist wie es von vielen hier im Forum geäußert wurde. Da habe ich in manchen Testberichten gelesen, dass der Bulldozer eben mal bis zu 60 Watt mehr verbraucht als Sandy Bridge 2600K.


Gruß
 
Zuletzt bearbeitet:
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

Die Meldung ist bekannt (seit Monaten), aber du übersiehst da was:
Weil sie mit den im Desktop benötigten Taktraten zuviel Strom ziehen. Das ist ein kleiner, aber feiner Unterschied. Mit der pro-Kern-Leistung eines Bulldozers könnte Intel vermutlich selbst einen Decacore im 130 W Budget unterbringen, aber diese CPU wäre dann in typischen Desktopanwendungen merklich langsamer, als ein Modell mit 6 Kernen und höheren Takt bei gleichem Verbrauch. Und genau deswegen bringt man genau den für den Desktopmarkt.
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

Ahhaaaa so... und wer ist jetzt das schwarze Schaf ? .Na schön Wenn das stimmt, können sie die Macken ,mit Piledriver ausbuttern.:D:what:
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

wenn es doch nur Macken wären! Das spezifische Design scheint auf hohe Taktraten angewiesen zu sein. Das bedeutet wohl das BD dort startet wo Intel mit ihrem P4 auch schon angefangen hat. Ich fand hohe Taktraten nie sehr elegant, aber verführerisch.
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

In VHDL-Editoren Programmiert man einzelne Module, nicht die gesamte CPU. Werden nun mehrere Module nach Design-Vorschrift zusammengeschlossen, müssen die Signale nicht syncron ankommen. Daraus resultiert eine maximal effektive Taktfrequenz und Latenzen. Intel hatte mit ihrem letzten P4 Design(Cedar Mill)* beinahe jede Latenz herausgearbeitet und du siehst wo das hinführt. Einerseits zu einer höheren Max-Taktrate und andererseits zu einer erhöhten IPC - einfach weil einige Latenzen veringert werden konnten.
Der Trick dabei ist, das manche Transistoren zB für den Cache an dafür eigendlich nicht vorgesehene Stellen gelangen und so einen syncronen Eingang ermöglichen.

Kurz: das eine resultiert aus dem anderen, damit ist die Aussage wahr
Klar kannste keine ganze CPU durchs Placement and Routing durch jagen. Das wäre einfach ein viel zu komplexes Problem. Ne FPU und nen Front-End kann man aber schon rein knallen. Wird zwar noch immer mehrere Tage sicherlich brauchen, bis das Ding halbwegs was vernünftiges raus hat, aber es sollte machbar sein.

Und das man Transitoren/Logik auch auf den Weg zum Ziel legt, musste mir nicht sagen :ugly: CRC kann man so ja z.B. schön machen :D

Für den Chip in der Uni bei uns lassen se das Placement/Routing irgendwas zwischen einem Tag und einer Woche laufen, und da steht ne nette Maschine da :wow:

Wo du natürlich recht hast, ist das man mal hier einen Takt einsparen kann und mal dort. Aber solche Sachen, wo es wirklich Laufzeitkritisch ist und auf jeden Takt drauf an kommt, wird sicherlich eh noch von Hand gemacht, oder eben durchlaufen gelassen, bis der Rechner glüht :devil:


Welche Aussage ist Wahr. Die von Cliff Maier im Bezug auf die Optimierungs Möglichkeiten, oder die von Skysnake der hier schreibt, dass eine weitere Optimierung des Design von Hand kein Leistungsplus erwarten läßt.


Gruß
Ich hab nicht gesagt, das Handoptimierungen kein Leistungsplus bringen. Man muss sich nur anschauen, wie viel man von Hand optimieren kann, und was dann auf der anderen Seite eben gar nicht oder schlecht optimiert wird, weil einfach die Zeit/Manpower/Geld fehlt. AMD hat nur ein beschränktes Budget, und wenn man eine Stelle extrem optimiert, dann kostet jedes Prozent an Verbesserung immer mehr an Aufwand. Da muss man aufpassen, das man eben nicht andere Punkte deswegen total vernachlässigt.

@Ruyven:
BD hat aber SEHR gute Taktraten, oder willst du das verleugnen? Da gehts eher darum, ob du Aufgrund der Latenzen/Laufzeiten der Signale überhaupt ein Design schaffst, was XGHz packt. BD läuft mit 4,x GHz. Selbst die 8 GHz verträgt das Ding! Was willst du da noch an höheren Taktraten? Man könnte sich höchstens anschauen, ob da großartig Puffer eingebaut sind, bzw. halt ne lange Pipeline etc. verwendet wird. Aber BD hält sich da ja noch im Rahmen, was die Pipelinestufen anbelangt, wenn ich es richtig im Kopf habe.

Das man natürlich die gleiche Taktrate mit weniger Verbrauch haben könnte sag ich ja auch, aber das hätte an der Leistung von BD eben nichts verändert, da die IPC nicht größer gewesen wäre, und der Takt auch nicht. Nur der Verbrauch halt niedriger und BD eben ein kleinerer DIE, wobei man sicherlich keine 30%+ eingespart hätte.
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

Trifft deine Aussage zu, dann wäre der Orchi von Hand Designd. Nur sagt Cliff ja die würden bei AMD das Design per Programm erstellen und dadurch an die 20% Verlust gegenüber per hand Design in Kauf nehmen. Was stimmt den jetzt.

Ich bin ja kein versierter CPU Designer, daher würde mich das ganze schon etwas interessieren.


Gruß
Ich kann dir dazu nur so viel sagen, dass CPUs sowieso mit softareunterstützung designed werden.
Ich hatte mal das "Vergnügen" einen Taschenrechner bzw dessen Chip per Hand zu designen. Ja das war schön.... Oder doch nicht?...
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

Vielleicht sollte man bei aller Diskussion auch mal daran denken dass der Herr Maier bestimmt nicht das beste Verhältnis zu AMD hat.
Wenn man als leitender Ingenieur den zweitgrößten x86 Hersteller verlässt und das nicht weil man zum Größten wechselt dann glaube ich nicht dass da alles freundlich ab lief.
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

Plausibel wäre der Gedanke, er wäre im Zuge der Automatisierung entlassen worden.

BTW: selbst beim Programmieren einen VHDL-Taschenrechners empfinde ich spaß. Leider sehe ich in dem Bereich keine Zukunft für mich, daher hab ich mich umentschieden^^
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

@Ruyven:
BD hat aber SEHR gute Taktraten, oder willst du das verleugnen? Da gehts eher darum, ob du Aufgrund der Latenzen/Laufzeiten der Signale überhaupt ein Design schaffst, was XGHz packt. BD läuft mit 4,x GHz. Selbst die 8 GHz verträgt das Ding!

BD läuft mit 3,6 GHz. Für 8 GHz braucht er um die 2 Volt, Flüssiggas und viel Glück. Für eine Architektur, deren Entwicklung zu einem Zeitpunkt gestartet wurde, als noch 10 GHz im Lastenheft standen, die gezielt auf hohe Taktraten ausgelegt ist und die für eine Rechenleistung im versprochenen/von einem Nachfolger zu erwartenden Bereich um die 5 GHz liegen müsste, ist es eindeutig zu wenig.

Die Pipelinestufen sind nicht auf Netburst-Niveau, da hast du recht. Was ich mich derzeit frage: Kann man auch innerhalb einer Stufe durch zusätzliche Transistoren eine höhere Taktfestigkeit rauskitzeln? Denn feststeht: Bulldozer braucht erstaunlich viele von denen und der Stromaufnahme zu Folge sitzen die nicht im Cache. Eine Architektur, die ihre akzeptable Taktfestigkeit durch Masse statt Klasse schafft, würde genau zu den Eckdaten und diesem Gerücht passen.


Plausibel wäre der Gedanke, er wäre im Zuge der Automatisierung entlassen worden.

Er klingt wie jemand, den man im Zuge einer Automatisierung entlassen würde - aber nicht wegen der Automatisierung, sondern wegen seiner Einstellung dazu. Man kann nicht die Führungsspitze wegrationalisieren, man kann sie nur austauschen, wenn sie sich weigert, die neue Strategie (z.B. "last Automatismen pfuschen") mitzutragen.
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

Ruyven, ich sag mal Jaein.

Du hast ja irgend einen Signalpfad, und bis das Signal durch die Pipelinestufe durch ist, musste halt warten. Je komplizierter die Stufe ist, desto länger brauch das Signal halt, bis es einen stabilen Pegel erreicht hat, und das Ergebnis am Ausgang anliegt.

Direkt durch mehr Transistoren kannste das nicht weg bekommen. Eher im Gegenteil, du machst das Problem nur noch schlimmer, da jeder Transistor ja wieder die Zeitspanne verlängert, bis das Signal anliegt.

Was du machen kannst ist die Funktion, die du in Hardware hast zu teilen, wenn Sie mehrere logische Funktionen enthält. Nehmen wir mal z.B. die Integer-ALUs.

Du hast zwei Funktionen. XOR und AND. Entweder du packst das in eine etwas kompliziertere Funktionseinheit, die eben beides kann, oder du baust zwei Stück, die eben nur das eine können. Wenn du beides in einem hast, musst du erst mal entscheiden, was brauch ich denn. Das dauert. Wenn du getrennte Hardware hast, kannste einfach beides schon mal ausrechnen und während dessen schauen, was du eben brauchst. Kostet halt mehr Energie.

Das ist halt immer die Entscheidungsfrage. Wo verwende ich extra Hardware um eine spezielle Aufgabe zu lösen, und wo fasse ich Sachen zusammen.

So kannste schon dann nochmal mehr Taktbarkeit raus holen, aber ob das Sinn macht muss man sich halt immer anschauen. Vor allem muss es ja über alle Stufen der Pipeline funktionieren. Man hat ja in jedem Modul/Funktionsteil eine eigene Laufzeit fürs Signal, und die müssen halt alle unter einen Hut gebracht werden. Das die Laufzeitunterschiede aber VERDAMMT gering sind, sieht man ja daran, dass eben der Chip bis 8 GHz und mehr geht.

Wenn das nicht alles sehr sehr gut aufeinander abgestimmt wäre, würde die CPU da gar nicht mehr laufen, weil eben laufend nur Blödsinn bei rauskommen würde, da eben die Ausganspegel noch nicht stabil sind. Dem ist aber eben nicht so. Daher hat BD ja auch kein Taktproblem. Klar er hat ein Effizientsproblem, aber das ist eben was anderes. Das hat mit dem Prozess zu tun, wie hoch das Ding taktet, und wie man eben Energie "verpulvert" für Sachen, die man nicht unbedingt brüchte. Daten z.B. einfach von A nach B zu schieben kostet halt auch schon einiges an Energie, wenn das in sehr großen Mengen passiert.

Also kurz um, BD schafft die Taktraten, die er soll locker, nur eben eventuell nicht innerhalb der TDP die man sich erhofft hat, wobei man da vielleicht um 10-20% vom Ziel entfernt ist. Soooo viel ist es ja jetzt auch nicht, wenn man bedenkt wie hoch er taktet. Von einem 5GHz Chip ist HOFFENTLICH niemand ausgegangen. Die Lehre hätte man eigentlich aus dem P4 schon ziehen sollen, dass das einfach nicht funktioniert....:schief:

Irgendwo muss da der Wurm im Design drin sein, entweder ein ziemlich ekliger Brocken, oder aber an verdammt vielen Stellen eben kleine Fehler/Unzulänglichkeiten, die sich aber halt dann in der Masse dann doch auswirken.

Auf SA ist das eigentlich ganz gut dargestellt. Keine Ahnung, ob es wirklich so ist, wie Charlie schreibt, aber denkbar ist es. Das Problem zu fixen ist dann aber halt nicht so einfach, weil man halt nirgendwo den dicken Gewinn aus einer Änderung zieht. Dafür hat man über einen längeren Zeitraum hin wohl das Potenzial noch wirklich viel aus der Architektur raus zu ziehen, man braucht aber halt einfach die Manpower dafür, die sich darum kümmert.
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

Da der BD nicht linear mit seinem Takt skaliert, denke ich es gibt überall kleine Timingproblemchen und grundsätzlich einige Bereiche die einfach zu lange brauchen. Ich meine, was bringen dir 10Teraherz wenn die Datenspeicherung trotzdem 60ns brauch?
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

Das Timing passt schon, sonst würde die CPU nicht laufen ;)

Du hast nur unterschiedliche Clock-Damains. Also z.B. Uncore und NB. Dafür gibts aber Buffer.
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

die Timings stimmen nur innerhalb bestimmter Parameter. Über diese hinaus kommte es zuerst zu Datensalat und anschließend zu ausfällen. Nach deiner Theorie könnte man ja jede CPU beliebig Takten, wenn man nur genügend Saft anlegen könnte ;)

Und die angesprochenen "Buffer" würden nur eine Zeitverzögerung hervorrufen und die CPU mit steigender Taktfrequenz erlahmen lassen.

Zudem spielt hier noch eine Rolle wie lange die Bauteile benötigen um die nötige flanke aufzubauen.
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

Aber die CPU läuft eben unter 8 GHz. Oder haste den OC-Weltrekord mit BD nicht mit bekommen? Wir reden ja hier über ein reales Produkt, und nicht über die Anforderungen, die nötig sind, damit so was funktioniert.

BD IST in der Lage so hohe Taktraten mit zu machen, aber passen die Timings, oder siehst du das anders?
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

Ich kenne den Rekord. Und dieser zeigt, das wie bei jedem anderen Elektronischen Produkt irgendwann die Timings nicht mehr stimmen. Ich habe mit keinem Wort erwähnt das BD nicht auf relativ hohe saubere Taktraten kommt. Ich habe vielmehr erklärt wieso es danach nicht weiter geht und weshalb er dafür mehr Energie benötigt.
Die zusätzliche Energie ist für geringere Schaltzeiten und eine saubere Flanke elementar.

Deine Ausführung bedeutete eine (theoretisch) unendliche Taktsteigerung bei linearen Energieeinsatz. Das wollte ich richtig stellen.
 
AW: Bulldozer: Ex-AMD-Ingenieur sieht automatische Designprozesse für mangelden Performance verantwortlich

Das hab ich zwar nicht gesagt (sagen wollen) aber ok.

Es ging mir nur darum, da BD mehr als ausreichend taktet, und da wohl eher nicht das Taktziel verfehlt wurde. Damit BD wirklich konkurrenzfähig ist, hätte er schon mit rund 4-4,2Ghz @stock daher kommen müssen und nem Turbo von bis zu 5GHz. Ich hoffe, dass die das NICHT als Taktziel hatten.

Die Taktrate die BD jetzt hat scheint mir auch so geplant gewesen zu sein. Gut, wohl bei etwas weniger Leistungsaufnahme, aber das ändert ja nichts an der grottigen IPC. Da siehts für mich nämlich eher nicht danach aus, als ob das Ding so arbeitet wie es soll.
 
Zurück