AMD Bulldozer: FX-8150 ES auf 8 Gigahertz übertaktet

AW: AMD Bulldozer: FX-8150 ES auf 8 Gigahertz übertaktet

"Trinity's Supercomputer" sagt mir jetzt gerade nicht und das Wort ist häufig (spontanes Googlen findet einen Opteron Cluster am TCD), auch sonst wären mir keine So1155 basierten Großrechner bekannt.

Grid-Ireland

A general-purpose cluster of mixed Dell dual quad-core and dual six-core machines offers a total of 1152 cores for ~2.5TF of computation. Each group of 32 nodes is connected via 1Gbps Ethernet to each other and share a 10Gbps connection to the OpsCentre 10Ge network. A 32-GPU/64-core Intel Sandybridge cluster with nVidia GPUs provides ~20TF of high performance GPU-oriented computing. A 16-node Sony Playstation PS3 cluster provides another ~4TF dedicated to a screening campaign for candidate malaria drugs.

Ok, zugegeben, ist zwar nur ein kleiner Teil vom Gross-Rechner, aber beweist das Sockel 1155 zumindest zum Teil in Grossrechnern benutzt wird.

Das hat nichts mit der Rechenleistung zu tun (das da die Desktopmittelklasse erste Wahl wäre, sieht ein Blinder mitm Krückstock), sondern mit der Plattform bzw. der Verbindung der CPUs untereinander. Die Anwendungen laufen zwar parallel, aber sie laufen nicht unabhängig, d.h. man braucht eine möglichst gute Verbindung zwischen den Recheneinheiten. Das geht mit So1155 nicht, dafür braucht es Multi-CPU taugliche Hardware.

Auch wieder wahr, wenn mann aber hauptsächlich mit unabhängigen Daten arbeitet stellt das kein Problem dar. Es gibt nicht wenige Anwendungen wo 99% der Daten unabhängig sind:

Embarrassingly parallel - Wikipedia, the free encyclopedia

Meines Wissens nach wird sie mit schöner regelmäßig gezielt für den jeweiligen Computer geschrieben oder zumindest kompiliert.

Also aus meiner Erfahrung wird eher darauf geachtet das der Algorithm generell effizient ist wenn er auf CPUs laufen soll, bei GPUs optimiert ja wirklich fast jeder auf die Hardware-Architektur. Will jetzt aber auch nicht darüber streiten, ist wahrscheinlich von Institut zu Institut anders.:)

Und relativieren tut sich gar nichts

Doch, es soll schliesslich noch mehr optimierungen geben die mann vornehmen kann als nur FMA4 im Algorithm zu implementieren.

- entweder man nutzt FMA4, oder man tut es nicht. Bei Intel tut man immer letzteres, bei Desktopsoftware tut man bis auf weiteres letzteres und wenn man mit Bulldozer vorran kommen will, sollte man tunlichst ersteres machen.

Wie viel bringt denn FMA4? Weiss nur das aktuelle GPUs das auch haben, habe aber keine Ahnung wie viel das jetzt bringt. Wenn ich das aber richtig geblickt habe ist das sehr stark vom Algorithm abhängig wie viel das jetzt bringt.
 
AW: AMD Bulldozer: FX-8150 ES auf 8 Gigahertz übertaktet

Grid-Ireland

Ok, zugegeben, ist zwar nur ein kleiner Teil vom Gross-Rechner, aber beweist das Sockel 1155 zumindest zum Teil in Grossrechnern benutzt wird.

Scheint echt ein kurioses System zu sein. Zwei Typen Computer für CPU-Berechnungen, eine Handvoll PS3s und 16/32 So1155 Systeme als gpGPU-Basis. Aber wenn man ein nationales Rechennetz entwickeln will, muss man wohl gezielt darauf achten, wie man Dinge zusammenfügt, die nicht zusammenpassen. Als normal würde ich das nicht betrachten.

Auch wieder wahr, wenn mann aber hauptsächlich mit unabhängigen Daten arbeitet stellt das kein Problem dar. Es gibt nicht wenige Anwendungen wo 99% der Daten unabhängig sind:

Aber wieviele davon lässt man auf Supercomputern laufen? Static Hosting? Nö. Grafikrendering? Eher nicht. Brute-Force Kryptographie, Massengesichterkennung? Nö Nö. Die meisten bioinformatischen Dinge und afaik auch Partikelphysik,... sind nur eingeschränkt unabhängig. Man kann die Bewegung wirklich vieler Partikel nicht unter kompletter Vernachlässigung von Kollisionen betrachten.

Also aus meiner Erfahrung wird eher darauf geachtet das der Algorithm generell effizient ist wenn er auf CPUs laufen soll, bei GPUs optimiert ja wirklich fast jeder auf die Hardware-Architektur. Will jetzt aber auch nicht darüber streiten, ist wahrscheinlich von Institut zu Institut anders.:)

Bei Uni-Instituten laufen ja sowieso oft kleinere, experimentelle Sachen von Leuten, die nicht zuviel Zeit auf die Entwicklung verschwenden wollen. Bei echten Großrechnern (Top50_ Kaliber) wird sowas afaik auf kleineren, parallel-Systemen getestet und wenn es massiv Rechenzeit verschwendet, dann sollte man sich noch mal überlegen, ob man ein bißchen Arbeitszeit für Optimierungen nicht billiger ist, als die zu mietende Rechenzeit.

Doch, es soll schliesslich noch mehr optimierungen geben die mann vornehmen kann als nur FMA4 im Algorithm zu implementieren.

?
Und wenn es noch mehr Optimierungen gibt, dann "relativiert" sich deiner Meinung der durch Optimierungen erreichbare Unterschied?
Je mehr spezifische Anforderungen man berücksichtigen könnte, desto mehr verändert sich der Unterschied bei entsprechender Optimierung.

Wie viel bringt denn FMA4? Weiss nur das aktuelle GPUs das auch haben, habe aber keine Ahnung wie viel das jetzt bringt. Wenn ich das aber richtig geblickt habe ist das sehr stark vom Algorithm abhängig wie viel das jetzt bringt.

Was es in Zahlen bringt, wird man wohl abwarten müssen, aber wenn man einen Datensatz hat, wo verschiedene Werte öfters gebraucht werden, erspart einem ja allein das "4" jede Menge Lade/Speichervorgänge. FMA als solches bringt, wenn entsprechende Operationskombinationen auftreten, auf Bulldozer eine Beschleunigung um den Faktor 2.
Wenn man natürlich immer nur multipliziert und die Ausgangswerte danach nicht mehr braucht, bringt das ganze gar nichts.
 
AW: AMD Bulldozer: FX-8150 ES auf 8 Gigahertz übertaktet

Scheint echt ein kurioses System zu sein. Zwei Typen Computer für CPU-Berechnungen, eine Handvoll PS3s und 16/32 So1155 Systeme als gpGPU-Basis. Aber wenn man ein nationales Rechennetz entwickeln will, muss man wohl gezielt darauf achten, wie man Dinge zusammenfügt, die nicht zusammenpassen. Als normal würde ich das nicht betrachten.

Ok, Normal ist das wohl nicht. Die GPUs in den 1155 Systemen sind zum Teil auch unterschiedlich.

Aber wieviele davon lässt man auf Supercomputern laufen? Static Hosting? Nö. Grafikrendering? Eher nicht. Brute-Force Kryptographie, Massengesichterkennung? Nö Nö. Die meisten bioinformatischen Dinge und afaik auch Partikelphysik,... sind nur eingeschränkt unabhängig. Man kann die Bewegung wirklich vieler Partikel nicht unter kompletter Vernachlässigung von Kollisionen betrachten.

Ja gut, aber die Sockel 1155 Systeme dienen ja auch nur dazu die GPUs mit Daten zu versorgen. Und ob mann da ein Multi-Sockel Board nimmt oder nicht macht da keinen grossen Unterschied mehr, solange jede GPU genügend Lanes hat.

Bei Uni-Instituten laufen ja sowieso oft kleinere, experimentelle Sachen von Leuten, die nicht zuviel Zeit auf die Entwicklung verschwenden wollen. Bei echten Großrechnern (Top50_ Kaliber) wird sowas afaik auf kleineren, parallel-Systemen getestet und wenn es massiv Rechenzeit verschwendet, dann sollte man sich noch mal überlegen, ob man ein bißchen Arbeitszeit für Optimierungen nicht billiger ist, als die zu mietende Rechenzeit.

Auch wieder wahr, aber der Grossrechner hier ist ja eine Lachnummer gegen die grossen Supercomputer, wahrscheinlich achten die deshalb nicht so auf die Hardware Optimierung.

?
Und wenn es noch mehr Optimierungen gibt, dann "relativiert" sich deiner Meinung der durch Optimierungen erreichbare Unterschied?
Je mehr spezifische Anforderungen man berücksichtigen könnte, desto mehr verändert sich der Unterschied bei entsprechender Optimierung.

Nein, ich meinte damit das mann auch bei Intel optimieren kann, und dann relativiert sich der Unterschied zu Bulldozer wieder.

Was es in Zahlen bringt, wird man wohl abwarten müssen, aber wenn man einen Datensatz hat, wo verschiedene Werte öfters gebraucht werden, erspart einem ja allein das "4" jede Menge Lade/Speichervorgänge. FMA als solches bringt, wenn entsprechende Operationskombinationen auftreten, auf Bulldozer eine Beschleunigung um den Faktor 2.
Wenn man natürlich immer nur multipliziert und die Ausgangswerte danach nicht mehr braucht, bringt das ganze gar nichts.

Mal sehen ob FMA4 auch in Desktop Software genutzt wird, aber bis Intel da nicht mit aufs Boot springt dauert das wohl noch.
 
AW: AMD Bulldozer: FX-8150 ES auf 8 Gigahertz übertaktet

Ja gut, aber die Sockel 1155 Systeme dienen ja auch nur dazu die GPUs mit Daten zu versorgen. Und ob mann da ein Multi-Sockel Board nimmt oder nicht macht da keinen grossen Unterschied mehr, solange jede GPU genügend Lanes hat.

Man muss halt gucken, dass man genug Daten schnell genug vorhalten kann. Mehr Kerne sind da sicherlich nicht nötig, aber z.B. können zusätzliche Speicherkanäle von Vorteil sein oder eine schnelle Massenspeicheranbindung. So1155 mit seinen 6 Modulen und 2 GB/s für alle Peripherie setzt da einfach viele Grenzen - aber in manchen Fällen mag es ausreichen.
(wo ist Skysnake, wenn man mal ein Kommentar zu gpGPU braucht?)

Auch wieder wahr, aber der Grossrechner hier ist ja eine Lachnummer gegen die grossen Supercomputer, wahrscheinlich achten die deshalb nicht so auf die Hardware Optimierung.

Und genau so kenne ich das von relativ vielen Universitäten. Man hat einen kleinen Cluster, aber weder ist der für ganz große Sache geeignet oder gedacht, noch hat man Teams, die das nötige Wissen haben, um ihn wirklich auszureizen. Für Studenten und Wissenschaftler, die sonst froh sind, nen Dualcore zur Verfügung zu haben, ist es viel, aber eben nicht der Hauptinhalt ihrer Arbeit.

Nein, ich meinte damit das mann auch bei Intel optimieren kann, und dann relativiert sich der Unterschied zu Bulldozer wieder.

Und was ich meine ist, dass es bei Intel eben vergleichsweise wenig zu optimieren gibt. Willst du zusätzliche Befehlssätze nutzen, kannst du alle Intel-Optimierungen auch bei AMD anwenden - und eine mehr. Willst du auf spezifische Kernnutzungen optimieren, kannst du bei Intel HT berücksichtigen, bei AMD Module, deren Turbo und die Cache Aufteilung. Willst du bei Intel auf Durchsatz durch die gesamte Pipeline optimieren, hast du genau eine Konfiguration, bei AMD wechselt das effektive Decoder/Pipeline Verhältnis je nach Auslastung der Kerne der Module. Etc.
Bulldozer ist ein Stück komplizierter und bietet damit mehr Stellen, an denen man Fehler vermeiden könnte - wenn man sich denn die nötige Zeit nimmt.

Mal sehen ob FMA4 auch in Desktop Software genutzt wird, aber bis Intel da nicht mit aufs Boot springt dauert das wohl noch.

Wenn Intel nicht mitzieht: Zu 95% nie. AMD hat knapp 10% Marktanteil, daran wird Bulldozer nichts ändern. Von den 10% dürften 90% aufs unterere und mittlere Angebot entfallen - daran wird AMD nur etwas in Gegenrichtung ändern. Auf 50% des Gesamtmarktes alias Notebooks dürfte er bis auf weiteres gar nicht vertreten sein. Ein Befehlssatz, der in vielleicht 0,5% der verkauften CPUs steckt, wird aber selbst in 2-3 Jahren keine nenneswerte Verbreitung haben.
Die einzige Möglichkeit wäre, dass Intel wieder von FMA3 auf 4 wechselt und dann ab Haswell im Boot ist (was schon verdammt spät für jetzige Bulldozerkäufer wäre) - aber wieso sollten sie?
 
AW: AMD Bulldozer: FX-8150 ES auf 8 Gigahertz übertaktet

Man muss halt gucken, dass man genug Daten schnell genug vorhalten kann. Mehr Kerne sind da sicherlich nicht nötig, aber z.B. können zusätzliche Speicherkanäle von Vorteil sein oder eine schnelle Massenspeicheranbindung. So1155 mit seinen 6 Modulen und 2 GB/s für alle Peripherie setzt da einfach viele Grenzen - aber in manchen Fällen mag es ausreichen.
(wo ist Skysnake, wenn man mal ein Kommentar zu gpGPU braucht?)

Soweit ich weiss limitiert Sockel 1155 bei GPGPU nicht viel weil der lahme PCI Express bremst sowieso alles aus. Da macht es dann keinen Unterschied ob mann 2 oder 3 Kanal Speicher hat.
 
AW: AMD Bulldozer: FX-8150 ES auf 8 Gigahertz übertaktet

Vom Durchsatz her garantiert nicht (8+8 GB/s PCI-E, 16 GB/s für DDR3-2000), aber im Gegensatz zu Spielen, die immer wieder das gleiche zeigen, können bei Berechnungen sehr große Datensätze anfallen (gerade gpGPU nimmt man ja auch nicht unbedingt bei hochkomplexen Verfahren, die immer wieder aufeinander aufbauen) - die müssen irgendwo gespeichert werden und wenn das ganze z.B. eine komplexe räumliche Simulation ist (Klima), dann muss ggf. immer mal wieder ein Ergebnis oder ein Ausgangspunkt eines anderen Bereiches wieder genutzt werden und man muss somit sehr viele Informationen sehr schnell vorrätig halten. 50% mehr RAM kann da was wert sein. Fast noch störender könnte aber die problematische Laufwerksanbindung bei So1155 sein. Du kommt mit 2 GB/s an die Anschlüsse der Southbridge (aber mit 6xSATA kommst du dann nicht unbedingt weiter) und mit maximal 1 GB/s aus der Southbridge raus.
 
AW: AMD Bulldozer: FX-8150 ES auf 8 Gigahertz übertaktet

Vom Durchsatz her garantiert nicht (8+8 GB/s PCI-E, 16 GB/s für DDR3-2000), aber im Gegensatz zu Spielen, die immer wieder das gleiche zeigen, können bei Berechnungen sehr große Datensätze anfallen (gerade gpGPU nimmt man ja auch nicht unbedingt bei hochkomplexen Verfahren, die immer wieder aufeinander aufbauen) - die müssen irgendwo gespeichert werden und wenn das ganze z.B. eine komplexe räumliche Simulation ist (Klima), dann muss ggf. immer mal wieder ein Ergebnis oder ein Ausgangspunkt eines anderen Bereiches wieder genutzt werden und man muss somit sehr viele Informationen sehr schnell vorrätig halten.

Das ist mir bewusst. Aber PCI Express x16 kann maximal 8GB/s übertragen. Da die Bandbreite vom RAM heutzutage fast immer >10GB/s ist macht es keinen Unterschied ob mann bei GPGPU dual oder Triple channel RAM nutzt. PCI Express limitiert sowieso.

Nur kuck mal50% mehr RAM kann da was wert sein. Fast noch störender könnte aber die problematische Laufwerksanbindung bei So1155 sein. Du kommt mit 2 GB/s an die Anschlüsse der Southbridge (aber mit 6xSATA kommst du dann nicht unbedingt weiter) und mit maximal 1 GB/s aus der Southbridge raus.

Ok, die Massenspeicher Anbindung ist bei Sockel 1155 ein Problem. Aber wenn mann wirklich komplexe Berechnungen ausführt dann braucht die Berechnung so lange das mehr als genug Zeit da ist um die Daten im Hintergrund zu transferieren.

Edit: Ok Stephan.
 
Zurück