thysol
BIOS-Overclocker(in)
AW: AMD Bulldozer: FX-8150 ES auf 8 Gigahertz übertaktet
Grid-Ireland
Ok, zugegeben, ist zwar nur ein kleiner Teil vom Gross-Rechner, aber beweist das Sockel 1155 zumindest zum Teil in Grossrechnern benutzt wird.
Auch wieder wahr, wenn mann aber hauptsächlich mit unabhängigen Daten arbeitet stellt das kein Problem dar. Es gibt nicht wenige Anwendungen wo 99% der Daten unabhängig sind:
Embarrassingly parallel - Wikipedia, the free encyclopedia
Also aus meiner Erfahrung wird eher darauf geachtet das der Algorithm generell effizient ist wenn er auf CPUs laufen soll, bei GPUs optimiert ja wirklich fast jeder auf die Hardware-Architektur. Will jetzt aber auch nicht darüber streiten, ist wahrscheinlich von Institut zu Institut anders.
Doch, es soll schliesslich noch mehr optimierungen geben die mann vornehmen kann als nur FMA4 im Algorithm zu implementieren.
Wie viel bringt denn FMA4? Weiss nur das aktuelle GPUs das auch haben, habe aber keine Ahnung wie viel das jetzt bringt. Wenn ich das aber richtig geblickt habe ist das sehr stark vom Algorithm abhängig wie viel das jetzt bringt.
"Trinity's Supercomputer" sagt mir jetzt gerade nicht und das Wort ist häufig (spontanes Googlen findet einen Opteron Cluster am TCD), auch sonst wären mir keine So1155 basierten Großrechner bekannt.
Grid-Ireland
A general-purpose cluster of mixed Dell dual quad-core and dual six-core machines offers a total of 1152 cores for ~2.5TF of computation. Each group of 32 nodes is connected via 1Gbps Ethernet to each other and share a 10Gbps connection to the OpsCentre 10Ge network. A 32-GPU/64-core Intel Sandybridge cluster with nVidia GPUs provides ~20TF of high performance GPU-oriented computing. A 16-node Sony Playstation PS3 cluster provides another ~4TF dedicated to a screening campaign for candidate malaria drugs.
Ok, zugegeben, ist zwar nur ein kleiner Teil vom Gross-Rechner, aber beweist das Sockel 1155 zumindest zum Teil in Grossrechnern benutzt wird.
Das hat nichts mit der Rechenleistung zu tun (das da die Desktopmittelklasse erste Wahl wäre, sieht ein Blinder mitm Krückstock), sondern mit der Plattform bzw. der Verbindung der CPUs untereinander. Die Anwendungen laufen zwar parallel, aber sie laufen nicht unabhängig, d.h. man braucht eine möglichst gute Verbindung zwischen den Recheneinheiten. Das geht mit So1155 nicht, dafür braucht es Multi-CPU taugliche Hardware.
Auch wieder wahr, wenn mann aber hauptsächlich mit unabhängigen Daten arbeitet stellt das kein Problem dar. Es gibt nicht wenige Anwendungen wo 99% der Daten unabhängig sind:
Embarrassingly parallel - Wikipedia, the free encyclopedia
Meines Wissens nach wird sie mit schöner regelmäßig gezielt für den jeweiligen Computer geschrieben oder zumindest kompiliert.
Also aus meiner Erfahrung wird eher darauf geachtet das der Algorithm generell effizient ist wenn er auf CPUs laufen soll, bei GPUs optimiert ja wirklich fast jeder auf die Hardware-Architektur. Will jetzt aber auch nicht darüber streiten, ist wahrscheinlich von Institut zu Institut anders.

Und relativieren tut sich gar nichts
Doch, es soll schliesslich noch mehr optimierungen geben die mann vornehmen kann als nur FMA4 im Algorithm zu implementieren.
- entweder man nutzt FMA4, oder man tut es nicht. Bei Intel tut man immer letzteres, bei Desktopsoftware tut man bis auf weiteres letzteres und wenn man mit Bulldozer vorran kommen will, sollte man tunlichst ersteres machen.
Wie viel bringt denn FMA4? Weiss nur das aktuelle GPUs das auch haben, habe aber keine Ahnung wie viel das jetzt bringt. Wenn ich das aber richtig geblickt habe ist das sehr stark vom Algorithm abhängig wie viel das jetzt bringt.