Wer hat den grünsten HPC-Daumen?

Skysnake

Lötkolbengott/-göttin
Wer hat den grünsten HPC-Daumen?

Vor nun mehr als zwei Jahr hatte nVidia am 21.09.2010, ich berichtete, ihre Roadmap für die Zukunft vorgestellt, und mit Kepler für 2011, nach dem verkorksten Fermi start, eine deutlich gestiegene DP-Flop/s pro Watt Leistung versprochen.

270924d1285098479-nvidia-kuendigt-zukuenftige-grafikkarten-generationen-auf-der-gpu-technology-conference-2010-nvidia-roadmap-klein.png

Quelle: http://tof.canardpc.com/preview2/2bc85b54-ed2d-4754-87ba-48ce59046ce0.jpg

Fast genau ein Jahr später wollte nVidia von dieser Roadmap anscheinend nicht mehr wissen, und verschob "einfach" Kepler und Maxwell um jeweils ein Jahr. Also war zunächst einmal wieder warten angesagt, welches am 22. März 2012 dann ein Ende zu haben schien mit dem Launch der GTX680 auf Basis des GK104. Doch leider weit gefehlt. Die neu gelaunchte Karte entpuppte sich leider als völlig unbrauchbar, was ihre DP-Performance anbelangt, auf welche sich nVidia ja bei ihrer Roadmap stütze. Also hies es erneut warten, denn die geringe DP-Performance kam nicht durch eine Beschneidung zustande, sondern lag im Chip an und für sich begründet, wie später die K10 GPU zeigte.

1.png
Quelle: Nvidia Kepler: Produziert 2011, verkauft 2012 - 08.09.2011 - ComputerBase

Also hies es wieder warten, und nun mit der Vorstellung von K20 im Rahmen der SC12 in SalteLake-City, hat das Warten nun ein Ende. Wie sich zeigte, verfehlt man aber scheinbar die anvisierte Effizienzsteigerung mehr oder weniger deutlich mit einem Wert von ~2,3 bis ~2,8 bei einem anvisierten Wert von ~3,0. Gleichzeitig konnte AMD und Intel mit ihrer neuen FirePro bzw. XeonPhi Beschleunigerkarte auf sich aufmerksam machen.

Insbesondere die neue Green500, welche in Rahmen der Top500 und SC12 ebenfalls veröffentlicht wurde, hatte einige Überraschungen parat. Waren auf der letzten Green500 vom Juni 2012 noch die BlueGene/Q Modelle von IBM unangefochten an der Spitze (Platz 1-20) mit über 2,069 GFlop/s pro Watt und damit deutlich vor den ersten nicht BlueGene/Q Modell mit ~1,380 bzw. 1266 GFlop/s pro Watt. Hierbei handet es sich um ein Intel Xeon System mit MIC (Vorgänger/Alias von XeonPhi), ein System mit Intel i5 & AMD Radeon sowie einem IntelXeon und nVidia M2090 (Fermi).
Wie man sieht war IBM in Sachen Perf/W unangefochten an der Spitze, und selbst nVidia musste sich bereits einem System mit Intels Beschleunigerkarte, sowie einem mit AMDs Konsumerkarten geschlagen geben.

Auf der nun aktuellen Green500 vom Nobember 2012 hat sich nun doch grundlegend etwas geändert. Die zuvor beeindruckend führenden BlueGene/Q wurden nun auf die Plätze 5 und dahinter verwiesen.

Auf Platz 1 setzt sich überraschend mit 2,499 GFlup/s pro Watt ein System mit Intels XeonPhi Beschleunigerkarten der University of Tennessee. Hatte man doch aufgrund nVidias großer Fokusierung auf das Thema DP-Flop/s pro Watt doch angenommen, das sich hier ein System mit nVidias neuem TopDog K20(x) an die Spitze setzt.

Auf Platz 2 schafft es dann mit bereits rund 6% Rückstand allerdings ebenfalls nicht das groß in den Medien presente Titan System von Cray mit K20x Beschleunigerkarten von nVidia, welches aktuell auch die Top500 anführt, sondern völlig überraschend ein System mit AMDs erst kürzlich auf der SC12 vorgestellten S1000. Hierbei handelt es sich um eine Dual-GPU Karte, welche auf den TahitiPro, welcher auch in der HD7950 verbaut wird, setzt. Um so überraschender, da man die Karte zwar schon auf dem letzten FDS von AMD gesehen hatte, aber nicht daran geblaubt hatte, das diese Karte eine FirePro Karte wird. Hier hat AMD praktisch aus dem Nichts heraus angegriffen, und nVidia zumindest in diesem System in ihrer "Paradedisziplin" überflügelt.

Auf Platz 3 folgt dann mit 2,143 GFLop/s pro Watt, und somit 14 bzw 9 Prozent Rückstand auf die beiden Topsysteme der Titan Supercomputer.

Dieser Rückstand überrascht aufgrund der extremen Betonung der Energieffizienz von Systemen mit nVidia GPUs im Vergleich zu reinen CPU-Systemen doch sehr. Insbesondere da man eben derart große Steigerungen bei der Perf/W versprochen hatte. Hier scheint sich nun anscheinend die Verschiebung um ein Jahr, als auch die scheinbar geringere Perf/W-Steigerung nVidia zum Verhängnis zu werden. Muss man doch festhalten, dass sich das Titan-System auf der vorhergehenden Green500 noch auf Platz 1 wiedergefunden hätte! Besonders bitter wird dies, da nVidia selbst mit der K20x, welche Scheinbar vorzugsweise in Supercomputern zum Einsatz kommt, nur 14 der 15 SMX aktiv hat, was eben rund 7% weniger Einheiten bedeutet.

Doch was sind die Ursachen hierfür?

Über diese wurde schon seit längerem spekuliert. Sind es zu viele Deals, die man in zu kurzer Zeit bedienen musste? Ist man im Vergleich zu Konkurrenz stark genug mit dieser Karte? Hat man Probleme mit der Produktion? usw usw

Am Ende wird es wohl eine Mischung aus allem sein, wobei ich für meinen Teil der Produktionsproblematik bei einem derartig großen Chip durchaus ein größeres/großes Gewicht beimessen würde.

Bis zu diesem Punkt müsste man davon ausgehen, das Intel mit ihrem XeonPhi einen wirklichen Bilderbuchstart hingelegt hat, AMD überrascht und nVidia mehr oder weniger enttäuscht. Dies wäre aber durchaus zu kurzsichtig, denn wir vergleichen hier Systeme mit knapp 45kW Gesamtleistung mit solchen, die rund 8.209kW an Verbrauch haben. Das sind also mehr als zwei Größenordnungen Unterschied!!!

Hier wäre es also sträflich, derart komplexe Systeme wie Supercomputer einfach aufgrund von drei Werten miteinander zu vergleichen. Denn ein derartiges System skaliert im Allgemeinen nicht linear mit seiner Größe. In der Regel wird eine Skalierung von kleiner 1 erfolgen, also weniger als linear. Das Problem der Skalierung durch Parallelisierung, welches Amdahl und Gustafson versucht haben zu beschreiben mal ganz außen vor gelassen.

Bleiben doch noch einige Punkte, die auch für den Laien leicht verständlich sind. Fangen wir an, aus was so ein Supercomputer besteht. Auf der einen Seite ein "ganz normaler" PC, wie man ihn auch zu Hause stehen hat. Das macht aber noch keinen Supercomputer aus, denn dies wären einfach nur sehr viele einzelne PCs. Erst durch das Netzwerk, auch NetworkInterfaceCard genannt, wird ein Sueprcomputer (Cluster) zu einem Supercomputer. Hier verwendet man auch kein GBit Lan mehr wie im Heimgebrauch, sondern zumeist Glasfasernetze mit 40GBit+ die Sekunde. Bekannte Unternehmen sind hier Infiniband mit Firmen wie Mellanox, aber auch propritäre NICs, wie das Gemini (HT) bzw Aries (PCI-E) von Cray, oder das TOFU Netzwerk von Fujits zeigen, wie wichtig das Netzwerk für einen Supercomputer ist. Bestes Beispiel hierfür sind auch die IBM BlueGene Systeme, welche gleich über eine ganze Reihe von Netzwerken für unterschiedliche Aufgaben verfügen. Insbesondere die Skalierung von solchen Netzwerken stellt einen wichtigen Faktor für das Design eine Supercomputers da, aber auch einen entscheidenden Verbrauchsfaktor, denn die meisten dieser Netzwerke sind sogenannten geswitchte Netzwerke, welche, wie man es von zu Hause kennt, noch separate Switches haben, die die einzelnen Rechner miteinander verbinden. Da hier sehr große Bandbreiten zur Verfügung stellt werden und das meist bei einer 1:1 Verbindung innerhalb des Switches, spielt dieser Part einen entscheidenden Kosten aber auch Verbrauchfaktor dar. Ein 648-Port Switch von Mellanox steht z.B. bei rund 1kW. Je nachdem wie "kurz" man die Verbindungswege innerhalb des Clusters halten will, braucht man teilweise sehr viele derartiger Switches.

Auf der anderen Seite gibt es aber auch nicht geswitchte Netwerke, wie das Extoll Netzwerk aus Deutschland, welches komplett auf externe Switches verzichten kann.

Wie man sieht ist Skalierung ein entscheidender Faktor, den wir uns auch gleich noch näher anschauen. Ein weiterer sehr wichtiger Faktor ist auch die Kühlung, denn im Gegensatz zum PC daheim, muss ein Supercomputer aktiv gekühlt werden. In der Vergangenheit wurde hierfür meist eine Luftkühlung in Verbindung mit einer Klimaanlage benutzt. Dies hat natürlich zur Folge, das man sehr viel Energie dafür benötigt, um die Luft erstmal zu kühlen, um Sie dann in den Servern wieder zu erwärmen. Meist wird bei einer solchen Kühlung rund 50% des gesamten Stromverbrauchs nur für die Kühlung aufgewendet. Da der Stromverbrauch eines solchen Rechners immer entscheidender wird, beginnen inzwischen auch Flüssigkeitskühlungen sich immer mehr durch zu setzen. Hier sind der Energiebedarf der Kühlung oft auf einen Bereich von 30% und weniger. Dies macht natürlich den direkten Vergleich von Systemen noch schwerer. Dennoch wollen wir es nun versuchen, auch wenn wir die Kühlung erst einmal außen vor lassen. Die Daten sprechen für sich.

Green500Scaling.png
Bitte beachten Sie die ogarithmische Skalierung der x-Achse

Wie man sieht, sieht man ein sehr unterschiedliches Verhalten der unterschiedlichen Systeme. Die bis zu dieser Green500 führenden BlueGene/Q skalieren praktisch perfekt von sehr kleinen Systemen im Bereich von 40kW bis hin zu sehr großen Systemen von ~8000kW.
Ähnlich sieht es bei den beiden Systemen mit K20x aus. Im Bereich von 130 bis 8200kW scheint eine sehr gute Skalierung möglich zu sein, wobei hier eindeutig festgehalten werden sollte, das es sich hier eben nur um zwei Werte handelt, die allerdings an den beiden Extrempunkten der Skala liegen. Es ist also davon auszugehen, das theoretisch zumindest gleichwertige Systeme im Bereich dazwischen möglich sind.

Ein völlig anderes Bild ergibt sich, wenn man sich die Systeme mit M2090 anschaut. Hier sieht man doch sehr große Schwankungen, und einen deutlich Abfall hin zu großen Systemen. Hier sollte man allerdings nicht zu vorschnell urteilen, denn zum einen zeigen die beiden Zacken in der Mitte, das man durchaus gute Skalierungswerte erreichen kann. Hier wird vermutlich der Grund in einer sehr unterschiedlichen Bestückung mit M2090 Karten bei den Clustern zu suchen sein.
Daher sollte man sich für die Abschätzung der Skalierung vorallem den ersten Wert und die beiden großen Zacken (um 400kW) in der Mitte anschauen. Wie man sieht, kann man mit K20x deutlich zulegen.

Kommen wir nun zu XeonPhi. Auf den ersten Blick erkennt man eine recht eindeutige Skalierung mit einigen Unstimmigkeiten in der Mitte. Hier sind allerdings wieder die mangelnde Anzahl an Messpunkten die Ursache hierfür. Doch gerade der Bereich in der Mitte zeicht wieder, das man hier wohl sehr inhomogene Systeme miteinander vergleicht. Man sollte daher wiederum nur die drei höchsten Werte für eine Skalierungsabschätzung in Betracht ziehen.
Tut man dies, erkennt man, das XeonPhi-Systeme wohl etwas schelchter skalieren als die der Konkurrenz. Genaues kann man hier allerdings noch nicht sagen, da der kleinste Cluster eben sehr gut performt. Durch Optimierungen am Clusterdesign könnte sich also durchaus auch noch XeonPhi oberhalb von K20x einsortieren.

Betrachten wir nun abschließend noch die beiden AMD Systeme. Einmal eines mit HD7970 Consumerkarten, und eines mit FirePro-Karten. Wie man sieht, performen die FirePro Karten scheinbar sehr gut im Vergleich zu den HD7970. Für genauere Aussagen müsste man allerdings die beiden Cluster sehr genau vergleichen. Auf jeden Fall wird klar, das AMD hier scheinbar ein sehr heises Eisen im Feuer hat und zu nVidia offensichtlich in Sachen Perf/W aufgeschlossen hat.

Man kann also von einem Kopf-an-Kopf-Rennen der drei Hersteller ausgehen, was in Anbetracht der Dominanz von nVidia in den vergangenen Jahren doch SEHR verwunderlich ist. Bleibt ab zu warten, ob AMD, aber insbesondere nVidia in Anbetracht der agressiven Preisgestaltung von Intel lange ihre Preise so hoch halten können, oder ob wir einen Preiskampf im HPC-Bereich zu sehen bekommen.

Quelle:
Top500.org
Green500.org
 
Zuletzt bearbeitet:
AW: Wer hat den grünsten HPC-Daumen?

Danke.

Naja, darüber rede ich halt seit ca 2010. :D

Hab nicht ohne Grund auf meine eigene News von damals verlinkt ;)

Mir wird ja immer unterstellt zu pesimistisch zu sein. Da kann sich jetzt jeder selbst sein Bild zu machen :P
 
AW: Wer hat den grünsten HPC-Daumen?

Btw. Ein Grund für meinen Optimismus bzgl den FirePro ist halt, das man nicht genau weiß, wie genau das FirePro System lief. Ich mach gleich mal noch einen Plot dazu...

Naja, und dann gibts eben diese Meldung hier noch :D:devil: 8 AMD FirePro S10000s (16 GPUs) achieve 8 TFLOPS real world double precision compute performance | FireUser Blog

Wenn man da nen Cluster-GPU-Server draus bauen würde, wäre das schon nicht schlecht. Sprich 4-5 GPUs 2 SB-E Xeons und eben einen NIC.

Das tolle an der Kiste ist halt, dass Sie SKALIERT! das ist schon der Hammer.
 
AW: Wer hat den grünsten HPC-Daumen?

Alter Schwede, du hattest mal wieder zu viel Zeit, wa? :D
Respekt vor dem Haufen Arbeit, und echt interessante Daten :daumen:
 
AW: Wer hat den grünsten HPC-Daumen?

Toll jetzt ist mein Browser abgeschmiert :motz: halbe Stunde arbeit fürn ARSCH...

Dann halt jetzt als Kurzfassung:

Ich hab mal noch nen zweiten Plot gemacht, der recht interessant ist:

Green500Efficiency.png
<--- DAS IST FALSCH
Green500Efficiency.png
<--- DAS IST RICHTIG!

Passt alles soweit bei IBM, Kepler lässt sich besser auslasten als M2090, oder zumindest gleichmäßiger.

Bei XeonPhi fällt auf, dass die Effizienz eigentlich gleich bleibt. Das lässt eigentlich nur zwei Schlüse zu
1. Stampede hat deutlich weniger Beschleunigerkarte je CPU als die kleinen Systeme
2. Das Design skaliert nicht

Was SEHR verwunderlich ist, sind die Daten von AMD. Weniger die der HD7970, welche im Bereich der Erwartung liegt, wenn auch eher am unteren Rand. Eigentlich sollte DGEMM GCN recht gut liegen. Daher sollte man eigentlich eher eine Effizienz im Bereich von K20x annehmen. Absolut verwunderlich ist aber der Absturz der FirePro! Vor allem dass Sie dennoch! auf Platz 2 bei der Effizienz gelandet sind! Das ist schon sehr beeindruckend.

Allerdings muss man sich auch fragen, warum man so weit unten ist bei der Effizienz. Dafür gibt es eigentlich nur wenige Möglichkeiten
1. Zahlendreher in den Daten :ugly::schief:
2. Treiberprobleme (durchaus realistisch)
3. Flaschenhals im Cluster-Design.. Wäre natürlich ziemlich doof (eher unwahrscheinlich, aber möglich)
(4. Viel zu wenig Zeit, um vernünftige Messungen zu machen...) (durchaus realistisch)

Wenn die Daten aber wirklich stimmen sollten, dann darf man durchaus die Hoffnung haben, dass die Perf/W sogar nocht deutlich gesteigert werden kann! Um genaueres zu sagen, sollte man sich allerdings wohl mal mit dem Betreiber in Kontakt setzen. (PCGH?;) :D)
 
Zuletzt bearbeitet:
AW: Wer hat den grünsten HPC-Daumen?

Skysnake, Du mußt mir mal was erklären.
Während meines Ingenieursstudium hat uns ein Prof eingetrichtert, das man Diagramme immer hinterfragen muß. Er sagte zwar nicht "Traue keiner Statistik" (was im übrigen nicht Churchill gesagt hat), aber er wies uns an verschiedenen Stellen darauf hin, ganz genau hin zu gucken: Wie ist die Achse skaliert, wie beschriftet, sind die zu grunde liegenden Daten absolut oder relatic zueinander etc.
Er war der Meinung, weil Diagramme so anschaulich und für jeden vermeintlich leicht verständlich sind, dass sie oft so dargestellt werden, dass sie das ausdrücken, was der Diagrammersteller ausdrücken will - und das muß nicht unbedingt der Wirklichkeit entsprechen.
Bitte nicht falsch verstehen, das möchte ich Dir nicht vorwerfen.
Aber mir fehlt eine Legende, mehr als nur eine Beschriftung von x- und y-Achse und der verschiedenfarbigen Kennlinien.
Und darum hab ich mit dem zweiten Diagramm meine Probleme.

Mir fällt da folgendes auf:
Im Diagramm im Startbeitrag liegen die Meßpunkte für die AMD-Karten auf der X-Achse zwischen 40 und 400 kW.
Im zweiten Diagramm rutschen sie mit einem mal in den Bereich zwischen 400 und 4000 kW.
Andere Meßreihe?
Gleiches gilt für NVidia K20x und IBM PowerXCell 8i, ihre x-Werte verschieben sich.

Ich muß zugeben, das obere, erste Diagramm versteh ich.
Beim zweiten hatte ich erst den Eindruck, Du hättest nur aus Absolutwerten auf der y-Achse Relativwerte gemacht.
Aber dann mußte ich mir eingestehen, das ich das zweite Diagramm nicht verstehe:
Was ist denn genau R bzw R_max und R_peak?
Da ich nicht weiß, was für Daten Du da genommen hast, klingt das für mich etwas komisch: max ist ein Maximalwert, peak ist doch aber auch ein Maximalwert.
Ich hätte da jetzt eher sowas wie R_effektiv zu R_max erwartet oder R_durchschnitt zu R_max, wobei ich immer noch nicht weiß, was R überhaupt ist.
Darum frage ich Dich jetzt:
Wieso liegt der Verbauch einiger Karten jetzt höher und was stellt die y-Achse im zweiten Diagramm dar?
 
Zuletzt bearbeitet:
AW: Wer hat den grünsten HPC-Daumen?

Die News ist mal wieder typisch Skysnake => Nvidiabashing hoch Zehn. :daumen2:

Die ersten beiden der Green500 kommen hauptsächlich mit sparsamen Intel Sandybridge CPUs daher,
wo die K20 von Nvidia mit stromhungrigen Bulldozern im Schlepptau natürlich in der Gesamteffizienz verlieren müssen.
 
Also der preis für die längste usernews ist dir jedenfalls sicher ;)
Hab mir zwecks handy nicht alles durchgelesen aber was ist jetzt die Kern aussage dieses posts!? :ugly:
 
AW: Wer hat den grünsten HPC-Daumen?

Wird bei diesen Supercomputern denn ein Teil der entstandenen Wärmeenergie in elektrische Energie umgewandelt, die wiederum die Kühlung befeuern könnte?
 
AW: Wer hat den grünsten HPC-Daumen?

Wird bei diesen Supercomputern denn ein Teil der entstandenen Wärmeenergie in elektrische Energie umgewandelt, die wiederum die Kühlung befeuern könnte?
Nein, ich glaube nicht. Aus thermodynamischer Sicht dürfte da auch nicht viel bei rumkommen. Zumindest so wenig, das es den Aufwand nicht lohnt.
Wenn, dann wird die Abwärme meist zum Heizen der Büros und andere naheliegender Gebäude genutzt.
 
AW: Wer hat den grünsten HPC-Daumen?

Sodele sorry, in das zweite Diagramm, welches nicht in der News steht, hat sich nen Fehler eingeschlichen. Bin in der Zeile verruscht, und habe statt für TotalPower MFlops als X-Achsenwert benutzt.

Man verzeihe mit den Fehler. Ist mir auf die Schnelle leider nicht aufgefallen. Meine bessere Hälfte wollte meine Aufmerksamkeit, da ist mir das leider durchgegangen.

Hier also nochmal der richtige Plot:

Green500Efficiency.png
 
AW: Wer hat den grünsten HPC-Daumen?

Ja, okay, das sieht schon besser aus ;)
Dennoch wüßte ich gerne, was ich da an der y-Achse sehe.
Was für eine Effizienz ist das? Was ist dieses "R"? Und was sind R_max und R_peak für Kennzahlen?
 
AW: Wer hat den grünsten HPC-Daumen?

Bitte nicht falsch verstehen, das möchte ich Dir nicht vorwerfen.
Aber mir fehlt eine Legende, mehr als nur eine Beschriftung von x- und y-Achse und der verschiedenfarbigen Kennlinien.
Und darum hab ich mit dem zweiten Diagramm meine Probleme.
Das ist doch da :ka:, also in beiden Diagrammen.

Mir fällt da folgendes auf:
Im Diagramm im Startbeitrag liegen die Meßpunkte für die AMD-Karten auf der X-Achse zwischen 40 und 400 kW.
Im zweiten Diagramm rutschen sie mit einem mal in den Bereich zwischen 400 und 4000 kW.
Andere Meßreihe?
Gleiches gilt für NVidia K20x und IBM PowerXCell 8i, ihre x-Werte verschieben sich.

Ich muß zugeben, das obere, erste Diagramm versteh ich.
Beim zweiten hatte ich erst den Eindruck, Du hättest nur aus Absolutwerten auf der y-Achse Relativwerte gemacht.
Aber dann mußte ich mir eingestehen, das ich das zweite Diagramm nicht verstehe:
Was ist denn genau R bzw R_max und R_peak?
Da ich nicht weiß, was für Daten Du da genommen hast, klingt das für mich etwas komisch: max ist ein Maximalwert, peak ist doch aber auch ein Maximalwert.
Ich hätte da jetzt eher sowas wie R_effektiv zu R_max erwartet oder R_durchschnitt zu R_max, wobei ich immer noch nicht weiß, was R überhaupt ist.
Darum frage ich Dich jetzt:
Wieso liegt der Verbauch einiger Karten jetzt höher und was stellt die y-Achse im zweiten Diagramm dar?
Das ist kein Problem. Beim zweiten hat sich, wie gesagt ein Fehler eingeschlichen. Bin in der Zeile in der Tabelle verrutscht, was mir leider nicht gleich aufgefallen ist. Wie gesagt, da war ein "Ticket" offen, das sofortige Bearbeitung verlangte :lol:

R_Max und R_Peak sind genau das was ich gesagt habe. Zumindest soweit ich das verstanden habe. Eben der Maximalwert, den man erreicht hat, und R_Peak der theoretische (kurzfristig ?) erreichbare Wert. Hab auf der Green500 Liste das auch gesucht, aber leider gabs dazu keine Erklärung. Die Bedeutung der Zahl ist aber im Prinzip äquvalent, weshalb ich darauf jetzt nicht rumgeritten bin. In beiden Fällen besteht noch Optimierungspotenzial.

EDIT: Ok, ich hab jetzt doch nochmal die Green500 Seite durchforstet, und hab jetzt auch das gesuchte PDF gefunden:

R_Peak: The theoretical peak performance (measured in FLOPS) for a supercomputer
Wie gesagt, ist aber im Prinzip egal, da die Aussage prinzipiell äquivalent sind. Hatte vorher einfach nicht die Zeit, das normal raus zu suchen in Ruhe.

Der Wert für die FirePro ist auf jeden Fall viel zu niedrig. Da hatte schon die HD5k serie bessere Werte. Hab vor kurzem mit Gispel genau darüber ne Diskussion im 3DCenter gehabt. Zudem sieht man ja auch bei der HD7970 das da auf jeden Fall noch deutlich mehr drin ist! Damit steigt zwar sicherlich auch der Verbrauch, aber die Effizienz sollte dennoch steigen. So Sachen wie RAM, CPU usw verbrauchen ja etwa gleich viel.

Laut Gipsel sollte die HD7970 (Tahiti GCN) eigentlich sogar Werte von ~90% für DGEMM erreichen, also ein Wert ähnlich dem von nVidia mit der K20x. Davon ist man aber, wie man sieht WEIT entfernt.

Und genau um den Punkt gings mir auch, weil er einfach so was von extrem auffällig ist, das es schon in den Augen wehtut, das zu sehen. Da kann einfach irgendwas nicht stimmen. Mögliche Ursachen habe ich ja genannt.

In den Hauptartikel wollte ich das aber nicht rein packen. Es war aber mit ein Grund den Artikel zu schreiben. Es ist einfach ZU auffallend. Vor allem weil das System halt trotzdem verdammt! gut dasteht was die Effizienz, also Flop/s pro Watt angeht.

EDIT2:

Ok, also
R_max: tatsächlich erreichter Wert in einem kompletten Linpack-Run
R_peack: theoretisch möglicher Wert für den Supercomputer an und für sich.

Und die f(x)-Achse zeigt dann halt R_max/R_peak
J
Jetzt klar?
 
AW: Wer hat den grünsten HPC-Daumen?

Also der preis für die längste usernews ist dir jedenfalls sicher ;)
Hab mir zwecks handy nicht alles durchgelesen aber was ist jetzt die Kern aussage dieses posts!? :ugly:
Das nVidia in den letzten Jahren große und ergeizige Pläne hatte, welche leider weder zeitlich noch von der Höhe her eingehalten wurden, wobei das mit der Höhe noch mit gutem Willen im Spielraum liegt. Es kommt halt nur zu spät.

Um genau zu sein, hätte ja einfach schon nen halbes Jahr gereicht, um gut da zu stehen. So hat man jetzt die direkte Konkurrenz von AMD UND Intel, welche sogar noch, zumindest auf der Green500 gegen nVidia gewonnen haben, was schon ein herber Schlag für die ist. Ich war z.B. sehr überrascht, Intel mit seinem XeonPhi auf Platz 1 zu sehen :ugly: Ich hätte die Systeme mit dem Ding nicht mal unter den Top30 erwartet um ehrlich zu sein. Sprich hinter allen BlueGene/Q und allen neuen GPU-Systemen.

Bitter ist es halt auch vor allem deswegen, weil nVidia massiv genau mit diesem Punkt die Werbetrommel gerührt haben, wo Sie sich nun geschlagen geben müssen. Wenn haben Sie überhaupt noch ne Chance bzgl theoretischer DP-Performance/W, aber das hatten Sie ja, soweit ich mich erinnere, ja immer verneint, und sich schon auf DGEMM, also praktisch Linpack bezogen. Ansonsten wäre auch der Unterschied noch kleiner zwischen M2090 und K20x als er eh schon ist.

Nimm als Essenz aus dem Text im Prinzip den letzten Satz mit: Wir haben ein "Kopf-an-Kopf-Rennern" zwischen AMD, Intel und nVidia bei den beschleunigten Systemen, und wenn man die normalen noch mit rein nimmt, dann kann man IBM mit BlueGene/Q sogar noch direkt mit dazu rechnen. Die sind alle auf Augenhöhe, und das obwohl nVidia eben schon seit Jahren mit der besseren Perf/W ihrer Produkte versucht zu werben.

Vor allem die leichtere Programmierbarkeit/Protierung von Software auf XeonPhi dürfte nVidia ziemlich Kopfzerbrechen machen (AMD btw genau so). Gibt dazu einen eigentlich guten Artikel auf SA. Zwar nicht in allen Punkten korrekt, aber der Grundtonus ist schon sehr gut getroffen.

Der "günstige" Preis von XeonPhi dürfte insbesondere nVidia SCHWER ärgern. Ich bezweifle stark, dass die ihre Preis so halten können wie bisher. Die werden nur schwer mehr verlangen können als Intel für ihre Karte. Maximal paar Hunderter mehr, aber das wars auch. AMD hat das gleiche Problem, nur das ihr Chip kleiner (und dami leicher zu fertigten) ist und eben bisher auch praktisch keine Rolle gespielt haben. Sie werden zwar auch weniger bekommen als erwartet, aber das ist halt trotzdem noch viel mehr als bisher. nVidia war halt sehr weit oben/vorne, und von da fällt man halt besonders hart.

Wird bei diesen Supercomputern denn ein Teil der entstandenen Wärmeenergie in elektrische Energie umgewandelt, die wiederum die Kühlung befeuern könnte?
Ne überhaupt nicht. Wenn man GLÜCK hat, wird die Abluft/"Abwasser" noch zum heizen verwendet, aber in den meisten Serverfarmen geht das schlicht in die Klimaanlage und das wars, also 0 Nutzen. In dem Bereich setzt aber im Moment ein massiver Umdenken ein, das man sich das einfach aus Kostensicht (und ökologisch) nicht mehr erlauben kann!

EDIT:
Gipsel ausm 3DCenter hat grad noch die Pressemitteilung zum SANAM (dem FirePro-Rechner) gefunden. Hier der Link http://fias.uni-frankfurt.de/press121114.html

Ist also wohl wirklich ein Übertragungsfehler an verschiedenen stellen. die GFlop/s/W stimmen aber. Ich schau mal, das ich die R_Peak nachrechne, ob da nen Fehler drin ist.

Der Cluster ist auf jeden Fall erstaunlich klein mit gerade mal 210 Nodes.

Btw. der Verantwortliche ist Prof. Lindenstruth aus Frankfurt, unter dessen Regie auch der LoeweCSC in Frankfurt entstanden ist, welcher noch auf Radeon Karten der 5k Serie von AMD setzt, und dabei eine erstaunliche Effizienz an den Tag legt. Dies wird unter anderem dadurch erreicht, das eine Wasserkühlung eingesetzt wird.

EDIT2:
Der obige Link hat mir jetzt auch geholfen R_Peak zu berechnen. Wenn ich mich nicht verrechnet habe (was durchaus sien kann) dann sollte R_Peak bei 635040 GFLop/s liegen. R_Max liegt bei 421200 GFLop/s.

Damit hätte man eine Effizienz von ~66%. Das liegt absolut in dem Bereich, den man erwarten kann! nVidia hat das auch ca. in seinem System erreicht. Man wäre damit sogar nochmal ein gutes Stück effizienter als das HD7970 System.

Damit kann man dann aber auch das Entwicklungspotenzial bei AMD streichen! Bleibt damit aber dennoch ein wirklich sehr sehr gutes Ergebnis. Das System von Prof. Lindenstruth ist aber auch ziemlich gut designed.

Damit zementiert sich das Bild eines echten "Kopf-an-Kopf-Rennen" zwischen allen drei Herstellern (mit IBM 4). Den Preisen im HPC-Markt dürfte das sehr zugute kommen. Vom Wettbewerb ganz zu schweigen. Wir dürfen also sicherlich gespannt sein, was sich da in den nächsten Jahren tut. Die positiven Entwicklungen werden wir im Konsumermarkt aber auf jeden Fall mitnehmen können.
 
Zuletzt bearbeitet:
Zurück