AW: Wer hat den grünsten HPC-Daumen?
Komisch. Aber danke. Jetzt sollte der Link funktionieren.
@Carsten:
Nein, das sind die real DGEMM Werte ausgehend auf den wohl besten DGEMM Implementierungen, die verfügbar sind, bzw dem was nVidia selbst dazu sagt.
Für Fermi erreicht man wie gesagt eine Effizienz von 60-65% und für K20(x), also GK110, soll man etwas um die 80% erreichen.Das passt ja auch ganz gut zu den Ergebnissen aus der zweiten Graphik, die ich später noch gemacht habe. Die Werte von Clustern sind immer etwas schlechter. Deswegen bezieht sich nVidia (wie JEDER Hersteller) da auch auf Single-Nodes usw usw, also den Optimalfall.
Man kann in erster Näherung das aber schon als Referenznehmen, da im großen und Ganzen die Skalierung Optimalfall->realer Cluster relativ ähnlich sein sollte. Den Fehler kann man also erstmal vernachlässigen für so eine prinzipielle Betrachtung.
Die Daten sind hiermit untermauert:
http://insidehpc.com/2012/05/18/new...t-gen-cuda-compute-architecture-kepler-gk110/
Das ist auch der Link aus dem Link. Für ich ist das so ziemlich das aktuellste (18.05.12) und offiziellste (Whitepaper)
Whitepaper schrieb:
Kepler GK110 will provide over 1 TFlop of double precision throughput with greater than 80% DGEMM
efficiency versus 60‐65% on the prior Fermi architecture.
Seh da jetzt nicht den Kritikpunkt.
Ok, Sie schreiben >80%, aber wenns >85,90% wäre, würden Sie das auch schreiben. Ergo liegt der Fehler sehr sehr sicher bei <10%. Das ist jetzt nicht mehr ganz vernachlässigbar, aber auch nichts, was ein völlig anderes Ergebnis ergibt.
Berücksichtigt habe ich derartige Unbekannten aber durchaus:
Durch den Konjunktiv sollte das eigentlich hinreichend klar geworden sein, wobei die Best-/Worstcase-Abschätzung ja durchaus zeigt, dass selbst im Bestcase man nicht gerade klar die Ziele erreicht. Die Diagramme sind halt nicht wirklich klar, und lassen einiges an Interpretationsspielraum. Daher habe ich prinzipiell versucht, die Sache eher pro nVidia zu interpretieren. Man muss ja dran denken, das es Marketing-Folien sind
Statt den 3,0 hätte man auch höhere Werte von bis zu etwa 3,3 nehmen können.
Und wenn man das Diagramm/Roadmap als absolute Werte anschaut, dann siehts halt nicht wirklich besser aus.
Denn dann müsste man die Oberkanten der Bildchen nehmen, da Fermi ja auf ~1,8 +/- 0,1 DP-GFlop/s/W kommt. Dann müsste Kepler aber so ca 5,7 +0,1 -0,2 DP-GFlop/s/W (jeweils in DGEMM, da man sich ja drauf bezieht) erreichen. Davon sind wir aber noch VIEL weiter weg, als wenn man das ganze so interpretiert, also als Relation und nicht als absolute Werte, wie ich.
Und jetzt sag noch jemand, ich würde nVidia bashing betreiben
JA ne is klar, deswegen interpretier ich die Werte ja auch mit gutem Willen, so dass Sie ihre Zielsetzung nur knapp verfehlen bis hin zu knapp erreichen. Wobei man für "knapp erreichen" schon sehr wohlwollend sein muss meiner Meinung nach.
EDIT:
Ach was mir gerade auffällt. Falls du mit deinem Link meintest, das Kepler 1220 GFlop/s schafft in DGEMM statt den von mir angenommenen 1100 GFlop/s, das macht keinen gewaltigen Unterschied.
Die Worst-/Best-Case-Abschätzun ist dann ~2,7 bis ~2,9 (statt ~2,3 bis 2,8) Wie man sieht, war meine Best-Case-Abschätzung recht nah dran. Über die Worst-Case-Abschätzung kann man sich streiten, da ist der Unterschied schon relativ groß, aber es ist halt auch eine WORST-Case-Abschätzung. Daher in meinen Augen noch vertretbar.
Aber schön, das wir jetzt eine bessere Abschätzung haben. An der grundlegenden Aussage ändert sich doch jetzt aber nichts, oder siehst du das anders?