News Supercomputer Titan mit 18.000 Kepler-GPUs

Ähm.. Ihr meint in der Überschrift wohl Q3 2012. Q3 2011 ist ja schon rum ;) Im Text habt ihr es dann auch richtig.

Die Testinstallation mit den aktuellen Tesla-Karten soll aber wohl eher 965 TFlop/s schaffen und nicht GFlop/s. Das schafft ja schon eine alleine, und die wollen da laut eurer Aussage 960 drin haben :schief:
 
Die wichtigste Frage aber: Kann man damit Quake 3 flüssig zocken!? :ugly:



(Sry, musste sein)




Naja, der nVidia-Aktie wirds gut tun, aber .... Q3 2012? Ich hoffe ja mal, damit ist das Fiskaljahr gemeint ...
 
665 GFlops? Wohl eher TFlops, was? :D Sonst überholt mein PC die Kiste bald... *naja, fast...* Aber 20 PFlops sind doch echt mal eine Hausmarke! Damit könnte man Folding@Home echt knacken lassen! :ugly:
 
Selbst meine 5850 schafft 2 TFlops.
Deswegen frage ich mich immer: Warum nVidia GPUs?
Von der Rohleistung her sind die Dinger einfach langsam, ne GTX580 schafft grade mal 1,5 TFlops.
Und die Kepler GPUs für das Teil müssen dann ja noch schlechter sein,
20000 TFlops / 18000=1,11 TFlops.
 
das kann nur nen rechtsschreibfehler sein
b2t
möcht mal wissen wie viel mw der frisst, der k-computer is japan frisst 4,2-4,6mw bei 10pflops, wenn die so weiter machen und immer mehr energie fressen wird das nicht ganz so schön, da ist unser gehirn effizienter, 10^13-10^16flops bei 20watt, der k-computer schafft 10^16flops
 
Selbst meine 5850 schafft 2 TFlops.
Deswegen frage ich mich immer: Warum nVidia GPUs?
Von der Rohleistung her sind die Dinger einfach langsam, ne GTX580 schafft grade mal 1,5 TFlops.
Und die Kepler GPUs für das Teil müssen dann ja noch schlechter sein,
20000 TFlops / 18000=1,11 TFlops.

theoretische SP Maximalleistung ist nicht das gleiche, wie DP Realleistung ;)
 
Selbst meine 5850 schafft 2 TFlops.
Deswegen frage ich mich immer: Warum nVidia GPUs?
Von der Rohleistung her sind die Dinger einfach langsam, ne GTX580 schafft grade mal 1,5 TFlops.
Und die Kepler GPUs für das Teil müssen dann ja noch schlechter sein,
20000 TFlops / 18000=1,11 TFlops.

amd hat höhere werte bei den flops-zahlen zu bieten. nur nützt der nicht allzuviel, wenn man solche werte in nur seltenen fällen erreicht und der damit eher theoretischer natur bleibt.
 
DIe Werte von Server und Consumerkarten sind eh schwer zu vergleichen, da der Anwendungsbereich der Serverkarten eher im Double Precision Bereich liegt und sie darauf auch optimiert sind.
Und solang du die FlOP/s deiner Karte nicht unter "Gefechtsbedingungen" im Linpack ermittelt hast, taugt die ergoogelte Zahl nicht wirklich zum Schwanzvergleich ;)
 
Im HPC-Bereich bezieht man die Fließkommarechenleistung normalerweise auf Datenformate mit 64 Bit Genauigkeit. So z.B. beim Linpack-Benchmark, den top500.org anwendet, um Supercomputer zu vergleichen.
Eine Radeon HD 5850 mag zwar über 2000 GFlops bei einfacher Genauigkeit (32 Bit) bieten, mit doppelter Genauigkeit (64 Bit) erreicht sie aber nur noch 418 GFlops. Und im Supercomputer-Einsatz bleiben bei einem Linpack-Benchmark dann vielleicht noch 250 GFlops übrig. Kepler wird offenbar über 1100 GFlops bei doppelter Präzision leisten, das erreicht heute keine GPU.
 
hust hust

ich müsste nochmal nachsehen, aber bei der top500 wird nur von Flops gesprochen, und da sp größere zahlen gibt als dp, werden sp Äquivalente Flops angegeben. Ergo 1 DPFlop=2 SPFlops.

zudem vergesst ihr bei eurer Rechnung die Rechenleistung der CPUs. Damit kommt eine GPU wohl auf nur noch 1TFlops oder weniger
 
Es gibt keine sp-äquivalenten dp-Flops. top500.org gibt die Fließkommaoperationen pro Sekunde an, die im Linpack-Benchmark bei Nutzung von 64-Bit-Datenformaten (dp) erreicht werden. Als Einzeloperation werden dabei Multiplikationen und Additionen gewertet. Ein FMA wird als zwei Operationen angerechnet, da es gleichzeitig eine Addition und eine Multiplikation realisiert.

Bei dem Punkt mit den unterstützenden CPUs, die zur Rechenleistung beitragen, könntest du natürlich recht haben, ich hab mich jetzt noch nicht zur Infrastruktur des Titan schlau gemacht.

/EDIT: Die Pressemitteilung des Oak Ridge National Laboratory gibt noch interessante Daten her. So setzt man CPU-seitig auf 16-Core-Varianten und das System soll insgesamt auf 299,008 cores kommen. Man muss dabei beachten, dass bei top500.org ein Fermi je nach Ausbaustufe mit 14 bis 16 Cores angerechnet wird, sprich die Streaming-Multiprozessoren und nicht die CUDA-Cores werden als Cores gezählt, nicht die CUDA-Cores.
Wenn ich jetzt rechne, dann sehe ich, dass 299.008 Cores auf 18.000 GPUs nicht mehr als 16 Streaming-Multiprozessoren pro Kepler-GPU bedeuten, wahrscheinlich sogar eher 15 SMs, damit auch die CPUs vernünftig ins Core-Budget passen. Eigentlich rechnet man ja bei Kepler mit einer Verdopplung gegenüber Fermi, also 32 Streaming-Multiprozessoren. Offenbar wird die gestiegene Rechenleistung aber auf anderem Weg erreicht, d.h. entweder mehr CUDA-Cores pro Streaming-Multiprozessor oder deutlich höhere Taktraten. Letzteres würde ich im HPC-Bereich ausschließen, da hohe Taktraten nur unnötig den Energieverbrauch und den Kühlungsaufwand erhöhen. Da investiert man lieber in breit angelegte, aber relativ niedrig taktende Chips.
 
Zuletzt bearbeitet:
Selbst meine 5850 schafft 2 TFlops.
Deswegen frage ich mich immer: Warum nVidia GPUs?

Höchstwarscheinlich weil nur NVidia GPUs bislang ECC protected VRAM benutzen können, AMD Profigrafikkarten können dies jedoch nicht. In in einem Server durchaus wichtig, sollen ja keine falschen Werte liefern, zumal ja auch ein paar davon verbaut werden
 
Ja, das ist ein sehr entscheidender Punkt. Es gibt zwar auch den LoeweCES, der auf ATI Karten setzt, also ohne ECC, aber das ist die absolute Ausnahme. Im Normalfall ist fehlender ECC-Support einfach ein KO-Kriterium.

@Spasstiger:
Ja so sollte es sein, aber 100% sicher sein kann man sich da nie. Es gibt SEHR viele Fälle, wo 1DP-Flop einfach als 2 SP-Flops gezählt werden. Ist halt Marketing. Eine Zahl die um den Faktor 2 größer ist, ist halt besser :ugly:. Da muss man schon sehr aufpassen. So lange nur von Flops die Rede ist, sollte man grundsätzlich erst mal von SP-Flops ausgehen. Nur wenn ausdrücklich DP-Flops dasteht, kann man sich auch sicher sein, das es DP-Flops sind. Wenn nicht, wird oft genug "beschissen", äh ich mein natürlich schön gerechnet. :schief:

Btw. ich hab mal nochmal schnell Linpack überflogen. Soweit ich das richtig gesehen habe, wird auch SP angeboten als verfügbare Genauigkeit, ergo sollten sich die Flops auf SP beziehen. DP ist aber natürlich auch implementiert, da die meisten Architekturen damit eben die gleiche Anzahl an Operationen/s schaffen wie mit SP. Ergo die SP-Äquivalent-FLop/s steigen halt :ugly:

Wenn du willst kann ich aber nochmals nachfragen. Ich sitze ja praktisch direkt an der Quelle ;)
 
Zurück