Supercomputer mit ATI Radeon Karten auf Platz 22 der Top500

Skysnake

Lötkolbengott/-göttin
Auf Platz 22 der TOP500 Liste der schnellsten Supercomputer im Linpack Benchmark, befindet sich nun mit 285,2 TFlops das LOEWE-CSC System. Das Konzept für den Superrechner erdachte Prof. Volker Lindenstruth, ehemals an der Universität Heidelberg tätig und nun am Lehrstuhl für Höchstleistungsrechnerarchitektur der Goethe Universität Frankfurt.

LOEWE-CSC befindet sich im Industriepark Höchst und kann durch einige Besonderheiten auf sich aufmerksam machen.

Hierzu zählt unter anderem das Kühlkonzept, welches auf Grundlage des Green-IT-Konzept der Goethe Universität entwickelt wurde und auf Wasserkühlung setzt sowie eine höhere Temperatur im Serverbereich vorsieht. Hierdurch wird eine Reduzierung des Energieaufwands zur Kühlung des Systems von normalerweise 40-100% der Nutzleistung auf weniger als 10% ermöglicht. Bei einer maximalen Leistungsaufnahme von knapp 500 Kilowatt kein zu unterschätzender Kostenfaktor.

Eine weitere Besonderheit des Systems, das es auch hierbei führend in der Welt macht, ist der Einsatz von ATI Radeon Karten als Beschleuniger. LOEWE-CSC ist damit der Weltweit schnellste Rechner, der auf GPUs von ATI (nun AMD) setzt. Erstaunlich dabei ist vorallem das in der TOP500 Liste steht, das es sich dabei um Radeon Karten handelt, also normale Consumer-Karten.

Aber auch die andere Hardware kann beeindrucken.

Die Firma Cluster Vision wird insgesamt 20.768 Prozessorkerne (AMD Opteron), 772 GPUs und 2 Petabyte Massenspeicher liefern. Die Rechenknoten mit bis zu 48 Prozessorkernen werden von der Firma SuperMicro gefertigt. (In der Top500 Liste "nur" ein Ausbau mit 15120 Cores berücksichtigt)

Für das besonders wichtige Hochleistungsnetzwerk, welches die Knoten miteinander verbindet, wird Mellanox QDR InfiniBand eingesetzt.

LOEWE-CSC konnte damit auch knapp den Superrechnet JUROPA-SUN, der im Forschungszentrum Juelich steht und sich nun mit 274,8 TFlops auf Platz 23 befindet, schlagen.

In Deutschland gibt es damit mit dem JUGENE - Blue Gene/p (Forschungszentrum Juelich; 831,7 TFlops) nur noch ein schnelleres System, welches wiederum in Europa nur noch vom Tera-100 (Frankreich) mit 1.050 TFlops geschlagen wird.

Als besonders interessanten Punkt ist auch noch anzuführen, das die beiden nVidia System auf Platz 1 und 3 nur zu 54,58% bzw. 42,59% ihre theoretische Maximalleistung erreichen. LOEWE-CSC erreicht hier stolze 60,72%, was für einen GPU Cluster somit ein guter Wert ist.

Hierbei sollten man insbesondere Bedenken, das AMD Karten ja nachgesagt wird, das diese mit ihren 5D Shadern sehr schwer auszulasten seien, weshalb man die theoretisch sehr guten Flop Werte real nicht erreichen kann, wohl doch dazu bewegt werden können doch eine sehr gute Performance zu erbringen. Hier trägt sicher Prof. Lindenstruth mit seiner Arbeitsgruppe ein großer Anteil.

Quellen:

 
Zuletzt bearbeitet:
Im Prinzip danke für die News, echt interessant. Aber lies sie dir vielleicht nochmal in Ruhe durch und prüfe den Satzbau ab und zu... hier fehlt mal ein Verb, da fehlt mal was... 4:00 Uhr Morgens ist nicht die beste Zeit zum News schreiben ;)
 
Als besonders interessanten Punkt ist auch noch anzuführen, das die beiden nVidia System auf Platz 1 und 3 nur zu 54,58% bzw. 42,59% ihre theoretische Maximalleistung erreichen. LOEWE-CSC erreicht hier stolze 60,72%, was für ein GPU Cluster ein guter Wert ist.

Bei den Systemen mit Nvidia GPUs sind auch nur 6kern CPUs verbaut.
Bei dem LOEWE-CSC dagegen 12kern CPUs.
Und je stärker der Anteil an CPU kernen, desto weniger entschwindet der Rpeak wert, vom Rmax.

Hätten die NV Systeme doppelt soviele CPU kerne, und damit das selbe Verhältniss wie beim LOEWE-CSC, dann wäre im Linpack Bench auch der Rmax größer im Verhältniss zum Rpeak.
 
oO sind wir jetzt hier in der Gramatik Stunde Herr Besserwisser ?:daumen2:
Also entschuldige mal, ich sag sicher nichts wenn mal ein Fehler gemacht wird, aber da ist in so gut wie jedem Satz etwas falsch. Ich denke, da darf man durchaus mal freundlich drauf hinweisen :daumen2:

Und ausserdem (Sorry, aber den kann ich mir in deinem Fall nicht verkneifen): Es heisst "Grammatik" und am Satzanfang schreibt man im Deutschen groß ;)
 
Zuletzt bearbeitet:
Bei den Systemen mit Nvidia GPUs sind auch nur 6kern CPUs verbaut.
Bei dem LOEWE-CSC dagegen 12kern CPUs.
Und je stärker der Anteil an CPU kernen, desto weniger entschwindet der Rpeak wert, vom Rmax.

Hätten die NV Systeme doppelt soviele CPU kerne, und damit das selbe Verhältniss wie beim LOEWE-CSC, dann wäre im Linpack Bench auch der Rmax größer im Verhältniss zum Rpeak.
Du hast dir vorher die Daten schon angeschaut bevor du das schreibst? :ugly:

Ich hab nochmal nachgeschaut bei #1, der hat ja knapp 7700 GPUs. Ich komm da auf 4 CPU-Cores pro GPU-Core. Bei LOEWE-CSC komm ich auf 1,6 CPU-Cores je GPU-Core.

Dein Argument von wegen mehr CPU Cores zählt damit nicht, da genau das Gegenteil sogar der Fall ist.
 
Bei den Systemen mit Nvidia GPUs sind auch nur 6kern CPUs verbaut.
Bei dem LOEWE-CSC dagegen 12kern CPUs.
Und je stärker der Anteil an CPU kernen, desto weniger entschwindet der Rpeak wert, vom Rmax.

Hätten die NV Systeme doppelt soviele CPU kerne, und damit das selbe Verhältniss wie beim LOEWE-CSC, dann wäre im Linpack Bench auch der Rmax größer im Verhältniss zum Rpeak.


:lol:kaum schreibt einer, das AMD was besser kann als NV, kommt HUGO und stellt das richtig:lol:.
Bleib doch mal ruhig. Es können eine menge Leute lesen. Es hat niemand gesagt das NV schei...e ist. Hast du die Links schon mal gelesen ?
Na also. Alles wieder gut. NV ist das beste von Welt :D OK
@ TOP: Na es geht doch. Warum hat das so lange gedauert, das ein AMD GPU Rechner es in die top 25 schaft ? Glückwunsch :daumen:
 
@SkySnake:
Danke dir :) Hatte es auch wirklich nicht böse gemeint... ich kenne das selber wenn man um die Uhrzeit noch irgendwas tippt, läuft auch bei mir wahrlich nicht immer glimpflich ab :lol:

Aber die News sind interessant... ich finde es beeindruckend und toll, dass GPUs da so stark genutzt werden - gerade auch im Hinblick auf die Effizienz und den Stromverbrauch. Wobei es bei ComputerBase gerade einen Artikel gibt in dem es um die neuen IBM-Prozessoren geht. Der Kampf finde ich wird richtig spannend.

IBMs 17-Kern-CPUs werden extrem effizient - 18.11.2010 - ComputerBase
 
Also entschuldige mal, ich sag sicher nichts, wenn mal ein Fehler gemacht wird, aber da ist in so gut wie jedem Satz etwas falsch. Ich denke, da darf man durchaus mal freundlich drauf hinweisen :daumen2:

Und außerdem (Sorry, aber den kann ich mir in deinem Fall nicht verkneifen): Es heißt "Grammatik" und am Satzanfang schreibt man im Deutschen groß ;)

Wenn du dir das Klugscheißen schon nicht verkneifen kannst, dann mach es wenigstens richtig ;) - und das ist auch nicht böse gemeint :)
 
Du hast dir vorher die Daten schon angeschaut bevor du das schreibst? :ugly:

Ich hab nochmal nachgeschaut bei #1, der hat ja knapp 7700 GPUs. Ich komm da auf 4 CPU-Cores pro GPU-Core. Bei LOEWE-CSC komm ich auf 1,6 CPU-Cores je GPU-Core.

Dein Argument von wegen mehr CPU Cores zählt damit nicht, da genau das Gegenteil sogar der Fall ist.

An deinem Ton darfst du arbeiten, genauso wie an deinem Rechenbeispiel.

Also nochmal, auf jedem Serverrack sind je zwei CPUs + eine GPU.
Auf den Supercomputern mit NV, sind 2*6 Core CPUs, auf dem Radeonsystem aber 2*12 Core CPUs.

Macht 12 CPU Cores / Rack bei den NV Systemen, und doppelt soviel bei dem System mit den Radeon HD 5870.

Schaut man sich dagegen die GPU Cores an (SM und SPU), dann reletiviert sich das Verhältniss CPU core zu GPU cores wieder, weil bei NV nur 14 SM aktiv sind, bei der Radeon dagegen 20.
Aber es bleibt dabei, auf dem Radeonsystem arbeiten immernoch mehr CPU kerne als GPU Kerne, was im Endeffekt dazu führt, dass Rpeak dichter an Rmax. dran ist im Linpack Benchmark.

Top500 #1
Der Tianhe-1A hat 14.336 6kern CPUs, ergo gleich 86016 CPU Kerne.
Die 7168 NV GPUs haben je 14 SMs, dass macht 100352 GPU Kerne.

Damit ist das Verhältniss 0,86:1.

Top500 #3
Nebulae hat 9280 6kern Intels und damit ergo 55680 CPU Kerne.
Die 4640 NV GPUs haben auch wieder 14SMs 64960 GPU Kerne.

Damit ist das Verhältniss 0,86:1

Top500 #22
LOEWE-CSC hat 1.536 12kern AMDs, ergo 18432 CPU Kerne.
Die 768 AMD GPUs haben je 20 SPU macht 15360 GPU Kerne.

Damit ist das Verhältniss 1,2:1.

Und ehe Fragen aufkommen woher ich meine Daten zum LOEWE-CSC habe, hier der Link.
StreetInsider.com - 285.2 TeraFLOPS Linpack at 736 MegaFLOPS/Watt and PUE of 1.1

Aus dem Artikel der FAZ wird man nicht schlau, weil er nicht schlüssig ist in seinen Angaben.
 
Zuletzt bearbeitet:
An deinem Ton darfst du arbeiten, genauso wie an deinem Rechenbeispiel.

Also nochmal, auf jedem Serverrack sind je zwei CPUs + eine GPU.
Auf den Supercomputern mit NV, sind 2*6 Core CPUs, auf dem Radeonsystem aber 2*12 Core CPUs.

Macht 12 CPU Cores / Rack bei den NV Systemen, und doppelt soviel bei dem System mit den Radeon HD 5870.

Schaut man sich dagegen die GPU Cores an (SM und SPU), dann reletiviert sich das Verhältniss CPU core zu GPU cores wieder, weil bei NV nur 14 SM aktiv sind, bei der Radeon dagegen 20.
Aber es bleibt dabei, auf dem Radeonsystem arbeiten immernoch mehr CPU kerne als GPU Kerne, was im Endeffekt dazu führt, dass Rpeak dichter an Rmax. dran ist im Linpack Benchmark.

Top500 #1
Der Tianhe-1A hat 14.336 6kern CPUs, ergo gleich 86016 CPU Kerne.
Die 7168 NV GPUs haben je 14 SMs, dass macht 100352 GPU Kerne.

Damit ist das Verhältniss 0,86:1.

Top500 #3
Nebulae hat 9280 6kern Intels und damit ergo 55680 CPU Kerne.
Die 4640 NV GPUs haben auch wieder 14SMs 64960 GPU Kerne.

Damit ist das Verhältniss 0,86:1

Top500 #22
LOEWE-CSC hat 1.536 12kern AMDs, ergo 18432 CPU Kerne.
Die 768 AMD GPUs haben je 20 SPU macht 15360 GPU Kerne.

Damit ist das Verhältniss 1,2:1.

Und ehe Fragen aufkommen woher ich meine Daten zum LOEWE-CSC habe, hier der Link.
StreetInsider.com - 285.2 TeraFLOPS Linpack at 736 MegaFLOPS/Watt and PUE of 1.1

Aus dem Artikel der FAZ wird man nicht schlau, weil er nicht schlüssig ist in seinen Angaben.

du weisst aber schon dass die intel und amd kerne nicht gleich schnell sind?

deshalb ist der vergleich sinnlos
 
Echt eine tolle News. AMD hat es nun auch mal geschafft *freu* :)
Und das sag ich als Intel-User. ;)
(Bulldozer wo bleibst du?) :P

Weiter so! :D
 
du weisst aber schon dass die intel und amd kerne nicht gleich schnell sind?

deshalb ist der vergleich sinnlos

Nö, ausser die 12 Kern AMDs sind deutlich langsamer (über 40%) als die 6 Kern Intels. Dann würde aber keiner damit Supercomputer bauen.
Mehr noch, da Intels CPUs auch noch SMT mit an Board haben, pushen sie den theoretischen Rpeak Wert sogar noch, was den Abstand zu Rmax. noch vergrößert.
 
Da ihr euch alle gerade so schön freut:
Tianhe-1 | TOP500 Supercomputing Sites

Tianhe-1 war in der Juni-Liste dieses Jahres bereits auf Platz 7 der Supercomputer. Und zwar ebenfalls mit Ati-Radeon-Karten (4870 X2, allerdings auf 500-550 MHz heruntergetaktet), aber ebenfalls einer Effizienz im oberen 40er-Bereich.

Dabei gilt allerdings zu beachten, dass der Aufwand für eine schnelle Vernetzung und damit einer hohen Effizienz umso schwieriger ist, desto höher die Anzahl der zu verschaltenden Einheiten. Das treibt die Kosten in die Höhe, sodass es irgendwann zu einem finanziellen Problem wird.

Effizienzkönig war mit über 93% Rmax von Rpeak IIRC der Earth Simulator, bei dessen NEC Vektorprozessoren beinahe mehr Aufwand für die Kommunikation untereinander betrieben wurde als für die Prozessoren selbst.


Was ich am LOEWE nicht kapiere: Bei 285,2 TFLOPS und 500 kW Verbrauch müsste der doch eigentlich 570,4 MFLOPS/Watt haben, nicht die bei Streetinsider angegebenen 736? Tianhe-1A, der zurzeit schnellste Rechner der Welt liegt bei 635,1 MFLOPS/Watt.
 
Zurück