Skysnake
Lötkolbengott/-göttin
Wie auf vielen Seiten zu lesen ist, wie z.B. Computerbase zu lesen ist, hat Intel nach langer Zeit nun endlich ihren Larrabee, entschuldigung, ich meine natürlich Ferry Knights,.. ach :-.-: Knights Corner... wat auch nicht? MIC? wie jetzt.. ach nciht? ... Ach ja XeonPhi offiziell vorgestellt. (Eine lange Reise scheint ihrem Ende entgegen zu gehen).
Über die genauen Daten ist leider allgemein noch nichts bekannt, außer das XeonPhi in 22nm gefertigt wird, über mehr als 50 Cores verfügt und dabei noch 8GB GDDR5 Speicher besitzen soll.
Auf einigen Seiten, darunter Heise.de wird auch über das erste Top500 System mit XeonPhi berichtet. Nach Aussagen von Heise soll dieses System über 140 XeonPhis (Heise nennt Sie noch Knights Corner) verfügen. Hierbei beruft man sich auf die allseits bekannte TOP500 Liste, welche auf der heute startenden ISC12 in Hamburg traditionell vorgestellt wurde.
Nach der Top500 Liste belegt das erste XeonPhi System Platz 150, also eher ein Mittelfeldplatz. Viele Informationen gibt die Top500 Liste hierbei nicht her, was für einige Spekulationen, wie die 140XeonPhis von Heise sorgt.
Demnach hat der Rechner nun 9800 Cores, nachdem der Vorgänger in der letzten Liste noch 5715 Cores aufwies, dabei aber auch auf Intel Xeons der E5 Reihe mit 8Cores und 2.6GHz, sowie FDR Infiniband setzte.
Hat das Endeavor System ohne XeonPhi noch 176,4 kW Verbraucht, sind es nun mit dem XeonPhi System, welches auf den Namen Discovery hört nur noch 100 kW. Wie jedem sofort klar sein sollte, kann dies nicht nur durch das Hinzustecken von XeonPhi erreicht worden sein. Nein, hier wurden ganz klar weniger Xeons verbaut als noch in Endeavor.
Schätzen wir zunächst die maximale Anzahl an CPU-Cores ab. 5712/176kW *100kW=~3245
Teilt man dies durch 16 Cores/Node, also 2 CPUs je node, erhält man maximal 203 nodes. Realistisch betrachtet eher 100-150 nodes.
Bleiben also von den 9800 Coes noch 8200-7400 Cores übrig, welche XeonPhi bereitstellen muss.
Gehen wir von den 140 Karten von Heise aus, würde dies bedeuten, das jede XeonPhi Karte zwischen 82 und 49 Kerne aufweisen würde.
Betrachten wir dies näher:
Angenommen eine XeonPhi Karte hätte 54 Cores und jeweils eine Karte wäre pro Node verbaut, kommen wir auf genau 140 nodes, was als realistisch zu betrachten ist, da auch weniger Switches usw. für die geringere Anzahl an Nodes benötigt wird.
Betrachten wir nun die Rechenleistung von XeonPhi auf dieser Grundlage:
Wir haben 140*16=2240 Xeon E5 Cores, welche nach Endeavor eine Rechenleistung von ca 118,8TFlops/5712Cores*2240Cores=~46,6 TFlops erwarten lassen.
Da Discovery eine Leistung von 180,99TFlops erreicht, müssen die XeonPhis noch 180,99TFlops-46,6TFlops=~134,4TFlops bereitstellen.
Bei den angenommenen 140 Karten entspräche dies einer Rechenleistung von "nur" 960 GFlop/s, was unterhalb der von Intel immer genannten >1TFlop/s in DGEMM bedeuten würde.
Dies passt auch ganz gut zu einem Bericht von hpcwire.com
Quellen:
TOP500 List - June 2012 (101-200) | TOP500 Supercomputing Sites
TOP500 -
TOP500 -
+ siehe Fließtext
Update:
Bereits in der Orginalnews wurde ja schon das Problem bzgl. der >1TFlop/s DP-Rechenleistungsaussage angesprochen. Nun habe ich eine weitere Folie von Intel gefunden, welche sich genauer bzgl den >1TFlop/s auslässt.
Wie man auf dem Bild sieht, steht hier "Linpack (HPL) in a node". Intel bezieht bei diesen >1TFlop/s also scheinbar die Rechenleistung der Host-CPUs mit ein, um die 1TFlop/s Marke zu knacken. Dies ist definitiv nicht die normale Vorgehensweise, bei der eigentlich immer die Rechenleistung jeder einzelnen Komponente angegeben wird. Insbesondere bei der Vorstellung neuer Hardware.
Zum Vergleich nachfolgend noch die ansonsten oft zu sehende Folie, in der keine Aussage über die Art der Rechenleistung getätigt wird und daher auf Grundlage einer früheren Aussage von Intel bzgl. >1TFlop/s DP Rechenleistung in DGEMM teilweise auch für Linpack angenommen wurde, da Intel eben auf dieser Folie, welche ebenfalls zur ISC veröffentlicht wurde, nur von >1TFlop/s an Rechenleistung spricht. Hier wäre auf Grundlage der Veröffentlichung der neuen Top500 eine derartige Beziehung zu erwarten gewesen.
In wie weit nun Intel die theoretische Rechenleistung von XeonPhi auch in Anwendungen realisieren kann wird sich wohl noch zeigen müssen. Bisher ging man davon aus, das XeonPhi hier, im Gegensatz zu bisherigen GPUs, recht effizient in der Umsetzung der theoretischen Rechenleistung sein sollte.
Hier könnte insbesondere nVidia mit ihrem K20 (GK110) am Ende sogar noch einen höheren Effizientwert bzgl theoretischen/effektiver Rechenleistung erreichen, da hier von >90% auf der GTC die Rede war.
Hier übrigends auch noch das neue Logo für XeonPhi für alle, die es noch nicht gesehen haben:
Quelle:
Intel Introduces Xeon Phi: Larrabee Unleashed | PC Perspective
Intel stellt
+Fließtext
Update2:
Die Internetseite nextbigfuture.com berichtet über ein interview von pcwelt.com mit dem "president of the Intel Architecture Group and general manager of technical computing", Rajeeb Hazra sowie einem und Jim McGregor, dem "principal analyst" bei "Tirias Research". Dort gibt es folgenden Wortlaut zu lesen:
Dies wäre in Anbetracht dessen, das auf der einen Seite nur Intel über eine PCI-E 3.0 Plattform für Erweiterungskarten verfügt, dann aber auf der anderen Seite aber selbst, im Gegensatz zu AMD und nVidia, keine PCI-E 3.0 Erweiterungskarten anbietet, eine schon fast komödiantische Begebenheit. Insbesondere aus dem Grund, das im HPC-Bereich PCI-E 3.0 einen weitaus höheren Stellenwert auf der Wunschliste von potenziellen Kunden hat, als es dies im Gamer-Bereich der Fall ist. Denn im Gegensatz zu Spielen gibt es im HPC-Bereich durchaus eine ganze Reihe von Applikationen die apriori von einer gesteigerten Bandbreite durchaus teilweise massiv profitieren könnten.
Quellen:
[1] Intel stellt Beschleunigerkarte Xeon Phi vor; heise online | ISC12: Intel stellt HPC-Beschleuniger Xeon Phi vor
+Fließtext
Über die genauen Daten ist leider allgemein noch nichts bekannt, außer das XeonPhi in 22nm gefertigt wird, über mehr als 50 Cores verfügt und dabei noch 8GB GDDR5 Speicher besitzen soll.
Auf einigen Seiten, darunter Heise.de wird auch über das erste Top500 System mit XeonPhi berichtet. Nach Aussagen von Heise soll dieses System über 140 XeonPhis (Heise nennt Sie noch Knights Corner) verfügen. Hierbei beruft man sich auf die allseits bekannte TOP500 Liste, welche auf der heute startenden ISC12 in Hamburg traditionell vorgestellt wurde.
Nach der Top500 Liste belegt das erste XeonPhi System Platz 150, also eher ein Mittelfeldplatz. Viele Informationen gibt die Top500 Liste hierbei nicht her, was für einige Spekulationen, wie die 140XeonPhis von Heise sorgt.
Demnach hat der Rechner nun 9800 Cores, nachdem der Vorgänger in der letzten Liste noch 5715 Cores aufwies, dabei aber auch auf Intel Xeons der E5 Reihe mit 8Cores und 2.6GHz, sowie FDR Infiniband setzte.
Hat das Endeavor System ohne XeonPhi noch 176,4 kW Verbraucht, sind es nun mit dem XeonPhi System, welches auf den Namen Discovery hört nur noch 100 kW. Wie jedem sofort klar sein sollte, kann dies nicht nur durch das Hinzustecken von XeonPhi erreicht worden sein. Nein, hier wurden ganz klar weniger Xeons verbaut als noch in Endeavor.
Schätzen wir zunächst die maximale Anzahl an CPU-Cores ab. 5712/176kW *100kW=~3245
Teilt man dies durch 16 Cores/Node, also 2 CPUs je node, erhält man maximal 203 nodes. Realistisch betrachtet eher 100-150 nodes.
Bleiben also von den 9800 Coes noch 8200-7400 Cores übrig, welche XeonPhi bereitstellen muss.
Gehen wir von den 140 Karten von Heise aus, würde dies bedeuten, das jede XeonPhi Karte zwischen 82 und 49 Kerne aufweisen würde.
Betrachten wir dies näher:
Angenommen eine XeonPhi Karte hätte 54 Cores und jeweils eine Karte wäre pro Node verbaut, kommen wir auf genau 140 nodes, was als realistisch zu betrachten ist, da auch weniger Switches usw. für die geringere Anzahl an Nodes benötigt wird.
Betrachten wir nun die Rechenleistung von XeonPhi auf dieser Grundlage:
Wir haben 140*16=2240 Xeon E5 Cores, welche nach Endeavor eine Rechenleistung von ca 118,8TFlops/5712Cores*2240Cores=~46,6 TFlops erwarten lassen.
Da Discovery eine Leistung von 180,99TFlops erreicht, müssen die XeonPhis noch 180,99TFlops-46,6TFlops=~134,4TFlops bereitstellen.
Bei den angenommenen 140 Karten entspräche dies einer Rechenleistung von "nur" 960 GFlop/s, was unterhalb der von Intel immer genannten >1TFlop/s in DGEMM bedeuten würde.
Dies passt auch ganz gut zu einem Bericht von hpcwire.com
Quellen:
TOP500 List - June 2012 (101-200) | TOP500 Supercomputing Sites
TOP500 -
TOP500 -
+ siehe Fließtext
Update:
Bereits in der Orginalnews wurde ja schon das Problem bzgl. der >1TFlop/s DP-Rechenleistungsaussage angesprochen. Nun habe ich eine weitere Folie von Intel gefunden, welche sich genauer bzgl den >1TFlop/s auslässt.
Wie man auf dem Bild sieht, steht hier "Linpack (HPL) in a node". Intel bezieht bei diesen >1TFlop/s also scheinbar die Rechenleistung der Host-CPUs mit ein, um die 1TFlop/s Marke zu knacken. Dies ist definitiv nicht die normale Vorgehensweise, bei der eigentlich immer die Rechenleistung jeder einzelnen Komponente angegeben wird. Insbesondere bei der Vorstellung neuer Hardware.
Zum Vergleich nachfolgend noch die ansonsten oft zu sehende Folie, in der keine Aussage über die Art der Rechenleistung getätigt wird und daher auf Grundlage einer früheren Aussage von Intel bzgl. >1TFlop/s DP Rechenleistung in DGEMM teilweise auch für Linpack angenommen wurde, da Intel eben auf dieser Folie, welche ebenfalls zur ISC veröffentlicht wurde, nur von >1TFlop/s an Rechenleistung spricht. Hier wäre auf Grundlage der Veröffentlichung der neuen Top500 eine derartige Beziehung zu erwarten gewesen.
In wie weit nun Intel die theoretische Rechenleistung von XeonPhi auch in Anwendungen realisieren kann wird sich wohl noch zeigen müssen. Bisher ging man davon aus, das XeonPhi hier, im Gegensatz zu bisherigen GPUs, recht effizient in der Umsetzung der theoretischen Rechenleistung sein sollte.
Hier könnte insbesondere nVidia mit ihrem K20 (GK110) am Ende sogar noch einen höheren Effizientwert bzgl theoretischen/effektiver Rechenleistung erreichen, da hier von >90% auf der GTC die Rede war.
Hier übrigends auch noch das neue Logo für XeonPhi für alle, die es noch nicht gesehen haben:
Quelle:
Intel Introduces Xeon Phi: Larrabee Unleashed | PC Perspective
Intel stellt
+Fließtext
Update2:
Die Internetseite nextbigfuture.com berichtet über ein interview von pcwelt.com mit dem "president of the Intel Architecture Group and general manager of technical computing", Rajeeb Hazra sowie einem und Jim McGregor, dem "principal analyst" bei "Tirias Research". Dort gibt es folgenden Wortlaut zu lesen:
Leider ist nicht ersichtlich, ob die Aussage von Herrn Hazra oder Herrn McGregor stammt, oder überhaupt von einem der beiden. Auf jeden Fall ist es verwunderlich, das hier von PCI-E 2.0 gesprochen wird, da SB-E Xeons, welche ja in dem System aus den Top500 zusammen mit XeonPhi eingesetzt werden, über PCI-E 3.0 verfügen. Von verschiedenen Seiten [1], und auch von mir, wird daher davon ausgegangen, das XenonPhi nur über ein PCI-E 2.0 Interface verfügt.The chip (Anmekrung: XeonPhi) sits in a PCI-Express 2.0 slot and combines vector processing units with standard CPU cores.
Übersetzung:
Der Chip (XeonPhi) sitzt in einem PCI-Express 2.0 slot und kombiniert Vektor-Recheneinheiten mit standard CPU-Kernen.
Dies wäre in Anbetracht dessen, das auf der einen Seite nur Intel über eine PCI-E 3.0 Plattform für Erweiterungskarten verfügt, dann aber auf der anderen Seite aber selbst, im Gegensatz zu AMD und nVidia, keine PCI-E 3.0 Erweiterungskarten anbietet, eine schon fast komödiantische Begebenheit. Insbesondere aus dem Grund, das im HPC-Bereich PCI-E 3.0 einen weitaus höheren Stellenwert auf der Wunschliste von potenziellen Kunden hat, als es dies im Gamer-Bereich der Fall ist. Denn im Gegensatz zu Spielen gibt es im HPC-Bereich durchaus eine ganze Reihe von Applikationen die apriori von einer gesteigerten Bandbreite durchaus teilweise massiv profitieren könnten.
Quellen:
[1] Intel stellt Beschleunigerkarte Xeon Phi vor; heise online | ISC12: Intel stellt HPC-Beschleuniger Xeon Phi vor
+Fließtext
Zuletzt bearbeitet: