Intel Xeon Phi: Folien zu Knights Landing aufgetaucht - auch als Standalone-CPU mit 72 Silvermont-Kernen

PCGH-Redaktion

Kommentar-System
Teammitglied
Jetzt ist Ihre Meinung gefragt zu Intel Xeon Phi: Folien zu Knights Landing aufgetaucht - auch als Standalone-CPU mit 72 Silvermont-Kernen

Auf VR-Zone sind einige Folien mit den Spezifikationen zu Intels kommender Xeon-Phi-Ausbaustufe mit Codenamen Knights Landing geleakt, dessen Veröffentlichung als Co- sowie Standalone-Variante 2015 anstehen soll. Pro CPU werden 72 Kerne auf Silvermont-Basis sowie sechs DDR4-Channel mit bis zu 384 GiByte Kapazität vereint. Zusätzlich sind bis zu 16 GiByte MRAM verbaut, der mit 500 GB/s arbeitet. Als Double-Precision-Leistung werden pro Prozessor 3 TFLOPs angegeben.

[size=-2]Bitte beachten Sie: Der Kommentarbereich wird gemäß der Forenregeln moderiert. Allgemeine Fragen und Kritik zu Online-Artikeln von PC Games Hardware sind im Feedback-Unterforum zu veröffentlichen und NICHT im Kommentarthread zu einer News. Dort werden sie ohne Nachfragen entfernt. Sollten Sie Fehler in einer News finden, schicken Sie diese bitte an online@pcgameshardware.de mit einem aussagekräftigen Betreff.[/size]


lastpost-right.png
Zurück zum Artikel: Intel Xeon Phi: Folien zu Knights Landing aufgetaucht - auch als Standalone-CPU mit 72 Silvermont-Kernen
 
Das ist schon ziemlich beeindruckend, auch wenn es noch etwas dauert. Wie werden diese eigentlich im Zielmarkt angenommen?
 
Wow, das ist ja mal nen Hammer.
Den brauch ich für Zuhause (mir doch egal ob ich den auch sinnfrei nutzen kann :ugly:)
 
Wie passt die Verwendung von MRAM zu dieser Meldung von gestern, wonach dieser Speichertyp erst frühestens 2018 verfügbar sein soll ?

Micron, Renesas, Shin-Etsu: Flash-Nachfolger MRAM soll 2018 serienreif werden - Golem.de

Im Bericht ist ja schließlich von 2015 die Rede, oder ist hier ein Speichertyp gleichen Namens bzw. anderer Funktionsweise gemeint ?
Intel scheint hier sein eigenes Ding zu machen.

Außerdem sollen 2018 Arbeitsspeicher für den Endkundenmarkt in "Riegel-Form" erscheinen. Server-Plattformen werden häufig früher bedient, wobei ich nicht weiß, wie der Aufwandsunterschied zum hier integrierten MRAM ausfällt.
 
MCDRAM würde ich in diesem Zusammenhang einfach mal als "Multi-Channel DRAM" interpretieren. Im Hinblick auf die verwendete Speichertechnik also eher unbestimmt.
 
"Multi-Chip" könnte auch passen, denn für diese Packungsdichte wird Intel wohl stacken müssen.
Der im Artikel erwähnte MRAM ist es jedenfalls nicht - der hat nicht ohne Grund KEIN D im Namen, weil es eben statischer RAM ist, der keine Refreshes benötigt.
 
So ist es.

Die Story mit dem MRAM ist wohl etwas daneben gegangen, wobei sich das später wohl auch relativ einfach tauschen lassen sollte.

Das Konzept mit dem Near and Far Memory sollte einem aber recht bekannt vorkommen. ;) Ich sag nur HMC.

Der MCDRAM wird im Prinzip der Near-Mem des HMC wohl sein. Der Far ist dafür halt "klassischer" DDR4 Speicher.

Was euch aber noch hätte auffallen können ist, dass laut den Folien man wie es scheint den Ringbus (1D-Torus) gegen einen 2D-TorusGrid getauscht hat.
 
Zuletzt bearbeitet:
Und ich hab natürlich auch nen Bock geschossen :klatsch:

Das sieht wie nen 2D-Grid aus nicht wie nen 2D-Torus... Wobei der äußerste Bereich ein 1D-Torus sein könnte.

Man könnte allerdings auch sonst die Verbindungen "geschickt" zu nem 2D-Torus schließen, wovon ich auch ausgehe, aber man sieht es nicht auf der Folie.
 
Ich bin mir da gar nicht so sicher, ob man so eine frühe Folie in der Hinsicht für bare Münze nehmen sollte. Ich würde am ehesten auf eine globale Synchronisation via L3 tippen.
 
Das Design an sich muss fertig sein, wenn der Chip 2015 raus kommen soll. Was jetzt noch kommt ist Implementierung und halt Lösen von Problemen bei der Umsetzung.

An sich haut das Ding ziemlich genau in die gleiche Kerbe wie der Tilera was den Interconnect anbelangt.

Man handelt soch sogar genau die gleichen Probleme ein mit den geteilten Memory-Pools und den daraus resultierenden Problemen des "geschickten" Prozessmapping aus die Cores, damit man nicht durch das gesamte Netzwerk immer und immer wieder die Daten schleusen muss... Das bricht so einer Architektur schnell das Genick. Man braucht einfach wieder ne hohe Datenlokalität.

Unterm Strich aber wohl dennoch noch immer die beste Lösung, da man so die Wege halbwegs minimieren kann durchs Netzwerk und eben übers Mapping einiges noch retten Kann. Bei Speicher nur auf einer Seite wirds halt doof für die Cores die wieter weg vom Speicher sitzen.

Der interessanteste Punkt ist aber eigentlich der 100Gbit/s Interconnect mit Connector ON PACKAGE! Das seh ich echt Problematisch. Wenn Sie, wovon ich ausgehe, eben den Cray-Interconnect direct mit auf den Chip packen, inkl Connector, dann brauchste eigentlich kein anderes Netzwerk mehr... Eigentlich ist es klar, dass so was kommen musste, aber ich habe ehrlich gesagt nicht erwartet, das es so schnell kommt und vor allem von Intel :(

Die ganzen Hardwareausrüster wird das wohl Bauchschmerzen machen... Man hat halt praktisch nur noch ein Board von Intel, wo alles drauf ist und fertig. Intel nutzt da massiv ihre Größe aus.
 
Ich bin mir da gar nicht so sicher, ob man so eine frühe Folie in der Hinsicht für bare Münze nehmen sollte. Ich würde am ehesten auf eine globale Synchronisation via L3 tippen.

Der L3 bzw. dessen Elemente muss aber irgendwie angebunden werden. Und ein serieller Bus ist bei der Kernzahl sicherlich naheliegender (weil praktisch möglich), als eine extreme Crossbar, die jedem Kern einen direkten Zugriff auf alle Speicherbereiche erlaubt.


Das Design an sich muss fertig sein, wenn der Chip 2015 raus kommen soll. Was jetzt noch kommt ist Implementierung und halt Lösen von Problemen bei der Umsetzung.

frühe Folie, nicht Folie eines frühen Planungsstadiums ;)
Ich würde bei jetztigen Präsentationen auch nicht davon ausgehen, dass die Grafiken jedes technische Detail akkurat wiedergeben. Zum jetzigen Zeitpunkt präsentiert Intel nur die Eckdaten, die Grafiken dienen weniger der Wissensvermittlung und mehr der abstrakten Illustration. Ggf. weiß der Erstellende nicht einmal, wie die on-DIE-Interconnects aussehen.
 
Ein L3, damit er was bringt, muss schnell sein, das erhöht aber die Anforderungen an die Cachecohärenz. Da macht es durchaus Sinn, keinen L3 zu verbauen, und das alles über den Near-Memory laufen zu lassen. Ist ja dann quasi je nach Betriebsart eh nen großer L3, nur halt vergleichsweise lange Latenzen.

Zu hohe Anzahl an gemeinsamen Zugriffen killt dich aber eh bei so ner Architektur. Du musst da einfach schon von Grund auf davon ausgehen, dass sowas einfach nicht passiert, und was eh nicht passieren darf, um das muss man sich auch nicht sooo große Gedanken machen bzgl Optimierung.
 
wenigstens geht es hier mit bemerkbaren schritten vorwärts, gaanz im gegensatz zur home-computer-branche :ugly:

immerhin 3000 GFlops zu 1220Gflops...


in maximaler aussbaustufe 400Gibyte ram :huh: :devil:
 
Heftig was für Schritte Intel so geht... 3 DP und 6 SP :ugly: da gucken AMD und Nvidia leider (aktuell) ein wenig blöd aus der Wäsche :D aber wer weiß was sich bis 2015 so ändert.
Würde es mal im Home Bereich so schnell weitergehen.
 
Zurück