AW: Computex 2011: Asus präsentiert eine GTX 595 Ares
Da müsste man ein eigenes Spezial MB extra für die ARES entwickeln...
Aber warum auch? Das Ziel bis zur nächsten GPU Generation die Einzelkarten- Benchmarkkrone zu erobern wird sicherlich auch so erreicht
Ja das wird Sie sicherlich. Die Frage ist nur, wie langlebig ist die Karte, und wie oft muss Sie runter takten.
Gibt es die da nicht auch?
Nein leider nicht. Der Desktop Bereich treibt zwar viele Entwicklungen im HPC Bereich an, weil durch diesen die Sachen erst finanzierbar werden, aber ist halt auch oft ein Klotz am Bein wie hier. Die Chips sind ja für die Profi-Karten und die normalen Consumer-Karten die gleichen. Ergo hast du auch nur einen 16x PCI-E Controller etc.
AMD/nVidia sind sich eventuell auch nicht 100% im klaren über das Problem, bzw. scheuen den Schritt in diese Richtung. AMD hat ja in den Präsentationsfolien zur HD6k Serie selbst angesprochen, das der PCI-E Slot ein großer Flaschenhals ist im GPGPU Bereich. Daher hat die HD6k Serie ja auch 2 DMA-Controller, damit die Verbindung besser ausgelastet werden kann.
Es bringt aber nichts, wenn AMD allein vor stürmt und 32X Karten bringt und dann keine Boards vorhanden sind. Dabei wäre das in meinen Augen eine sehr gute Möglichkeit, um den Heimanwender vom Profi abzugrenzen. Der Heimanwender brauch das eigentlich nie. Der Profi kann es je nach Aufgabe sehr wohl benötigen. Genau wie 2GB+ dort sehr gern gesehen sind. 32x ist ja als Standard auch vorhanden. Die Realisierung wäre also kein Problem, die Firmen müssten nur dazu die Eier in der Hose haben.
Aber hier ist halt das Henne Ei Problem mal wieder anzutreffen. Keiner fordert so etwas, weil es so etwas eben auch nicht gibt. Weil aber keine fordert, wird es auch nicht gebaut
Son 32x kostet halt wohl schon etwas mehr als ein 16x. Alles sehr zwiespältig, findet man aber auch an vielen anderen Stellen.
Z.B. arbeiten die 64Bit Prozessoren physikalisch noch immer "nur" mit 48-Bit Adressen (bin mir grad nicht mehr sicher ob es 40 oder 48 Bit sind) Das klingt ja erst mal nicht schlimm, da man ja damit noch immer 256 TB an Adressraum adressieren kann. Für eine einzelne Maschine MEHR als genug, selbst Quad-/Octa-Sockel-Systeme kommen damit ohne Probleme aus. Wenn man aber jetzt einen großen Rechner mit globalem Adressraum bauen will, stößt man "schnell" an die CPU-Grenze.
Rechnen wir mal schnell nach. Ein Server hat normal 8-12 Dim-Slots. Gehen wir mal von 12 aus, in dem jeweils 4GB Riegel stecken. Wenn man son großen Rechner mit globalem Adressraum baut, macht man das nicht zum Spaß, sondern weil man muss, also massig RAM rein. Haben wir also 48GB (btw ich glaub 96GB pro CPU gibt es auch schon). Da wir ja gut sind, nehmen wir ein Quad-Sockel-System (Octa ist uns zu teuer
) Damit kommen wir dann auf 192GB (384GB) Ram in einem Knoten. Ich glaub man sieht schon worauf die Sache hinausläuft
Insgesamt können wir 256TB an Adressen adressieren. Ergo können wir 256*1024/192=1365 (256*1024/384=682) Knoten zusammenschrauben. Danach ist Sense. Und das bei 48Bit echter Adressbreite. Bei 40Bit echter Adressbreite kann man nur 1TB Speicher adressieren, man könnte also nur 5 (bzw 2) Knoten zusammenschließen zu einem shared Memory Rechner.
Btw. hab mal nochmal nachgeschaut 512GB pro 4Sockel Node ist das Maximum was z.B. SuperMicro grad anbietet für AMD Systeme, soweit ich das gesehen habe. Mit den 48Bit echter Adressbreite kommt man damit auf gerade einmal 512Nodes, bevor der Adressraum ausgeht! Ok, es gibt meist nur bis 256Knoten Systeme mit gemeinsamen Adressraum, da Sie nicht so gut skalieren wie distributed Memory Systeme, aber man sieht, das man hier schon durch Hardware wieder eingegrenzt wird. Denn man sollte es zwar nicht glauben, aber es gibt wirklich Leute, die würden gern größere SharedMemorySysteme bauen als die mit 256TB. Zudem gibt es auch eine ganz lustige Entwicklung, die ich auf der CeBIT sehen konnte. Da hast du dann quasi 10TB Ram in einem Node drin
Ist noch nicht 100% ausgereift, aber in den nächsten Jahren kommt das sicherlich. Tja und was machst du dann mit deinen 48Bit realer Adressbreite? Richtig, dir schnell in den ARSCH beisen
Dual GPU Karten sind mit herkömmlichen GPUs, die nicht dafür gebaut wurden (was ja bei allen Dual GPU Karten in jüngerer Vergangenheit der Fall war) so oder so prinzipiell eine Pfuschlösung...
Naja, wirklich Pfusch nicht, aber man hat halt 2 Einschränkungen normal mehr, als man eh schon hat (und man hat eigentlich schon mit einer GPU zu viele...). PCI-E muss geteilt werden, was je nach Aufgabe halt in 1-50% weniger Leistung enden kann, und dann noch das Problem, das die normalen Dual-GPUs niedriger getaktet sind. Wenn man die zweite also nicht vernünftig verwenden kann, hat man auch noch ne langsamere Karte, als wenn man nur eine GPU hat....
Das kann wohl nur AMD beantworten...
Aber... mit 2 CPUs und 2x SR5690 Chipsatz sollte man doch eigentlich auf immerhin 84 PCIe 2.0 Lanes kommen...
Ja stimmt, hab die restlichen Lanes ganz vergessen
Aber die brauch man ja auch für andere Sachen
Mit dem EVGA SR2 und prinzipiell auch anderen 1366er Dualsockelboards mit 5520er Chipsatz gibt es immerhin 64 PCIe 2.0 Lanes
Also ich kann mit täuschen, aber waren es nicht "nur" 32 echte Lanes +2x NF200.
EDIT: Ok hab nochmal nachgeschaut. Es gibt zwei Versionen des Tylersburg-Chipsatzes, von dem es 2 Versionen gibt. Einmal den 5500 mit 24x Lanes, und den 5520 mit 36x Lanes. Auf dem SR2 ist der 5520 verbaut. eigentlich sollte ein NF200 ausreichen, aber um wohl alles mit allem zu verdrahten brauch man dann 2 NF200. Wie auch immer. Man hat "nur" 32 echte PCI-E-Lanes. Der NF200 erhöht ja noch die Latenzen und ermöglicht "nur" ein variables zuteilen der Lanes und Multicast, soweit ich das verstanden habe. Es gibt halt kaum Dokumente zum NF200 frei verfügbar.
Viel Spaß mit dem Mikroruckeln! Für mehr als 4 GPUs gibt es auch keine Treiber
Das ist nicht zum zocken gedacht
PS:SuperMicro hat jetzt/jetzt bald eine Maschine mit 5 GPUs im Angebot. Sehr schickes teil
Abgesehen davon liegt hier in der Praxis sogut wie immer eine CPU Limitierung vor, auch zwei CPUs helfen hier nur eingeschränkt, da am Ende an ein Hauptthread limitiert, das trifft vor allem die /Kern langsameren AMD CPUs
Kommt drauf an. Ich hab auch schon Programme geschrieben, die auf 128 Cores gelaufen sind, und dabei sogar recht gut skaliert haben. Es kommt halt immer auf das Problem an, das man sich anschaut. Für Games etc. ist so etwas natürlich völlig unbrauchbar. Höchstens mit RayTracing könnte es wieder interessant werden, aber dann stellt sich trotzdem keiner so ein System ins Wohnzimmer
(Ok vielleicht 1-2 ein paar Spinner gibt es ja immer