@SeoP
Ersteinmal hinkt der Vergleich mehrerer Prozessoren und GPUs gewaltig, siehe den Hinweis auf die Speicheranbindung und was wichtiger ist (CPU: Latenz, reagiert wenig bis garnicht auf Bandbreite, bei der GPU ists umgekehrt), zum anderen teilen sich die CPUs einen Speicher, daher ist der Vergleich unpassend!
Vergleichbar mit 2 Grafikkarten wäre folgendes:
Du hast 2 Boards (also
2 komplette Rechner) und frickelst die irgendwie zusammen, das wäre vergleichbar.
Ein Bild eines Beispieles einer Mehrprozessorumgebung.
Anhang anzeigen 7341
Du siehst:
die CPUs hängen an der NB, die wiederum ein Speicherinterface hat, in diesem Falle 2x PC2-6400 bzw 4x PC2-6400F.
Beim Opteron schauts auch nicht anders aus, der hat auch 'nur' 2x 400MHz @ 64bit, maximal, pro CPU, macht also lächerliche 12,8GB/sec, bei aktuellen GPUs haben wir das 10 Fache.
Da sich der Code für 3D Berechnungen um WELTEN besser parallelisieren lässt (was bei x86 Code nur schwer möglich ist, Multicore ist auch nur 'der letzte Ausweg', aber das ist Thema für einen anderen Thread), hat man schon seit ewigkeiten mehrere 'Cores', die parallel rechnen...
Zum Problem mit der Kommunikation zwischen den beiden GPUs:
Ums wirklich brauchbar hinzubekommen, bräuchte man ein Interface das genauso schnell wie das Speicherinterface ist!
Und wie willst du das hinbekommen, so dass das auch in der Praxis realisierbar ist??
Und genau das ist das Problem...
Komm jetzt nicht mit Hyper Transport, das ist sogar in Version 3.0 ein Witz gegen die Bandbreiten, die die GPU zum Speicher hat!
Zum Vergleich: Hyper Transport schafft etwa 20GB/sec, VRAM einer aktuellen 'High End' Grafikkarte wie der HD3870 sind etwa 100GB/sec, das Chip to Chip Interface müsst also etwa fünfmal so schnell sein, wie HT 3.0 und das auch nur für die aktuelle Generation, bei der kommenden (oder nehmen wir mal den R600) reicht das auch wieder nicht.
Du siehst, das ist also nur schwer bis garnicht zu realisieren.