Eine IGP ist für die Leistung die wissenschaftliche Berechnungen gefordert wird zu langsam. Von da aus immer noch sinnfrei. Für soetwas baut man Tesla-Karten o.ä. ein. Die haben nicht mal einen Video-Out...
JBX schonmal GPU programmiert? Ich glaub nicht, sonst würdeste das so pauschal nicht sagen. GPUs sind nur gut, wenn du pro globalen Speicherzugriff viel rechnen kannst, wenn du hast VERDAMMT lange Latenzen, bis du mal die Daten auf der GPU hast, und dort brauchste auch recht viel Arbeit pro Speicherzugriff, damit du die Latenzen verstecken kannst. Daher ist die GPU ja auch nicht für alles nutzbar. Glaub mir, ich hab die scheis Latenzen schon öfters verflucht...
Die GPU auf dem DIE hat den Vorteil das du deutlich geringere Latenzen hast. Damit kannste dann sehr sehr wahrscheinlich einfach vieles auf der GPU berechnen, wo sichs vorher nicht gelohnt hat, dies auf die dezidierte GPU zu packen. Auch das du die Daten direkt im RAM ablegen kannst ist ziemlich geschickt, weil du dir damit traffic sparst. Aber hauptsächlich die reduzierten Latenzen sind sehr sehr sehr interessant. So könnteste z.B. auf der dezidierten nen Reduzealgorithmus bis zu 80% durchführen, dann die Ergebnisse in den RAM packen und die letzten 20% mit der auf der CPU dann noch vollns durchrechnen, weil du da dann einfach die Latenzen sonst nicht mehr verstecken kannst.
Oder du kannst auch sonst einfach mal zwischendrin was kurz auf die GPU schmeisen ohne dir groß gedanken drüber machen zu müssen, wie ich das Zeug jetzt rüber bekomm und was ich dann solange auf der CPU mach etc etc.
Und nur mal so neben bei, es gibt auch PS3 Cluster *hust* und es man die normalen GeForce noch flashen konnte, hat die auch jeder gern genommen, trotz weniger ram, und bei das die Tesla Karten keinen Video-Out haben, ist schlicht ne Kostenfrage. Warum was anbringen, wo auch nur 1 Watt Strom verbraucht werden könnte, oder was kaputt gehen könnte, oder aber auch nur 1 Cent unnötige Produktionskosten anfallen.
@XE stimmt, hab da nicht genau genug gelesen. Da wird nur Integer Issues per Clock erwähnt. Hab da wohl zu schnell drübergelesen, wobei halt die Frage ist, wieviele Instructions du für eine Integer Issue jeweils brauchst.
Auf ner Folie zu Bulldozer stand ja mal, das >90% aller x86 Befehle (nagel mich darauf aber jetzt nicht fest) innerhalb eines Clock berechnet werden können, bzw durch die Pipeline kommen, so genau hab ich das grad nicht im Kopf. Fand das da recht interessant, da man ja für die meisten Befehle ziemlich viele Clocks braucht. So könnte man natürlich an der Performance auch schrauben. Microcode soll ja da kaum verwedet werden bei den Bulldozerkernen.
Muss ich aber nochmal raussuchen, war glaub bei GameStar gelistet die Folie, du weist aber sicher welche ich mein