Unterstuetzt Intel's Sandy Bridge iGPU Double Precision

Intel setzt für DP auf die neuen AVX register:

"Intel reportedly projects that a Sandy Bridge CPU running x87 FPU code will be capable of up to 2GB/s of double-precision throughput per core. If the same workloads are then rewritten to support AVX, theoretical maximum performance is no less than 8GB/s per core (double precision), a fourfold increase."

Da intel selbst nirgendwo erwähnt, dass die Grafikeinheit das könnte aber überall betont wie toll die neuen AVX sind gehe ich persönlich davon aus, dass die iGPU es nicht können wird, das ist aber eine persönliche Einschätzung von mir.
 
:schief: da sieht man mal wieder nV Marketingabteilung :klatsch:

nV ist überhaupt nicht der Einzigste mit DP, und schon garnicht mit CUDA. Nicht CUDA bringt DP, sondern die verbaute Hardware.

nVidia hat mit dem GF100 (Tesla und GTX480) die höhere DP Rohleistung, da aber diese bei der GTX480 auf 1/8 gekürzt wurde, bleibt bon den 52x GFlop/s bei der GTX Serie nicht vielübrig.

Bei Ati isses so, das du insgesamt glaub 10-20 GFlop/s weniger an maximaler DP Leistung hast, aber diese dir bei den Radeon Karten genauso zu 100% zur Verfügung steht wie bei den FireStream Pro Karten.

Wenn du also viel DP Leistung fürs Geld brauchst, greifste zu ner Ati der 5850 oder 5870.

So back to Topic:

Ich glaub ehrlich gesagt auch nicht so recht daran das die GPU DP kann, da wie shcon gesagt wurde Intel den AVX Befehlssatz ziemlich puscht, und dieser damit eben in Konkurrenz steht. Ganz ausschliesen würde ich es aber nicht.
 
Ja - leider sieht man das überall, es ist egal was die Hardware kann, wichtig ist das die Werbung sagt. NV rührt die Trommeln unglaublich für ihr tolles CUDA und DP und was weiß ich noch alles, ATI hält sich bedeckt - und das obwohl ihre Karten da seit Generationen besser abschneiden. Dummerweise glauben eben 99% der menschen der Werbung und nicht den Fakten, die sehn so aus:

Geforce GTS 450: 50,1 GFlop/s DP
Geforce GTX 460: 76 GFlop/s DP
Geforce GTX 465: 107 GFlop/s DP
Geforce GTX 470: 136 GFlop/s DP
Geforce GTX 480: 168 GFlop/s DP

Radeon 3870: 102 GFlop/s DP
Radeon 4850: 200 GFlop/s DP
Radeon 4870: 240 GFlop/s DP
Radeon 5850: 403 GFlop/s DP
Radeon 5870: 528 GFlop/s DP
(Quelle: Wiki)

Sogar eine Jahre alte HD4850 schlägt eine GTX480 deutlich in FP64, der direkte Konkurrent 5870 ist über 3x so schnell. Nur hat AMD es anscheinend noch nicht verstanden (oder will es einfach nicht), dass man das ordentlich rausposaunen muss um Leute zu locken.

Zum Vergleich und zum Thema: Intel gibt für einen i7 975 einen Wert von 55.36 GFlop/s an, für Sandy Bridge gibts noch keine Werte aber an die GPUs wird ers wohl kaum schaffen ;-)
 
Ok, danke. Ich will mir natuerlich keine Sandy Bridge iGPU kaufen um DP Berechnungen durchzufuehren, dafuer habe ich ja die Radeon HD 5870. Ich wollte es einfach nur so Wissen. Danke fuer eure Antworten.:daumen:
 
Vergleich RADEON HD 5870 vs. GTX 480

Ganz so einfach ist es auch wieder nicht...

Ihr bezieht euch auf die theoretische Rechenleistung...

Ein Cuda Core (Nvidia), bezw. Streaming Prozessor (ATI) macht 1 Multiplikation und Addition pro TAKT, das sind 2 Rechenoperationen pro TAKT

Bei 480 Cuda Cores (GTX480) mit 1401 MHz Shader-Takt sind das 480*2*1401 = 1.35 GFlops/s (In SP, für DP durch 8 dividieren)

Bei 1600 Streaming Prozessors (HD5870) sind das 1600*2*850 = 2.7 GFlops/s (in SP, für DP durch 5 dividieren)

da habt ihr schon recht!

ABER:

kein (sinnvoller) Algorithums auf dieser Welt kann diese Rechenleistung erbringen.. Denn, mann muss ständig Variablen speichern u. laden,in andere Speicherbereiche auslagern, Kontrollentscheidung treffen usw.. (Programmieren eben)
Also wird diese Rechenleistung in der Praxis nie erreicht, und ist als Vergleich WENIG SINNVOLL..

der FERMI Chip ist ganz anderes aufgebaut als der RV870 hat, andere cache größen, Thread Engines und ganz wichtig, das Shared Memory (wichtig für viele Probleme in der Linearen Algebra) ist unterschiedlich, bei FERMI z.B bis zu 48KB... beim RV870 weniger...
FERMI hat auch ein besseres thread scheduling, unter FERMI können auch mehrere Kernels parallel ablaufen usw..... (wobei ich mir aber nicht sicher bin ob das auf der GTX480 freigeschalten ist), FERMI teilt seine Threads in WARPS usw.... das bringt massig SPEED!

FAZIT: Es hängt von den Fähigkeiten des Programmieres und vom konkreten Algorithmus ab, ob ein Programm auf FERMI oder dem RV870 schneller ist...

Ein Algorithmus läuft schneller auf FERMI, der andere läuft vllt schneller auf dem RV870...

Ganz einfach könnte man es so ausdrücken : RV870 ist "schneller", dafür ist FERMI "besser" aufgebaut... deshalb sind sie schwer zu vergleichen...

PS: wann kommt der RV870 Nachfolger raus?
 
Zuletzt bearbeitet:
Na so kannste das nicht stehen lassen. Der RV870 hat genauso Caches etc, die recht groß sind. Ich such mal die genauen Werte raus, wenn ich Zeit hab.

Das Hauptproblem ist eher einfach die schiere Masse an Cores und die Tatsache, das du halt immer 5 zusammengefasst hast. Da isses schwieriger alles auszulasten als bei den Fermi.

Kein Algorithmus der Welt würd ich aber nicht sagen. Grad die ganzen brutforce Sachen zum PW´s cracken etc schaffen annähernd die theoretische Leistungsfähigkeit.
 
RV870: L1 Cache ist nur 8KB , Shared Memory ist 32 KB, fix, L2 Cache 512KB

FERMI: 64 KB, aufteilbar auf L1 Cache 48KB oder 16KB und Shared Memory 16KB oder 48KB, L2 Cache 768 KB
 
Ja gut das fürn L1 und L2 ca 40% mehr, und grad die Möglichkeit den Shared Memory zu vergrößern ist sehr nett. Ich bin mir aber auf der anderen Seite nicht sicher, ob der GF100 auch 256kB Vektorregistern/CU hat.

Aber ich bin mir grad nicht sicher wie die Aufteilung des Caches ist.

Beim RV870 isses so das du das pro Compute Unit (CU) hast, von denen die 5870 20 Stück hat. Also insgesamt 160kB L1 Cache und dazu 640kB Shared Memory.

Der GF100 hat insgesamt 16 CU´s von denen aber bei der GTX480 und auch den Tesla Karten nur 15 freigeschalten ist. Also haste wahrscheinlich nur 960kB an L1+Shared Memory.

Zieht man das mit in Betracht, dann sieht die Sache schon nicht mehr so gravierend aus. Der Unterschied beträgt dann nur noch 160kB für L1 und shared zusammen.

Sind halt schon zwei unterschiedliche Konzepte, das eine mal groß dafür aber weniger und das andere mal klein, dafür aber viele.
 
Ja klar L1/Shared Memory hast du pro Compute Unit (Bei Nvidia heißt das Streaming Multiprozessor) ...

Was noch interessant ist, das Nvidia eine eine Control Unit am Chip verbaut hat, die es ermöglicht verschiedene Kernels der selben Applikation gleichzeitig ablaufen zu lassen,d.h du hast da keine latency mehr. (der AMD cip muss warten bis alle Threads des Kernels beendet sind bis er einen neuen starten kann)... das kann viel Speed bringen... und mit dem ECC Support gehen sie in Richtung Professionelle GPU Cluster... da hat amd leider veschlafen..

Und ja das mit der Shared Memory Aufteilung ist nett, gerade Solver für dünnbesetzte LGS brauchen jedes KB mehr an Shared Memory... , weshalb ich glaube das FERMI da die Nase vorn hat...
 
Zuletzt bearbeitet:
Das mit den Threads ist nicht ganz richtig. Auf der Ati läuft nen Tread innerhalb einer CU so lang wie die längste Workunit innerhalb einer workgroup wenn ichs richtig im Kopf hab. Ist aber auch alles etwas verwirrend mit CUDAvsOpenCL
 
Ok anderes rum...

In Cuda kannste Kernel konkurrent ausführen, das heißt wenn dein Kernel nicht alle Streaming Prozessors (480 Cuda Cores oder 1600 Streaming Processors) nutzt, kannst du 2 Kernel quasi auf allen SMPs aufteilen und musst nicht warten bist der erste alle seine Threads fertig hat um einen neuen zu starten... so laufen sie also "Gleichzeitig" ab
 
naja, wenn ichs richtig verstanden hab, kannste theoretisch pro CU nen kernel starten, aber sooo genau steig ich da jetzt auch nicht mehr durch. Gibt ja auch out of order instructions etc. Ich bin ja schon froh wenn meine OpenCL Sachen überhaupt das machen was se sollen :D
 
WO haste denn das her? :wtf:

Wenn die Daten stimmen, dann ist das mal echt nen richtig krasser Sprung nach vorne. 4TFlops auf ne singelgpu Karte, das krass. Wenn beim DP zu SP Verhältnis von 1/5 bleibt, dann sind das 800GFlops. Die Fermi packt grad mal 550 rum :ugly: Und die SP Leistung wär halt mal abartig. Die 5870 packt ja "grad" mal 2,7 TFlops wäre also ne Steigerung um 48% :ugly:

Das wäre zu übel. Der Preis aber auch von 600$ bzw bei uns dann halt 600 Euro -.-
 
irgendwer hat das in einem ami forum gepostet... aber anscheindend hat AMD die Bezeichnungen geändert, d.h aus der HD 6700 Serie ist die HD 6800 Serie geworden und aus der 6800 die 6900er.. aus Marketing gründen

wobei die 6970 jetzt 6990 heißt...

6800er = Mittelklasse
6900er = High End

die 6870er wird in der 3ten Oktober Woche erscheinen, die 6970 irgendwann im November

Cache und Shared Memory wird interessant werden... angeblich hat AMD auch noch paar sachen für GPGPU raufgepackt (bessere Thread verwaltung usw...) quelle: Ami Forum hab aber link vergessen!!!)...

Die Tesla C2070 (FERMI mit allen Features und 500GFlops DP , 6GB Global Memory....) kostet im moment ca. 3700€...

Wenn AMD bei der 6970er (die mit angeblich 4000GFlops SP , Single Core) nicht die DP Leistung gekürzt hat, und sie um 600€ rausbringt wird das ein Drama für Nvidia..

da Nvidia mit dem FERMI chip viele Probleme in der Konstruktion hatte (Schlechtes CHIP Layout, Leiterbahnen waren zu knapp und es kam zu elektrischen Interferenzen) und die Core Anzahl reduzieren musste, und ich nicht denke dass sie mal schnell ein komplett neues Layout zusammenbringen werden, ohne eine komplett neue Architektur zu entwickeln, glaub ich dass sie ziemlich in der ******** sitzen

Aber wie gesagt, diese quellen können auch fakes sein... (512 Bit Busbreite kommen mir da sehr unrealistisch vor)
 
Zuletzt bearbeitet:
jup der 512 Bit Bus wäre schon heftig. ÜBerhaupt die ganze 6970 wäre extrem heftig.

Vorallem in Kombination mit den Verbrauchswerten. Da könntest zumindest bei SP völlig auf ECC support verzichten, rechnest halt alles doppelt wenn dus brauchst :ugly: is ja genug Leistung da, und selbst im DP Bereich wärs so nur 1/5 weniger Leistung als die Fermi. Wäre wirklich sehr sehr krass für den Preis.
 
Zurück