GPU-OC-Rekord: Geforce GTX 1080 Ti erreicht 3 GHz

Erzähl das der R9 Nano! Oder der PS4 GPU (mehr Shader, weniger Takt, weniger Stromverbrauch bei gleicher Leistung wie eine HD7850).

Die Aussage so zu formulieren ist grundsätzlich falsch, da es viel zuviele Parameter gibt.

Gerade die Nano ist ja ein Negativbeispiel, hätte AMD es geschafft einen Chip zu designen der nur 3072 Shader hat, dafür 1300 Mhz Takt, hätten sie die gleiche Leistung erreicht wie letztendlich 4096 Shader und nur 1000 Mhz Takt, dabei wäre der Chip aber sicher günstiger gewesen.
Die AMD Chips haben viel mehr Features (höhere Computing- bzw. Double Precision Performance zum Beispiel). Ist ein alter Hut, dass Nvidia die Midrange Chips aggressiv auf aktuelle Gaming-Anforderungen hin optimiert / beschneidet. Deshalb altern die Teile auch so schlecht. Auf der anderen Seite ist ein hart entschlackter Chip aber natürlich sparsamer.
Klar, aber die Leute kaufen sich Gaming GPU's zum Gamen, für professionelle Anwendungen gibt es ganz andere Karten.
Das kann man im Prinzip so stehen lassen. Wobei der Größenunterschied zwischen 1060 und 480 gemessen an der Shaderdifferenz marginal ist - sprich so ganz Recht hast du hier auch nicht.
Ja, aber weniger Shader heißt letztendlich fast immer kleinerer Chip - und somit günstiger in der Produktion.
Compute Performance! Siehe oben! Die 1,x Teraflops Differenz merkst du in entsprechenden Anwendungen. Muss jetzt aber halt nicht zwingend das nächste 08/15 PC Game sein.
Ja wie gesagt, als Gamer interessiert einem das ja nicht wirklich.
Eigentlich nicht, die 12.5 Teraflops sind ja ziemlich fix, genauso wie 4096 Shader, das entspricht einem Takt von etwas mehr als 1500 Mhz.
Und AMD hat in der letzten Präsentation ja des Öfteren erwähnt dass sie nun höhere Taktraten erreichen können.
Also eigentlich ist "mehr Takt" immer eine schlechte Sache und sollte der letzte Ausweg bleiben, die Leistung eines Prozessors zu erhöhen. Und die TFlops sind mittlerweile eine komplett leere Zahl ohne jeglichen Realitätsbezug. Früher (~70er) hat die Anzahl der FlOp/s noch etwas gesagt, aber das ist schon lange, lange nicht mehr der Fall. Ich würde der Bezeichnung jedenfalls keine Träne hinterherheulen. Ohne den Begriff hätte man zwar keine einfache Zahl mehr, um die Rechenleistung eines Chips irgendwie auf eine Nummer zu reduzieren, auf der anderen Seite klappt das wie gesagt eh schon ewig nicht mehr richtig, weshalb der Sinn des ganzen so oder so nicht gegeben ist.
So far,
gRU?; cAPS
Die Flops sind in einer Architektur noch sehr bedeutend für die Messung der Leistung.
Eine GTX1080ti mit 3 Ghz hat gut 21,5 Teraflops, eine GTX1080 mit 2 Ghz gut 10 Teraflops, und anhand diese Zahlen kann man durchaus sagen dass erstere gut etwas mehr als doppelt so stark ist.
 
Gerade die Nano ist ja ein Negativbeispiel, hätte AMD es geschafft einen Chip zu designen der nur 3072 Shader hat, dafür 1300 Mhz Takt, hätten sie die gleiche Leistung erreicht wie letztendlich 4096 Shader und nur 1000 Mhz Takt, dabei wäre der Chip aber sicher günstiger gewesen.

Klar, aber die Leute kaufen sich Gaming GPU's zum Gamen, für professionelle Anwendungen gibt es ganz andere Karten.

Ja, aber weniger Shader heißt letztendlich fast immer kleinerer Chip - und somit günstiger in der Produktion.

Ja wie gesagt, als Gamer interessiert einem das ja nicht wirklich.

Eigentlich nicht, die 12.5 Teraflops sind ja ziemlich fix, genauso wie 4096 Shader, das entspricht einem Takt von etwas mehr als 1500 Mhz.
Und AMD hat in der letzten Präsentation ja des Öfteren erwähnt dass sie nun höhere Taktraten erreichen können.

Die Flops sind in einer Architektur noch sehr bedeutend für die Messung der Leistung.
Eine GTX1080ti mit 3 Ghz hat gut 21,5 Teraflops, eine GTX1080 mit 2 Ghz gut 10 Teraflops, und anhand diese Zahlen kann man durchaus sagen dass erstere gut etwas mehr als doppelt so stark ist.

Nein, kann man eben nicht! Bei dem Vergleich passt es vielleicht einigermaßen, weil die 1080 und die 1080 Ti im Chipdesign sehr ähnlich sind, aber an und für sich sagen FlOp/s halt gar nix aus. Warte, doch: sie zeigen an, wie häufig du bei einer beliebigen Zahl das Komma pro Sekunde hin- und herschieben kannst. Sobald du von dieser Anwendung abweichst, hat der ermittelte Wert keinen Bezug zur Realität mehr.
Ernsthaft. Um es auf die Spitze zu treiben: Man könnte auch aus einer Hand voll Transistoren eine Schaltung bauen, die eine Zahl nimmt und munter das Komma hin- und herschiebt. Da ich für ein paar Transistoren kaum Ansteuerung brauche, könnte man die näherungsweise an die Grenzfrequenz der Transistoren ansteuern. Wenn ich dann Transistoren mit einer Frequenz von 1 THz nehme, komme ich daher auf mehr als 1 TFlop/s - mit einer Rechenleistung von exakt null.
gRU?; cAPS
 
[...]
Ja, aber weniger Shader heißt letztendlich fast immer kleinerer Chip - und somit günstiger in der Produktion.
Warum baut Nvidia keine 256-Shader mit 20 Ghz?
Super klein und viel Leistung.

Die Flops sind in einer Architektur noch sehr bedeutend für die Messung der Leistung.
Eine GTX1080ti mit 3 Ghz hat gut 21,5 Teraflops, eine GTX1080 mit 2 Ghz gut 10 Teraflops, und anhand diese Zahlen kann man durchaus sagen dass erstere gut etwas mehr als doppelt so stark ist.
Nein, sie führen zu immer den selben kruden Vergleichen.
Und erstere ist gewiss nicht doppelt so stark, die Bandbreite wird die Leistungsskalierung limitieren.
 
Warum baut Nvidia keine 256-Shader mit 20 Ghz?
Super klein und viel Leistung.
Weil es technisch sicher nicht möglich ist.
Nein, sie führen zu immer den selben kruden Vergleichen.
Und erstere ist gewiss nicht doppelt so stark, die Bandbreite wird die Leistungsskalierung limitieren.
Die Bandbreite muss natürlich der Rohleistung entsprechend sein.
Nein, kann man eben nicht! Bei dem Vergleich passt es vielleicht einigermaßen, weil die 1080 und die 1080 Ti im Chipdesign sehr ähnlich sind, aber an und für sich sagen FlOp/s halt gar nix aus. Warte, doch: sie zeigen an, wie häufig du bei einer beliebigen Zahl das Komma pro Sekunde hin- und herschieben kannst. Sobald du von dieser Anwendung abweichst, hat der ermittelte Wert keinen Bezug zur Realität mehr.
Ernsthaft. Um es auf die Spitze zu treiben: Man könnte auch aus einer Hand voll Transistoren eine Schaltung bauen, die eine Zahl nimmt und munter das Komma hin- und herschiebt. Da ich für ein paar Transistoren kaum Ansteuerung brauche, könnte man die näherungsweise an die Grenzfrequenz der Transistoren ansteuern. Wenn ich dann Transistoren mit einer Frequenz von 1 THz nehme, komme ich daher auf mehr als 1 TFlop/s - mit einer Rechenleistung von exakt null.
gRU?; cAPS
Deshalb schrieb ich ja, in einer Architektur, also Pascal z.Bsp.
Und da lässt sich das durchaus vergleichen.
Und wenn man nach den FPS/Teraflops geht, ist Pascal wiederum um die ~10% "effizienter" als Maxwell.
 
Weil es technisch sicher nicht möglich ist.
Vielleicht nicht 20 Ghz, aber deutlich mehr als was Nvidia aktuell schafft, 4 und mehr Ghz wie bei CPUs wäre sicherlich möglich wenn Nvidia ihre Pipeline extrem lange designed und die Balance der Schaltungen so gestaltet, um den Takt maximal anheben zu können.
Das tut natürlich niemand, weil es einen logischen Kompromiss aus Takt, Anzahl der Shader, Spannung, Leistungsaufnahme UND des Flächenverbrauchs gibt.
Nvidias ALUs laufen auch nicht grundlos 50% schneller, Nvidia braucht für die meisten Instruktionen 6 Taktzyklen, AMDs GCN nur 4.
Je länger die Pipeline, desto leichter ist es den Takt hoch zu drehen, wobei das auch nur ein Parameter von vielen anderen ist.
Und weil das ganze so komplex am Ende ausfällt, steht die Behauptung das weniger Shader in der Regel zu kleineren Chips führen auf wackeligen Beinen, denn man ignoriert alle anderen Faktoren die bei der Größe von Shader eine Rolle spielen.

Deshalb schrieb ich ja, in einer Architektur, also Pascal z.Bsp.
Und da lässt sich das durchaus vergleichen.
Und wenn man nach den FPS/Teraflops geht, ist Pascal wiederum um die ~10% "effizienter" als Maxwell.
Das ist schon ein gutes Beispiel für eine fehlleitende Aussage, denn Pascal ALUs sind praktisch die selben wie von Maxwell, all die Schaltungen die zur TF-Leistungs beitragen, sind gar nicht besser geworden, sondern andere Bestandteile der GPU.

Zeit für die guten Autovergleiche, wenn ich zwei Traktoren miteinander vergleiche, mit dem selben Motor, würde ich auch nicht sagen, der Motor vom zweiten Traktor ist pro Pferdestärke 20% effizienter, wenn der zweite Traktor schlichtweg 2 Tonnen weniger wiegt und deshalb höhere Geschwindigkeiten erreicht.

Das ist das ständige Problem mit den Teraflop-Vergleichen, die als absoluter Maßstab für das Endresultat herangezogen werden, wobei sie selber nur einen Teil der Endperformance darstellen.
Theoretisch könnte z.B. Volta den Kompromiss eingehen die Leistung pro TeraFLOP (Bei den ALUs) um 10% zu verschlechtern, damit das ganze energieeffizienter wird, aber die Leistung steigt am Ende dennoch an, weil Nvidia den Raster-Vorgang verbessert hat und den L2$ verdoppelt, welcher die Endleistung wieder ansteigen lässt.
Jetzt zu behaupten, dass Volta pro Teraflop 10% effizienter ausfällt, wäre völlig falsch, weil das Gegenteil der Fall wäre.

Aber solch ungenauen Aussagen werden häufig bei Vergleichen zwischen AMD und Nvidia formuliert, wo das Endresultat stupide auf die Teraflops übertragen wird und dann daraus Schlüsse gezogen werden, die völlig fehlgeleitet sind.
 
Zuletzt bearbeitet:
Hallo,
das ist ja sehr interessant, aber an welchen Komponenten hängt die Größe der Shader ab?
Und inwiefern hat Nvidia es geschafft diese bei Pascal um 5-10% "effizienter" (ich weiß das ist ein falscher Begriff) zu gestalten als Maxwell wenn alle technischen Komponenten gleich sind?

Was ich halt ursprünglich gemeint habe, ist dass Pascal in der Regel 5-10% weniger Flops braucht um die selbe Performance zu erreichen wie Maxwell.
 
Hallo,
das ist ja sehr interessant, aber an welchen Komponenten hängt die Größe der Shader ab?
Vom Funktionsumfang und der Unabhägigkeit von anderen Shadern bzw. die Größe der Compute Cluster. Die nVidia Shader haben im Vergleich zu ihren AMD Pendants z.B. zusätzliche Spezialeinheiten um Operationen wie Wurzelziehen (willkürliches Beispiel, ist vermutlich nicht mehr korrekt) in einem Befehl abzuarbeiten. AMDs Shader brauchen dafür mehr als einen Takt, sind aber kleiner.
Was ich halt ursprünglich gemeint habe, ist dass Pascal in der Regel 5-10% weniger Flops braucht um die selbe Performance zu erreichen wie Maxwell.

Das ist aber nur eine Beobachtung, keine Tatsache, und es gibt eine Menge zusätzliche Variablen, die in die Performance mit reinspielen (z.B. das Speicherinterface oder der Treiber.)
 
Hallo,
das ist ja sehr interessant, aber an welchen Komponenten hängt die Größe der Shader ab?
Und inwiefern hat Nvidia es geschafft diese bei Pascal um 5-10% "effizienter" (ich weiß das ist ein falscher Begriff) zu gestalten als Maxwell wenn alle technischen Komponenten gleich sind?

Was ich halt ursprünglich gemeint habe, ist dass Pascal in der Regel 5-10% weniger Flops braucht um die selbe Performance zu erreichen wie Maxwell.
Ich unterteile das mal in zwei Bereiche:
1. Der grundlegende Bauplan der Shader
2. Die Umsetzung des Bauplans

1.) Beim grundlegenden Bauplan der Shader ist das ganze noch relativ einfach nachzuvollziehen, da man für viele Details die Kenndaten von den Unternehmen bekommt und wie ein Großteil des Chips funktioniert.
Allerdings liefert nicht jedes Unternehmen wirklich alle Eckdaten und neben den Shadern an sich gibt es natürlich unzählige weitere Bestandteile, wie das ganze Front-End und Back-End und die Memory-Controller usw.

Bei AMD wird ein GCN-Shader (Gen 1-2) vom logischen Schaubild so aufgebaut:
A2.png



Hier kümmern sich Schaltungen darum Instruktionen zu holen, Arbeitspakete zusammenzufassen, zu adressieren, zu übersetzen und zu verteilen.
Diese werden dann von den SIMDs (Shader-Array) berechnet und die Daten mit denen gerechnet wird, werden in Register geschrieben, den LDS (Local Data Share) und weiter zu den L1$, L2$ und ganz zum Schluss auch in den VRAM.
Als Laie sieht man beim Schaubild immerhin, wie viele grundsätzliche Blöcke (aber nicht wie komplex/groß) sich um etwas kümmern, wie groß die Register der Einheiten sind und wie groß die unterschiedlichen Caches ausfallen.
Das ganze ist im Detail aber natürlich viel komplexer, weil jeder Hersteller definiert eine Maschinensprache mit den nötigen Funktionen, die komplexer oder simpler ausfallen kann.
Jeder Hersteller verteilt und übersetzt die Befehle unterschiedlich, mit Vor- und Nachteilen, wie eben die ganze Compute-Unit an sich, wie viele Register man bereitstellt, wie groß die Caches ausfallen, wie viele Verteiler (Scheduler) sich um die Shader kümmern und wie fein diese ganze Apparatur arbeitet.
All die Blöcke werden innerhalb und außerhalb verknüpft und die Leitungen liefern Daten, man kann die Leitungen also schmaler oder breiter ausfallen lassen, dass ganze muss auch balanciert werden.


2. Umsetzung des Bauplans

Die grundlegende Aufbau ist die eine Sache, die Umsetzung bzw. physische Implementierung die andere.
Jetzt muss das mit Transistoren aufgebaut und verknüpft werden und hier arbeitet man mit vielen unterschiedlichen Werkzeugen und automatischen Layoutprogrammen.
Wichtig ist es natürlich das ganze robust zu gestalten und die kritischen Pfade ungefähr gleichmäßig zu designen.
Hier kann man bezüglich der Dichte optimieren oder Richtung Takt.
Man schlägt sich hier natürlich auch mit all den physikalischen Effekten herum, wie Interferenzen, Leckströme usw.

Am Ende sieht das wie ein Auto-Highway aus, aus zig verschiedenen Ebenen und Verknüpfungen:
apcnewschip-making-thumb_mainImage19.jpg19.jpg

AMAZING PICS: How a chip is made - APC



Zu Nvidia, Toms Hardware hat ein Vergleich zwischen Pascal (1070 GTX) und Maxwell angestellt (980 Ti):
04-Shader-Unit-Performance-Per-Clock.png

Detaillierte Effizienzbetrachtung - GTX 1070/1080 vs. GTX 980 Ti: Effizienzanalyse & Leistungsaufnahme

Die fällt praktisch gleich aus, wenn man die Leistung durch die Shader-Einheiten teilt, wobei das natürlich auch ein ungenauer Vergleich ist, da die anderen Bestandteile der GPU auch wichtig sind, aber keine davon scheinen einen ausgeprägten Einfluss bei Metro zu besitzen, außer bei den GTX 1080 Karten, die skalieren etwas schlechter, hängen auch etwas mehr an der Bandbreite.


So ist übrigens Cayman (6970) aufgebaut (Bei googel einfach RX 480 oder 1080 GTX architecture googeln für andere Schaubilder):

Cayman%20block%20diagram.png



Bei der TFLOP-Rechnung ziehen wir nur die SIMD-Engines in Betracht (rote Blöcke), der Rest vom Chip wird bei so einem Vergleich völlig ignoriert, dabei hat das Front-End (Command-Processor, Rasterizer, Vertex/Geometry-Assembler) und Back-End mit den ROPs natürlich großen Einfluss auf die Endperformance unter Spielen.

Edit: Mephisto hat natürlichen auch einen sehr wichtigen Punkt eingebracht, der Treiber.
Es hängt nicht nur von der Hardware ab, die nicht absolut automatisch abläuft, sondern auch wie die Software am Ende die Maschine füttert.
AMD verliert alleine aufgrund ihres Treibers teilweise Performance.
 
Zuletzt bearbeitet:
In einer Welt in der man die Leistung absoluter Highendkarten nach spätestens einem Jahr im Mainstreamsektor bekommt.
 
Meiner Meinung nach kann man eine 1070 GTX ab 390€ nicht als Mainstream-GPU verstehen und die 980 Ti kam im Juni 2015 heraus.
 
Ja hab etwas übertrieben, sind vielleicht 2 Jahre falls sich die 1070 Richtung Sommer den 300€ annähert. Unter Mainstream verstehe ich selbst eher sowas wie "nichts besonderes mehr", es muss ja nicht direkt günstig sein.
 
Das halte ich für ein Gerücht Tim. Weil sich natürlich jeder eine GPU für 800+€ kauft. In was für einer Welt lebst du?


Das sagt dir jemand der sich unnötigerweise 3000 euro für sein Pc ausgegeben hat. Obwohl er es nicht nötig hat. Dennoch daddel ich mit einer 390X im Pc herum :P:P


Tim? Stell keine fragen zur Falschen welt,.:hmm:
 
3Ghz für nen Grafikchip.... Das ist eine neue Hausnummer. Das ist ja wie in den späten 90ern wo mein Grafikchip meinen Prozessor überholt hat :D

Nur beim Ram ist es lustiger.
Irgendwann hatte man mehr Ram als früher HD, dann hatten sogarSoundkkarten mehr Speicher als beides. irgendwie interessant.

In einer Welt in der man die Leistung absoluter Highendkarten nach spätestens einem Jahr im Mainstreamsektor bekommt.

lol
Bruder hatte sich die GTX 980 zum Erscheinen gekauft und nun nun ~3 Jahre später ist diese immer noch schneller als ne GTX 1060.
Die Zeiten wo jedes Jahr was (deutschlich) schnelleres rauskommen sind wohl lange vorbei.
Sieht man auch bald bei der RX480 zur RX580
 
Ja hab etwas übertrieben, sind vielleicht 2 Jahre falls sich die 1070 Richtung Sommer den 300€ annähert. Unter Mainstream verstehe ich selbst eher sowas wie "nichts besonderes mehr", es muss ja nicht direkt günstig sein.
Das hat heutzutage mehr denn je mit den zur Verfügung stehenden Fertigungsrozessen zu tun.
Dass die 1070 Leistung plötzlich zum Mainstreampreis (150€) verfügbar ist, würde ich nicht vor dem breitflächigen Einsatz von 7nm erwarten.
 
Zurück