Nvidia Pascal: GP104-200-A1 der Geforce GTX 1070 angeblich abgelichtet

Du sprichst von der Theoretischen Rechenleistung oder?
Weil das war ja schon immer ein gewisses "ATI" bzw "AMD Problem" - dass man eben teils deutlich mehr Rechenleistung hatte, aber in der Praxis wenig dabei rumkam.
Ich lass mich aber gerne positiv überraschen, dass man die Flaschenhälse gefunden hat und ein richtig effizienter, gut ausgelasteter Chip rauskommt.
Und natürlich ist auch spannend, wie weit der 14nm Prozess gegenüber dem 16nm Prozess einen Vorteil bietet. Zumindest in der Chipgröße wird sich etwas tun (wie man ja bei Apples A9 gesehen hat)
Nein, auch von der praktischen.
Das GCN-Shader-Array pumpt ordentlich durch:
AMD's Radeon R9 Fury X graphics card reviewed - The Tech Report - Page 4

Bei passenden Code erreichst du nahezu Peak-Performance und die Latenz fällt bei AMD noch am Besten aus.
Praktisch ist es auch so das AMD pro Einheit wesentlich mehr Register und Cache zur Verfügung hat und mehr Threads in flight handeln kann.

AMD GCN SIMD: 64 ALUs mit 4 Instruction Buffer mit 10 Wavefronts (Eine Wavefront = 64 Threads) in flight = 2560 Threads
256KB Vector Register + 64 KB LDS (shared-memory)

Kepler ist effektiv ein kaputtes Design.
Die Register-Bandbreite reicht nicht aus um alle 192 ALUs zu füttern, im theoretischen Test oben sieht man auch das Kepler weit weg von seiner theoretischen Leistung ist.
Kepler war ein hässliches und ineffizientes Shader-Design.

Maxwell ist wesentlich besser, aber noch nicht auf GCN Level:

Nvidia Maxwell SM: 128 ALUs x 4 Instruction buffer mit 16 Warps (Ein Warp = 32 Threads) in Flight = 2048 Threads.
256KB Vector Register + 96 KB LDS (shared-memory)

Effektiv hat eine GCN Unit aber doppelt so viele Ressourcen zur Verfügung, 64 ALUs teilen sich fast soviele Ressourcen wie Maxwell bei 128.
Pascal nähert sich übrigens stark GCN an, weil mit Pascal reduziert Nvidia die ALU-Anzahl pro Cluster, von 128 auf 64, wie bei GCN.

GCN hat aber noch den Vorteil eine Skalare-Unit zu haben, die zusätzlich Effizienz beisteuert.
Nvidia verbaut so etwas vermutlich erst mit Volta.

Ein echtes Problem für AMD ist das ganze drum herum, AMDs Graphics Frontend ist sehr schwach, das Backend auch nicht ganz auf Nvidias-Level und AMDs Shader-Compiler scheint ein gutes Stück besser sein zu können.
AMD scheint mit Polaris das meiste davon endlich zu beheben und die GCN Einheiten werden noch besser, aber gleichzeitig hat Nvidia natürlich auch bei Pascal an anderen Stellen ordentlich draufgelegt, die Shader werden wesentlich stärker.

Übrigens wäre ich vorsichtig was die 14nm vs. 16nm Geschichte angeht.
Ein Apple-Vergleich ist ein Beispiel, dass sollte man nicht zu leichtfertig auf andere Unternehmen und Chip-Kategorien übertragen.
Bei Apple war Samsung kleiner aber nicht so effizient, dass muss aber nicht einzig und allein am Prozess liegen, Apple hat vielleicht die Maske für TSMC besser optimiert oder ist teilweise andere Kompromisse eingegangen.
In Zukunft ist das aber aus meiner Sicht etwas "traurig" das wir keine neutralen Vergleiche mehr in der Zukunft an dieser Stelle anstellen können.
Jetzt kann man nicht mehr ganz so genau sagen, wer einen "besseren" Job gemacht hat.
 
Zuletzt bearbeitet:
@majinvegetta20
Also, es ist zwar klar das wir mit Pascal eine neue Architektur haben, aber der 1070 Chip auf Basis von nur GDDR 5 mit 256 Bit (=256Gb/s Speicherbandbreite ), läßt mich sehr zweifeln, das diese Karte an Maxwell Highend herankommt. Aber ich lasse mich natürlich auch eines besseren belehren; )
 
Zuletzt bearbeitet:
Danke für diese ausführliche Antwort Locuza.
Woher weiß man, das Frontent schwächer ist bzw das Backend und was beinhaltet dies alles?

Und ja, mir ist sowohl bewusst, dass man wegen eines einzelnen Chips nicht die 16/14nm wirklich vergleichen kann. Außerdem hat man größere Unterschiede zwischen den verschiedenen 14/16nm A9s gab. Mal war der 16nm Chip deutlich effizienter, mal der 14nm. Einzig einig war man sich, dass der 14nm Chip deutlich kleiner war, aber gut, das ist klar, dass die alle aufs selbe Ergebnis kommen ;)
 
Woher weiß man, das Frontent schwächer ist bzw das Backend und was beinhaltet dies alles?
Das bekommt man von theoretischen Test mit, Entwickler Stimmen, GDC Vorträge oder wenn die Masse im Forum beim nächsten GameWorks Titel herum weint, weil Tessellation doch so übel missbraucht wird.
zunge.gif


Ich weiß ehrlich gesagt nicht so ganz, was AMD und Nvidia als Front-End und Back-End definieren.
Grob betrachte ich beim Front-End alles was am Anfang verarbeitet wird und beim Back-End was später rauskommt.
Am Anfang steht bei Grafikarten der Rasterizer und die Geomtrie-Engines.
Dazu kann man sich folgende Werte anschauen:
Performances théoriques : géométrie - AMD Radeon R9 Fury X : le GPU Fiji et sa mémoire HBM en test - HardWare.fr

Nvidia schafft es wesentlich mehr Dreiecke zu zeichnen und die Tessellation-Performance ist natürlich auch schon seit Anbeginn der Zeit wesentlich besser.
Es ist eig. eine echte Schande, dass AMD bis Heute da nichts großartig verbessert hat.
Bei der HD5870 war eine schwache Geometrie-Pipe verbaut, bei Cayman hat man das verdoppelt, bei Tahiti etwas verbessert, dann noch Feintuning und bei Hawaii, Tonga, Fiji noch einmal verdoppelt, aber der effektive Durchsatz ist immer noch schwach und bei höheren Tessellation-Faktoren bricht es weiterhin stark ein.

Insgesamt ist das ein Grund wieso DICE z.B. über die ALUs ein ein Triangle Culling System implementiert hat:
Optimizing the Graphics Pipeline with Compute - Frostbite

Je mehr Dreiecke du entfernst, bevor du sie zeichnest, desto weniger hast du mit dem Flaschenhals zu kämpfen.
Wäre die Fixed-Pipeline Hardware von AMD schnell genug, müsste man das aber nicht unbedingt machen.

Nvidia skaliert ihr Graphics-Front-End immer mit den Shader-Clustern und scheint den Interconnect, also beim Austausch der Daten, einen sehr guten Job gemacht zu haben.
Bei AMD wirkt das noch sehr starr und fixiert.

Mit Polaris sollte aber AMD die Dreiecks- und Tessellation-Performance gefixt haben, beim Geometry-Processor schreibt AMD "new" drauf und weiter scheint man in der Hardware auch einen Mechanismus implementiert zu haben, um unnötige Dreiecke schneller zu verwerfen.

Das Graphics-Back-End sind die ROPs, wobei hier auch die Anbindung zum L2$ eine Rolle spielt.
Nvidia ist noch effizienter was die Kompression von Daten angeht und bekommt effektiv mehr Bandbreite heraus.
Daneben ist die Anbindung zum L2$ soweit ich das richtig mitbekommen habe besser, bei AMD haben die ROPs noch ihren eigenen lokalen Speicher.
Hier könnten sich Vor- und Nachteile ergeben, aber ich denke AMD wird an dieser Stelle ein ähnliches Design verfolgen.
Beim L2$ und beim Memory-Controller steht auch "new".

Achja, dass mit dem Shader-Compiler habe ich von Sebastian Aaltonen im B3D mitbekommen.
Da man die Ergebnisse auf den Konsolen und dem PC praktisch vergleichen kann, dank der nahezu selben Hardware, scheint man zu sehen das AMDs Shader-Compiler seinen Job nicht so gut erledigt wie der bei Sony und MS.
Das hat dann natürlich zur Folge das einige Shader suboptimal übersetzt werden, mehr Register verbrauchen, weniger Threads herumschwirren, die Latenzen schlechter versteckt werden, kurzum einfach schlechtere Performance.
Übergeordnet sehen wir natürlich auch, dass AMD nicht immer einen guten Job erledigt was das Thema Driver-Overhead auf der CPU angeht.
AMD hat hier bei der CPU und GPU Luft nach oben.
 
Zuletzt bearbeitet:
GTX1080 darf kommen meine 980Ti bin ich noch sehr gut los geworden freue mich schon auf ein neues Spielzeug.
Auch wenn am Ende nicht die Welt an Leistung rüber kommt hällt sich der Aufpreis mit geschätzt 50 Euro in Grenzen.
 
könntest ja mal zitieren...

Wird er nicht. Wurde gesperrt.

Mir brummt der Schädel... diese ganzen Spekulationen werden langsam anstrengend. Hier weint jeder über verschütteten Wein bevor die Flasche geöffnet wurde. Gekauft wird am Ende das Produkt mit dem besseren PL Verhältnis und die Fans kaufen ihre Lieblinge. Hoffentlich sind die Karten bald da... dann kann man sich aufgrund realer Daten streiten ^^
 
@Locuza: erneut vielen lieben Dank für die Erklärung. Nach Jahrelangem lesen und arbeiten mit diesen Begriffen verstehe ich diese nun deutlich besser.

Btw die Technik mit der du meinst, Polygone werden entfernt bevor sie gezeichnet werden (weil sie nicht benötigt werden in dem Moment), ist dies dasselbe oder ein Nachfolger von dem was man früher Z-Buffer nannte oder bei Gigapixel/3dfx "Hidden Surface Removal" (HSR)? Natürlich ist es wohl nicht mehr dasselbe, da dies noch Architekturen vor den Shadern waren
 
Ich habe da ehrlich gesagt keinen Überblick, wie das genau funktioniert und wer wie was macht und wie gut/schlecht.
Aber von der grundlegenden Idee verfolgt man sicher den gleichen Ansatz, man versucht soviel unnötige Arbeit wie möglich zuvor aus zu sortieren, sei es bei der Erzeugung der Polygone, der Pixeldefnition oder beim Shading.
AMD selber hat nur das Stichwort "Primitive Discard Accelerator" auf die Folien geschrieben, vielleicht erklären sie in Zukunft genauer wie es funktioniert und was AMD genau macht, verbessert oder gar neu eingefügt hat.

Es gibt noch eine klassische Unterscheidung zwischen Immediate Mode Renderer (AMD, Nvidia) und Tile-Based Deferred Renderer (ARM, Imagination, Qualcomm).
Da gibt es auch große Unterschiede wie das Front-End arbeitet und wie Objekte erzeugt werden, wo gespeichert und wann verworfen.
Soweit ich es mitbekommen habe, ist Nvidia mit Maxwell den ersten Schritt gegangen einen Hybriden zu bauen, Pascal setzt hier vielleicht auf und erweitert das ganze.
Bei Maxwell hat Nvidia die Informationen übrigens nicht offengelegt, ein Intel Mitarbeiter hat die Tatsache auf Twitter geteilt:
Aras Pranckevičius auf Twitter: "@AndrewLauritzen Hmm. Which part of Maxwell is that? I probably haven't been following the scene lately."
 
@FortuneHunter
Ursprünglich dachte ich ja auch, die GTX 1080Ti würde nach der Pascal Titan [?] mit 16.GB HBM2, ebenfalls mit 8.GB HBM2 kommen. Aber wie ja immer und immer wieder in der letzten Zeit auf den verschiedensten PC-Online Portalen an Gerüchten zu lesen war, soll die GTX 1080 wie auch die GTX 1080Ti Anfang Juni Released werden und Mitte Juni dann die GTX 1070. Das Gerücht hält sich so hartnäckig und wurde eigentlich auch so von allen PC-Online Portalen kolportiert, das man fast geneigt ist dies auch zu glauben.

Was das ganze noch verstärkt ist ja das Gerücht, das die GTX 1070 / 1080 wie auch die GTX 1080Ti alle den GP104 nutzen sollen. Der GP100 soll ja nur dem Profimarkt vorbehalten sein, und auf der Tesla P100 zum Einsatz kommen. Ich frage mich natürlich dann, welcher GPU Chip auf dem Big Pascal eingesetzt wird, ist das dann der ominöse GP102, von dem man noch so wenig weiß ?

Nur weil alle das selbe berichten muss es nicht glaubhafter sein als wenn so gut wie keiner darüber berichtet. Am Ende bleibt es ein Gerücht aus Reddit oder einem anderen Forum und alle Seiten springen auf den Zug auf und berichten darüber weil man irgendwie mit seiner Seite Geld verdienen muss. Selbst die uminöse Tabelle zur X70 und X80 konnte man auf allen Seiten finden und da haben die Daten in der Tabelle keinen Sinn gemacht. Das Gerücht basiert wahrscheinlich auch wieder auf Wunschdenken das direkt am Anfang ein "großer" Pascal für Spieler in Form der 1080ti geworfen wird und man nicht noch bis Anfang nächstes Jahr warten muss. Wahrscheinlicher ist aber das bisherige Vorgehen das man den kleinen Chip rausbringt als Vollsausbau/teilweise beschnitten (Resteverwertung) und sich somit die Ober- und Mittelklasse sichert. Dann kommt AMD mit Polaris und greift sich erstmal die Einsteigerklasse und je nachdem wie die Leistung ist vielleicht auch die Mittelklasse. Wahrscheinlich kommt dann irgendwas kleines von Nvidia für die Einsteigerklasse und erst Anfang nächstes Jahr kommt dann von beiden der große Chip.
 
Pascal geht nicht .. der springt !!!

Die 980Ti hat 8 Milliarden Transistoren (28nm pro Schalter), verbaut auf 600mm². Wie groß müsste wohl eine Wand mit 8.000.000.000 Lichtschaltern sein ? ... Ein wirklich schlechter Vergleich ... Nvidia braucht dafür knappe 2*3cm. Und weil noch soviel Platz da ist passen da noch locker mehrere Steuerungs sowie Speichereinheiten (https://schwerpunktec.files.wordpress.com/2011/12/bildschirmfoto-2009-11-28-um-16-50-32.png .. ja das Bild ist alt) hinein. Ich hatte zwar nie eine 980ti aber die Leute mit der Karte waren wohl Sprachlos .. kennt wer ein negatives Review .. oder ne schlechte Kritik ? ... Sone sche** Karte für soviel Geld und mir friert der Lüfter ein obwohl ich die neusten Zocks auf 4k zocke .... Das Spiel läuft bestimmt auch auf 8k aber mein Monitor kann das nicht! nie wieder Nvidia!

Die 1080Ti hat 15,3 Milliarden Transistoren (16nm ... echt 1 Schalter ist 0,000000016m groß! WOW). Das sind fast doppelt soviele Schalter auf der gleichen Wand (siehe oben). Nicht die GPU ist hier der Star sondern die Vertigung solcher GPUs in Masse!

So übern Bauer*Daumen+π kann mann sagen das auf gleichem raum eine verdoppelung der Leistung vorliegt. Fakt: GDDR5X schaufelt schlappe 340GB pro sekunde damit die GPU was zum Rechnen hat. Die neuen Spitzenmodelle werden mit HBM2 Speicher bestückt (*ich runde einfach mal auf .. *) hier können bis zu 1000GB pro sekunde ... ich sag mal ... tröpfeln. Diese Daten werden eingelesen, berechnet (muss Lachen .. stelle mir gerade eine TextAufgabe vor *G ), sicher stellen das die berechnung (MEGAROFL Textaufgabe) korekkt sind und werden dann an den Speicher zurück gesendet .. aber flott denn in 1 Sekunde kommt das nächste Datenpacket (noch son Brüller .. Packet .. Post .. Lieferzeit .. egal ^^)!

Fazit: Maxwell (die 900 Serie) war ne scheibe Brot die satt macht...ne richtig dicke Scheibe. Die neue TI ist quasi technisch in der Lage sich doppelt soviel Butter oder Nutella auf diese Scheibe Brot zu schmieren so ca. This is not a part of Maxwell it is the next step. AMD baut gute Karten für nen super Preis .. auf den Top Modellen laufen auch die top Spiele, keine Frage ... deren Selbsthilfegruppe wird Jahre brauchen um das zu verarbeiten.

Das wird nen Knaller !!!!! versprochen !!!


Nvidia will release mainstream GP16 GPUs later this year Release der einzelnen Modelle. Die Titan Modelle bekommen 32GB Speicher ansonsten sind sie baugleich.
 
Zuletzt bearbeitet:
Ich vermute mal das alle neuen Karten es zumindest unterstutzen. Die neue Titen soll sogar 1792 FP64 CUDA CORES besitzen ... ob es Sinn macht .. keine Ahnung .. es bringt keine Nachteile und keinen Nutzen. Aber in der Preisklasse sind derartige Möglichkeiten ganz und garnicht gerechtfertigt. Und fals es wirklich stimmen sollte und das Verhältnis 1/2 ist .. also selbst wenn es 1/10 .... es wird sich zeigen. Aber die Grafischenvorteile die ein FP64 code bringen würde könnten wir mit unserem Auge garnicht erfassen oder doch P)
 
Frech wie ich ja bin, sage ich die 1070 mit GDDR5 kannste haken u die 1080 mit GDDR5X ist schonmal ein Anfang aber hier geht es erst los. Die 1080 Ti und die darauf folgende TitanX2 mit HBM2 ist das wahre Monster.
Ich habe mich für eine 2018 Titan entschieden in der Hoffnung auf 32 Gb HBM2.
Meine 980Ti muss weiterhin 2 Jahre halten.
Lieber spare ich etwas u warte bis die neue Technik HBM2 hat u ausgereifter ist.
Ausserdem hat AMD auch noch etwas in der Schublade und könnte ebenso in meine engere Wahl kommen.
 
Zuletzt bearbeitet:
Die 1080Ti hat 15,3 Milliarden Transistoren (16nm ... echt 1 Schalter ist 0,000000016m groß! WOW).

Die "16nm" sind ein Name der Fertigung, keine tatsächliche Größe. Die tatsächlichen Strukturen sind sehr viel größer.
Bei der 16nm-Fertigung von TSMC ist ein Transistorgate alleine 90 nm lang - ein ganzer "Schalter" wie dus nennst hat die Größe von 0,7 µm^2 (SRAM-Zelle - MIKROmeter, nicht NANOmeter ;-)).
Übrigens ist die (schon länger kaufbare) Fertigung von Samsung (84/0,645) und die von Intel (70/0,588) der neuen TSMC rein was die Strukturgröße angeht lange überlegen.

Manchmal würde es wirklich helfen ein klein wenig selbst unabhängig nachzulesen statt nur Werbeparolen nachzuplappern. Ist ja nicht so dass es irgendwie geheim wäre dass die Nanometerangaben bei den prozessen nicht das Geringste mit echten Größen zu tun haben.
 
Zuletzt bearbeitet:
Ach ja, PCI-Express 4.0 sollte 2017/2018 dann auch schon aktualisiert sein, dann hat man wenigstens auch etwas von der doppelten Bandbreite :)
 
Das wird denke ich noch ne Spur länger dauern. Selbst Skylake-E wird noch mit PCIe3.0 erscheinen nach aktuellem Stand, wies bei der Zen-Plattform aussieht weiß ich nicht. Vor 2018 würde ich nicht mit einer Einführung rechnen, bis das flächendeckender verbreitet ist wirds eher 2020... macht aber nichts der Vorteil davon ist mal von einigen speziellen Fällen (extremes Multi-GPU oder zig schnelle Datenträger/GPGPU) ohnehin Null.

Der Performanceunterschied eines normalen Spiele-PCs zwischen PCIE2 und 3 ist so winzig, dass der von 3 auf 4 nicht mal merklich sein dürfte.
 
Zurück