ROG Radeon RX Vega Strix: Auslieferung bis Jahresende geplant

Ähm... dir sind die Besonderheiten der GV100 aber schon bekannt?
Bei GV100 gibt es 32 "thread warps" - Warteschlangen - mit eigenem Scheduler. Dazu kommt noch, dass die Tensor Kerne auch FP32 Matrix Multiplikation beherrschen.
Beides dürfte für einen Großteil der verbesserten Rechenleistung verantwortlich sein.
Nein, falsch. Was für die höhere FP32-Leistung verantwortlich ist, habe ich bereits geschrieben. Das hat weder etwas mit Tensor Cores, noch mit Matrix Multiplikation zu tun.

Denn Seit diversen Jahren gibt es bei IPC für "normale" FP 32 Rechenwerke keine Verbesserungen mehr. Es geht lediglich noch über den "Uncore" und spezialisierte Rechenwerke für Sonderfunktionen - wie eben Tensor Kerne.
Wie sagt man doch so schön? Wenn man keine Ahnung hat... :lol:

Zitat aus dem Volta-Whitepaper:
New Streaming Multiprocessor (SM) Architecture Optimized for Deep Learning Volta features a major new redesign of the SM processor architecture that is at the center of the GPU. The new Volta SM is 50% more energy efficient than the previous generation Pascal design, enabling major boosts in FP32 and FP64 performance in the same power envelope.

IPC hat übrigens gar nichts mit Perf/Watt zu tun. Hier solltest du dir dringend nochmal ein paar Grundlagen anlesen, bevor du dich weiterhin mit Unwissen blamierst.
 
Nein, falsch. Was für die höhere FP32-Leistung verantwortlich ist, habe ich bereits geschrieben. Das hat weder etwas mit Tensor Cores, noch mit Matrix Multiplikation zu tun.


Wie sagt man doch so schön? Wenn man keine Ahnung hat... :lol:

Zitat aus dem Volta-Whitepaper:


IPC hat übrigens gar nichts mit Perf/Watt zu tun. Hier solltest du dir dringend nochmal ein paar Grundlagen anlesen, bevor du dich weiterhin mit Unwissen blamierst.

Ernsthaft jetzt?
Hast du dir jemals eine Volta SM angesehen?
In einer Volta SM sind folgende Bestandteile:

Level 0 cache
Level 1 cache
Scheduler für 32 waves
Dispatcher für 32 waves
Tensor cores
FP32 cores
FP64 cores
Integer cores

https://images.anandtech.com/doci/11367/volta_sm.png

Das hat ja so gar nichts mit der gesteigerten Rechenleistung zu tun... mhm...
Darf ich dich zitieren?

Wie sagt man doch so schön? Wenn man keine Ahnung hat... :lol:

Edit: fehlende Teile der SM ergänzt.
Typos korrigiert
 
Tolles Beispiel, dann nimm zehn andere Beispiele und es sind 20+ %.
GTX 1080 Ti: Benchmarks, auch mit Overclocking

Sind sogar "nur" 2000MHz Chip

Willst du mir ernsthaft vorwerfen, dass ich alle Werte von TH genommen habe, damit die Ergebnisse unter möglichst ähnlichen Bedingungen entstanden sind?
Da wurde eben nur Witcher 3 als Beispiel angeführt.

Siehe mein Link und ich meinte die Vega Air, die man locker auf 400W bekommt.

Unter Wasser? Denn unter Luft scheint sie bei 290-300 W ins Temp-Limit zu laufen. Und dann ist es erst wieder wie bei einer Vega64 Liquid, denn die ist bei 400 W abgeriegelt.
 
Will dir doch gar nichts vorwerfen ;) ! Nur aufzeigen, das The Witcher eher die Ausnahme ist! Bei 2100MHz und Speicher OC sind 25% eher die Regel. Das läuft nur darauf hinaus, das die 1080TI bei Vega Verbrauch mal fast 50% schneller sein kann.

Wie ich darauf komme. Vega 64 liegt vielleicht demnächst durchschnittlich auf GTX1080 Niveau, aktuell ja noch leicht darunter, aber gehen wir ruhig von der 1080 aus. Die 1080TI FE ist 23%schneller, als die 1080 FE. 123% x 125% = 153%

ZU TH, die machen tolle Tests, aber die Spieleauswahl und OC Tests, oder die Spiele Verbrauchsmessungen finde ich nicht glücklich gewählt. Technisch natürlich die absolute Spitzenklasse, aber für mich nicht inhaltlich.

Mich interessiert beim Verbrauch nicht ein Mittelmaß, sondern der Extremfall, das ist die Messlatte, für meine Auslegung von Kühlung und Netzteil zum Beispiel.
Der OC Test bewusst in einem Spiel, was warum auch immer Limitiert und dann noch GPU Limit dran schreiben, naja...

Und natürlich geht nichts davon gegen dich, warum auch :)
 
Das hat ja so gar nichts mit der gesteigerten Rechenleistung zu tun... mhm...
Darf ich dich zitieren?
Hast du dir das Zitat von NVIDIA, das ich geliefert habe, überhaupt mal durchgelesen?

Frage an dich: Was genau hat die Effizienz der FP32-Berechnungen mit dem UnCore zu tun? Und glaubst du wirklich, man könnte 50% höhere Perf/Watt erreichen, nur weil man im UnCore die Auslastung verbessert? Nicht dein Ernst, oder?

Um es mal klar zu sagen: Deiner Theorie nach liegen bei einem Pascalchip immer 33,3% der Shaderrechenleistung brach, weil die Sheduler nicht in der Lage sind die SMs mit Daten zu versorgen. Das ist doch einfach völliger Blödsinn, sowas zu behaupten :lol:
 
Hast du dir das Zitat von NVIDIA, das ich geliefert habe, überhaupt mal durchgelesen?

Frage an dich: Was genau hat die Effizienz der FP32-Berechnungen mit dem UnCore zu tun? Und glaubst du wirklich, man könnte 50% höhere Perf/Watt erreichen, nur weil man im UnCore die Auslastung verbessert? Nicht dein Ernst, oder?

Um es mal klar zu sagen: Deiner Theorie nach liegen bei einem Pascalchip immer 33,3% der Shaderrechenleistung brach, weil die Sheduler nicht in der Lage sind die SMs mit Daten zu versorgen. Das ist doch einfach völliger Blödsinn, sowas zu behaupten :lol:

Schön, wie du den gesamten Rest vollkommen ignorierst und dich plötzlich an den IPC festbeißt...

Wie ich hauptsächlich sagte, liegt der Leistungssprung an den neuen Kernen in den SM und dem Uncore - wie Scheduler und Cache etc.

Dennoch hat sich die IPC pro FP Kern (ausgenommen Tensor, weil die spezialisiert und neu sind) seit Jahren nicht geändert.
Nur deswegen kann man die Rechenleistung ja so leicht berechnen.
Die einzige, wirkliche, Steigerung ist nur durch die Tensor Kerne, die Integer Kerne und den Uncore möglich - sofern man nicht schlicht an der Zahl der SMs und / oder dem Takt schraubt.

Der von dir so schön hervorgehobene Teil des Zitats bezieht sich explizit auf eine komplette SM - inklusive aller neuen Kerne (Was Tensor und Integer Kerne mit einschließt), Scheduler und Cache.

Daher sehe ich noch immer nicht, wie Du auf eine so unglaubliche Verbesserung für den Markt der Endkunden kommst.
 
Schön, wie du den gesamten Rest vollkommen ignorierst und dich plötzlich an den IPC festbeißt....
Och Junge, lern doch bitte lesen:
IPC hat übrigens gar nichts mit Perf/Watt zu tun. Hier solltest du dir dringend nochmal ein paar Grundlagen anlesen, bevor du dich weiterhin mit Unwissen blamierst.

Also für dich nochmal:
Perf/Watt != IPC

Wie ich hauptsächlich sagte, liegt der Leistungssprung an den neuen Kernen in den SM und dem Uncore - wie Scheduler und Cache etc.
Ok, deiner Behauptung nach sind die Shadercores bei Pascal aktuell nur zu nicht mal 70% ausgelastet, nehmen aber trotzdem 100% Leistung auf. Das ergibt natürlich total Sinn. Nicht.

Dass NVIDIA selbst sagt, dass die Shaderprozessoren neu sind und 50% höhere Perf/Watt haben, ignorierst du einfach völlig.

Ach so und erkläre doch mal bitte kurz, welchen Anteil die Tensorcores an der FP32/FP64-Performance haben. Deine Behauptung nach liegt es ja an den neuen Kernen.

Dennoch hat sich die IPC pro FP Kern (ausgenommen Tensor, weil die spezialisiert und neu sind) seit Jahren nicht geändert.
*facepalm*

Soll ich es wirklich zum Fünften mal schreiben? Nein, lies es bitte nach. Ich schrieb nie etwas von IPC. Nur von Perf/Watt. Und das hat mit IPC gar nichts zu tun.

Der von dir so schön hervorgehobene Teil des Zitats bezieht sich explizit auf eine komplette SM - inklusive aller neuen Kerne (Was Tensor und Integer Kerne mit einschließt), Scheduler und Cache.
Nein, bezieht sie sich ja gerade nicht. Weil es ja nicht heißt, dass die neue SM generell 50% effizienter ist - sondern dass sie es bei FP32/FP64-Berechnungen ist. Und das schließt sowohl TensorCores, als auch Sheduler, als auch Caches aus. Wenn man verstehen würde, was da steht. Aber lieber liest man es erst nicht, versteht es dann nicht und blamiert sich dann hier im Forum, in dem man behauptet Volta sein nur ein "Refresh".

Genau, NVIDIA braucht knapp zwei Jahre, für einen Refresh, total realistisch. Nicht :lol:

Daher sehe ich noch immer nicht, wie Du auf eine so unglaubliche Verbesserung für den Markt der Endkunden kommst.
Warte doch einfach ab. Im Frühjahr darfst du mir dann Recht geben, wenn du das Rückgrat dazu hast :daumen:

Und bis dahin schreibst du bitte 100x "Ich kenne den Unterschied zwischen IPC und Perf/Watt nicht" :lol:
 
Och Junge, lern doch bitte lesen:


Also für dich nochmal:
{size=5]Perf/Watt != IPC[/size]


Ok, deiner Behauptung nach sind die Shadercores bei Pascal aktuell nur zu nicht mal 70% ausgelastet, nehmen aber trotzdem 100% Leistung auf. Das ergibt natürlich total Sinn. Nicht.

Dass NVIDIA selbst sagt, dass die Shaderprozessoren neu sind und 50% höhere Perf/Watt haben, ignorierst du einfach völlig.

Ach so und erkläre doch mal bitte kurz, welchen Anteil die Tensorcores an der FP32/FP64-Performance haben. Deine Behauptung nach liegt es ja an den neuen Kernen.


*facepalm*

Soll ich es wirklich zum Fünften mal schreiben? Nein, lies es bitte nach. Ich schrieb nie etwas von IPC. Nur von Perf/Watt. Und das hat mit IPC gar nichts zu tun.


Nein, bezieht sie sich ja gerade nicht. Weil es ja nicht heißt, dass die neue SM generell 50% effizienter ist - sondern dass sie es bei FP32/FP64-Berechnungen ist. Und das schließt sowohl TensorCores, als auch Sheduler, als auch Caches aus. Wenn man verstehen würde, was da steht. Aber lieber liest man es erst nicht, versteht es dann nicht und blamiert sich dann hier im Forum, in dem man behauptet Volta sein nur ein "Refresh".

Genau, NVIDIA braucht knapp zwei Jahre, für einen Refresh, total realistisch. Nicht :lol:


Warte doch einfach ab. Im Frühjahr darfst du mir dann Recht geben, wenn du das Rückgrat dazu hast :daumen:

Und bis dahin schreibst du bitte 100x "Ich kenne den Unterschied zwischen IPC und Perf/Watt nicht" :lol:

Kurz zusammengefasst:

FP32 Berechnungen schließen natürlich die Scheduler, Cache und die Tensor Cores ein, da sie FP32 Matritzen Berechnungen verarbeiten können.
Und mit einem Scheduler, der vollkommen unabhängig jeden einzelnen der 32 Threads in einer Wave neu zuordnen / neue Daten zuführen kann, oder ob er warten muss, bis die 32 Threads durch sind.
Eine höhere Cache Größe / optimierter Cache reduziert die Notwendigkeit, Daten aus dem L2, oder gar dem RAM zu holen.
Das spart Energie.
Eine höhere IPC erhöht natürlich die performance / Watt - dann braucht es weniger Takt und somit weniger Energie, um die gleiche Rechenleistung zu bekommen.
 
FP32 Berechnungen schließen natürlich die Scheduler, Cache und die Tensor Cores ein, da sie FP32 Matritzen Berechnungen verarbeiten können.
:lol:

Kann man sich nicht ausdenken, den Schrott, den du schreibst.

Wer macht eigentlich diese FP32 Matritzen Berechnungen? Die FP32 oder die Tensor Cores? :lol:

Und mit einem Scheduler, der vollkommen unabhängig jeden einzelnen der 32 Threads in einer Wave neu zuordnen / neue Daten zuführen kann, oder ob er warten muss, bis die 32 Threads durch sind.
Eine höhere Cache Größe / optimierter Cache reduziert die Notwendigkeit, Daten aus dem L2, oder gar dem RAM zu holen.
Das spart Energie.
Das würde also bedeuten, dass die heutigen Pascal-Shader nur zu nicht mal 70% ausgelastet sind, ohne diese Auslastung dennoch Energie aufnehmen und nur durch ein neues Sheduling 50% höhere Perf/Watt heraus zu holen ist.

Bitte mit Ja oder Nein antworten, ob dies tatsächlich deine Behauptung sein soll.

Eine höhere IPC erhöht natürlich die performance / Watt - dann braucht es weniger Takt und somit weniger Energie, um die gleiche Rechenleistung zu bekommen.
Nö, IPC und Perf/Watt haben nichts miteinander zu tun.

Generell ist IPC bei Grafikkarten einfach Blödsinn, weil der Wert einfach 2 ist. Dennoch willst du doch nicht ernsthaft behaupten, dass trotz identischer IPC der letzten drei Generationen Grafikkarten, die Perf/Watt immer noch identisch ist, oder?

Und: Eine höhere IPC kann dennoch zu einer schlechteren Effizienz führen. Ist natürlich nicht zielführend, aber eine höhere IPC ist eigentlich immer nur durch ein kompliziertes Chipdesign möglich und dies führt natürlich zu einer höheren Leistungaufnahme und somit zu weniger Effizienz.
 
:lol:

Kann man sich nicht ausdenken, den Schrott, den du schreibst.

Wer macht eigentlich diese FP32 Matritzen Berechnungen? Die FP32 oder die Tensor Cores? :lol:


Das würde also bedeuten, dass die heutigen Pascal-Shader nur zu nicht mal 70% ausgelastet sind, ohne diese Auslastung dennoch Energie aufnehmen und nur durch ein neues Sheduling 50% höhere Perf/Watt heraus zu holen ist.

Bitte mit Ja oder Nein antworten, ob dies tatsächlich deine Behauptung sein soll.


Nö, IPC und Perf/Watt haben nichts miteinander zu tun.

Generell ist IPC bei Grafikkarten einfach Blödsinn, weil der Wert einfach 2 ist. Dennoch willst du doch nicht ernsthaft behaupten, dass trotz identischer IPC der letzten drei Generationen Grafikkarten, die Perf/Watt immer noch identisch ist, oder?

Und: Eine höhere IPC kann dennoch zu einer schlechteren Effizienz führen. Ist natürlich nicht zielführend, aber eine höhere IPC ist eigentlich immer nur durch ein kompliziertes Chipdesign möglich und dies führt natürlich zu einer höheren Leistungaufnahme und somit zu weniger Effizienz.

Ich weiß nicht, ob Du das White Paper wirklich gelesen hast.
Denn ab Seite 11 steht ziemlich explizit, welche Verbesserungen zur höheren FP32 Performance / Watt führen.
Dazu gehören explizit Änderungen am Cache und der Partitionierung der Kerne - auch die Fähigkeit, per Tensor Kerne Matrix Multiplikationen durchzuführen.
Die neue Flexibilität durch den Scheduler und die Fähigkeit, den Tensor Kernen FP32 Matritzen zu füttern, bringen da ziemlich viel.
Außerdem stellt Nvidia auf Seite 17 dar, wie die Änderungen am L1 Cache einen deutlichen Performance Sprung bewirken.
Da sind dann noch nicht mal die von Nvidia erwähnte Verbesserung der Bandbreite und Energieeinsparung durch HBM2 drin.
Auch nicht der deutlich kleinteiligeren Zugriff auf den HBM2 Speicher dank NVLink2

All das spielt ja bei der Performance / Watt mit rein. Wenn es an einer Stelle hakt, kann die SM nur nutzlos Taktzyklen verbraten.
 
Ich weiß nicht, ob Du das White Paper wirklich gelesen hast.
Denn ab Seite 11 steht ziemlich explizit, welche Verbesserungen zur höheren FP32 Performance / Watt führen.
Nein, stehen sie da nicht. Es steht nur der entscheidende Punkt:
50% higher energy efficiency on general compute workloads
Das können sie auch gar nicht erläutern, weil dazu jedem - außer NVIDIA - das Wissen für fehlt.

Dazu gehören explizit Änderungen am Cache und der Partitionierung der Kerne - auch die Fähigkeit, per Tensor Kerne Matrix Multiplikationen durchzuführen.
Nein, nein, nein und nochmals nein. LIES BITTE ENDLICH!

Oben steht es für ganz dumme sogar noch explizit drin: " general compute workloads". Das hat NICHTS (!) mit Matrizen zu tun!

Die neue Flexibilität durch den Scheduler und die Fähigkeit, den Tensor Kernen FP32 Matritzen zu füttern, bringen da ziemlich viel.
Nein, immer noch nicht.

Außerdem stellt Nvidia auf Seite 17 dar, wie die Änderungen am L1 Cache einen deutlichen Performance Sprung bewirken.
Auch hier wieder: Du hast gar nicht verstanden, was da steht. Performancesprung != Perf/Watt

Daneben führt NVIDIA die L1 Cache Verbesserungen als zusätzlichen Punkt neben der Steigerung in Perf/Watt auf. Das heißt, anders als hier von dir suggeriert, hat dieser Punkt mit der Perf/Watt Steigerung gar nichts zu tun.

Da sind dann noch nicht mal die von Nvidia erwähnte Verbesserung der Bandbreite und Energieeinsparung durch HBM2 drin.
Auch nicht der deutlich kleinteiligeren Zugriff auf den HBM2 Speicher dank NVLink2
Bullshit, hat nichts mit der Energieffizienz der SMs zu tun.

All das spielt ja bei der Performance / Watt mit rein. Wenn es an einer Stelle hakt, kann die SM nur nutzlos Taktzyklen verbraten.
Ok, ich sehe das hiermit als deine Antwort auf meiner Frage aus dem letzten Posting, dass du tatsächlich glaubst, bei Pascal wären über 70% der Shaderleistung nutzlos am Leistung verbraten, weil Sheduler, Cache und Uncore zu langsam ist.

Damit können wir die Diskussion beenden, denn das ist einfach Bullshit.

Ich freu mich schon auf die Volta-Präsentation und werde dir genüsslich die Postings hier unter die Nase reiben. Viel Spaß! :daumen:
 
Nein, stehen sie da nicht. Es steht nur der entscheidende Punkt:

Das können sie auch gar nicht erläutern, weil dazu jedem - außer NVIDIA - das Wissen für fehlt.


Nein, nein, nein und nochmals nein. LIES BITTE ENDLICH!

Oben steht es für ganz dumme sogar noch explizit drin: " general compute workloads". Das hat NICHTS (!) mit Matrizen zu tun!


Nein, immer noch nicht.


Auch hier wieder: Du hast gar nicht verstanden, was da steht. Performancesprung != Perf/Watt

Daneben führt NVIDIA die L1 Cache Verbesserungen als zusätzlichen Punkt neben der Steigerung in Perf/Watt auf. Das heißt, anders als hier von dir suggeriert, hat dieser Punkt mit der Perf/Watt Steigerung gar nichts zu tun.


Bullshit, hat nichts mit der Energieffizienz der SMs zu tun.


Ok, ich sehe das hiermit als deine Antwort auf meiner Frage aus dem letzten Posting, dass du tatsächlich glaubst, bei Pascal wären über 70% der Shaderleistung nutzlos am Leistung verbraten, weil Sheduler, Cache und Uncore zu langsam ist.

Damit können wir die Diskussion beenden, denn das ist einfach Bullshit.

Ich freu mich schon auf die Volta-Präsentation und werde dir genüsslich die Postings hier unter die Nase reiben. Viel Spaß! :daumen:

Interessant, was Du nicht so alles in meine und Nvidias Worte reininterpretierst.
Da darf ich also keine einzige Matrix in meinen "General Compute" Berechnungen haben - ziemlicher Mist aber auch...
Glaubst Du doch selbst nicht.
 
Na ja, im Leistungsvergleich wird eine Ref TI mit der Vega 64 verglichen, die dann gute 20% schneller ist, als die Vega 64.

Dazu hatte PCGH doch getestet, das die Vega je nach Spiel bis zu 345W verbrät und die Ti 235W.
Es geht aber eher weniger um die Stromkosten!

Ich verfolge auch mittlerweile einen anderen Weg. Mein I7 läuft mit undervolting@4,3GHz (vielleicht Köpfe ich den nochmal und dann lasse ich den mit mini UV bei 4,5GHz laufen) unter einem Noctua L9i und die GTX1070 FE läuft mit undervolting, mit 1936 bis 198x MHz (Speicher 4600MHz), innerhalb ihrer maximal möglichen 168W, für die gesamte Karte ;)

Mein Ziel ist immer nur eine Optimierung, also mehr Takt, bei weniger Spannung, oder max Stock Spannung. Lässt sich auch viel besser kompakt kühlen und leiser ... Einen Unterschied zwischen 1936/4600 und 2100/4600 MHz wird auch keiner sehen können.

Leute bitte nicht einfach nur blind eine Grafik anschauen, es sind effektiv 35% im GPU Limit (laut CB), bei PCGH ist es ein Index aus 3 Auflösungen (oder mittlerweile sogar 4?) und eine 1080 ti läuft einem in Full HD mit den von PCGH ausgewählten Einstellungen eigentlich stets ins CPU Limit, daher ist sie nun mal in Full HD dann nur auf dem Level einer 1080/Vega, da die CPU schlicht limitiert. PCGH hat die in einzelne Auflösung gestaffelten Ranglisten leider nur im Heft und nicht auf der Website.
 
Leute bitte nicht einfach nur blind eine Grafik anschauen, es sind effektiv 35% im GPU Limit (laut CB), bei PCGH ist es ein Index aus 3 Auflösungen (oder mittlerweile sogar 4?) und eine 1080 ti läuft einem in Full HD mit den von PCGH ausgewählten Einstellungen eigentlich stets ins CPU Limit, daher ist sie nun mal in Full HD dann nur auf dem Level einer 1080/Vega, da die CPU schlicht limitiert. PCGH hat die in einzelne Auflösung gestaffelten Ranglisten leider nur im Heft und nicht auf der Website.

Bin mir nicht sicher, was du mitteilen möchtest;)
Keiner hat blind irgendwas genommen, oder sonst wie. Aber est mal den Dicken makieren (nicht böse gemeint). Ja, rein nach den Ranglisten (wo auch ältere Spiele getestet werden) liegt sogar bei PCGH die Vega 64 bei 74,4 und die 1080TI bei 100, oder nur knapp darunter. Das sind auch gute 30%. Das CPU Limit greift nicht immer, in FullHD. Aber du hast schon recht. Wenn du aber weiter gelesen hast und davor auch, ist dir auch klar, das es dar gar nicht so genau drum ging ;)
Desweiteren, liefert die Vega 64 in den letzten Spielen auch ein durchschnittlich besseres Ergebnis, wie noch bei Releasetests. Später habe ich auch noch darauf hingewiesen, das eine Custom 1080TI auch mal gut 50% vor der Vega 64 liegen kann, bei vergleichbarem Verbrauch.

Brauchst dich und deine TI also nicht angegriffen fühlen ;)
 
Zurück