Nvidia Turing: Erstmals auf der Hot Chips ein Thema?

Locuza · 31. Mai 2018

@ Matty

Wobei das nicht wirklich ein Erklärungsversuch ist, sondern wirklich nur Rumgerate ins Blaue.

matty2580 · 31. Mai 2018

Na klar, ich habe ja auch nicht Chip-Design studiert.

Es fällt aber auch auf, dass vom Grundaufbau her Vega wie Fiji aussieht.
Polaris dagegen ist deutlich anders aufgebaut, und hat mit Fiji wenig gemeinsam.

Locuza · 1. Juni 2018

Bezüglich des Grundaufbaus meinst du die Einheitenbalance bezüglich des Front-Ends mit den Geometrie- und Raster-Engines, wie viele CUs das Shader-Array besitzt und wie viele ROPs beim Pixel-Backend vorzufinden sind, weil von der Mikroarchitektur selber hat sich grundlegend kaum etwas verändert bzw. ist evolutionär immer etwas besser geworden.
Die Einheitenbalance hat aber nur bezüglich der möglichen Skalierung etwas mit der Mikroarchitektur zu tun.

AMD kann auch einfach einen Vega mit 4 Shader-Engines, weniger CUs und nur 32 ROPs wie bei Polaris10 bauen.
Das würde prinzipiell auch besser skalieren, als ein fetter Vega10, weil die Leerphasen im Schnitt geringer wären, da weniger CUs gefüttert werden müssten.

matty2580 · 1. Juni 2018

Das hatte Leo noch vor dem Release von Vega geschrieben:

Leonidas schrieb:
Denn durch die (durch AMD höchstselbst) vorgenommenen Einträge kann man nunmehr sicher sagen, das der Vega-10-Chip mit 4 Raster-Engines (und dort jeweils einer Geometrie-Engine), 16 Shader-Clustern pro Raster-Engine und 4 ROPs pro Raster-Engine antreten wird (ergibt dann 64 ROPs für den gesamten Grafikchip). Vega 10 sieht somit (auch) in diesen Punkten exakt so wie Fiji aus – so daß das teilweise eingesetzte geflügelte Wort von "Fiji done right" hier tatsächlich sogar auf alle hauptsächlichen Hardware-Details zutrifft.......Überraschend kommen diese Daten natürlich nicht, man ist auch bisher schon von exakt diesen Daten ausgegangen – aber eine Bestätigung anstelle einer Vermutung zu setzen, ist dann immer noch ein gewisser Unterschied. Offen bleibt somit (theoretisch) nur noch die Anzahl der Textureneinheiten – aber es wäre ein mittleres Wunder, wenn AMD hierbei das Verhältnis von 1:16 zwischen Shader- und Textureeinheiten verläßt und der Vega-10-Chip somit auf etwas anderes als 256 TMUs kommt.....Damit sehen sich Fiji und Vega 10 – bis auf das Speicherinterface – zum Verwechseln ähnlich, wobei selbst das Speicherinterface in dem Sinne gleich ist: HBM1 endet bei 500 MHz, während HBM2 bis zu 1000 MHz Speichertakt ermöglicht – sprich, der höhere Speichertakt kann hierbei die Halbierung des Speicherinterfaces bei Vega 10 wieder ausgleichen. Eingerechnet diesen Punkt sind die Rohleistung von Fiji und Vega 10 taktnormiert (bezogen rein auf den Chiptakt) sogar absolut identisch – womit Vega 10 dazu gezwungen wird, eine etwaige (bzw. zu erwartende) Mehrleistung allein über höhere Taktraten oder/und Zugewinne in der Recheneffizienz pro Takt zu generieren. Und dies wird kein einfaches Brot für Vega 10, denn am Ende geht man normalerweise immer den Weg über mehr Hardware-Einheiten, wenn man eine deutliche Mehrperformance erreichen will.

Weitere Details zu AMDs Vega 10 ergeben nahezu vollstandige, bestatigte Hardware-Daten | 3DCenter.org

Und genau das hat der CB-IPC-Test jetzt noch einmal bewiesen, ein Jahr nach Release von Vega, und verbesserten Treibern.

Locuza schrieb:
Das würde prinzipiell auch besser skalieren, als ein fetter Vega10, weil die Leerphasen im Schnitt geringer wären, da weniger CUs gefüttert werden müssten.

Genau, also wurde Vega offensichtlich für andere Bereiche konzipiert, und könnte theoretisch effektiver sein.

Pro_PainKiller · 1. Juni 2018

gaussmath schrieb:
Bei Vega wurde im Vergleich zu Polaris schon einiges aufgebohrt, z.b. die Geometriepipeline. Es ist mir wirklich ein Rätsel, warum das alles nicht gefruchtet hat.

Meine Aluhut Theorie ist, dass die Architektur im letzten Moment noch auf Computing/Mining umgemodelt wurde, um den Absatz zu maximieren. Die Konsequenzen daraus wären interessant, nämlich dass eine optimierte Variante für Gaming bald kommen könnte.

Falsch ... klein AMD wollte mit Vega 'Radeon Instinct' erstmals eine voll & ganz auf HPC-Computing ausgerichtete GPU Architektur mit HBM2 und ECC anbieten, was voll in die Hosen ging, da AMD keine Erfahrung auf diesem Gebiet hat - im Gegensatz zu Nvidia, welche schon seit Anfang 2016 den 'Tesla' P100 mit 16GB HBM2 einsetzten und schon Jahre zuvor eng mit wichtigen Industrie-Partnern, wie IBM (Power8/9), Mellanox (InfiniBand) für den 300 GB/s NVLink Interconnect und allen grossen Player von HPC-Cluster den Grundstein gelegt haben.
>>> Nvidia Tesla – Wikipedia

Radeon Instinct™ MI25 Accelerator | AMD >> State-of-the-art memory technology: 16GB of HBM2 MEMORY with ECC and HIGH BANDWIDTH CACHE CONTROLLER (HBCC) <<

Locuza · 1. Juni 2018

matty2580 schrieb:
Das hatte Leo noch vor dem Release von Vega geschrieben:

Weitere Details zu AMDs Vega 10 ergeben nahezu vollstandige, bestatigte Hardware-Daten | 3DCenter.org

Und genau das hat der CB-IPC-Test jetzt noch einmal bewiesen, ein Jahr nach Release von Vega, und verbesserten Treibern.

Genau, also wurde Vega offensichtlich für andere Bereiche konzipiert, und könnte theoretisch effektiver sein.

Das bezieht sich eben nur auf die Einheitenbalance und vom Grundprinzip hat sich da nichts geändert.
Indem Sinne ist es auch nicht Vega/GCN Gen 5 spezifisch, sondern betrifft jede GCN Generation die AMD jemals spezifiziert und gebaut hat.
Egal ob GCN Gen 1-5 mit Tahiti, Cape Verde, Hawaii, Tonga, Fiji, Polaris10, 11, Vega10, alle Leiden an den grundsätzlichen Skalierungsproblemen.
Je älter die Generation, desto mehr, da AMD im Laufe der Zeit schon Detailverbesserungen angesetzt hat, um die Skalierung zu verbessern.

matty2580 · 1. Juni 2018

Stimmt, aber schon damals hatte Leo dass richtig eingeschätzt, dass Vega nur mehr Leistung durch mehr Takt bekommt.
Und er wusste zu dem Zeitpunkt noch nicht einmal die Anzahl der Textureinheiten.

Bleibt zu hoffen das nach Navi AMD endlich genug Ressourcen für eine neue GPU Architektur hat.
Denn Navi wird mit großer Sicherheit noch auf GCN basieren und keinen MCM-Ansatz haben, wie viele hier hoffen.

hugo-03 · 1. Juni 2018

Pro_PainKiller schrieb:
Falsch ... klein AMD wollte mit Vega 'Radeon Instinct' erstmals eine voll & ganz auf HPC-Computing ausgerichtete GPU Architektur mit HBM2 und ECC anbieten, was voll in die Hosen ging, da AMD keine Erfahrung auf diesem Gebiet hat - im Gegensatz zu Nvidia, welche schon seit Anfang 2016 den 'Tesla' P100 mit 16GB HBM2 einsetzten und schon Jahre zuvor eng mit wichtigen Industrie-Partnern, wie IBM (Power8/9), Mellanox (InfiniBand) für den 300 GB/s NVLink Interconnect und allen grossen Player von HPC-Cluster den Grundstein gelegt haben.
>>> Nvidia Tesla – Wikipedia

Radeon Instinct™ MI25 Accelerator | AMD >> State-of-the-art memory technology: 16GB of HBM2 MEMORY with ECC and HIGH BANDWIDTH CACHE CONTROLLER (HBCC) <<

So fehlerfrei ist Nvidia anscheid ja auch nicht !? Nvidia Titan V: Angeblich mit Rechenfehler in wissenschaftlichen Anwendungen

Locuza · 1. Juni 2018

@Matty

Du unterschlägst aber den zweiten Teil:

womit Vega 10 dazu gezwungen wird, eine etwaige (bzw. zu erwartende) Mehrleistung allein über höhere Taktraten oder/und Zugewinne in der Recheneffizienz pro Takt zu generieren.

Und genau das konnte im Vorfeld niemand fundiert abschätzen, wie viel der DSBR, dass L2$ kohärente Pixel-Backend etc. in der Praxis zusätzlich Leistung bringt bzw. es nicht tut.
Und die reine Leistungsverbesserung kommt auch offensichtlich nicht nur rein durch den höheren Takt, ansonsten wäre Vega nicht mehrere Prozent im Schnitt schneller oder gar massiv schneller, wenn Tessellation zum Einsatz kommt.

Man könnte auch einen Artikel bezüglich Skylake schreiben und auf die Schlussfolgerung kommen, dass Skylake wie Sandy-Bridge aussieht, hat 4 Kerne, 8MB L3$, 256KB L2$ pro Kern etc.
Muss wohl kaum schneller sein, oh ne Skylake ist in der Praxis über 20% schneller pro Takt.
Wie ist das nur möglich? Meine oberflächliche Einheitenanalyse ist zu dem Ergebnis gekommen das sich doch nichts verändert hat.

matty2580 · 1. Juni 2018

Bei Intel gab es ja (leider) auch nur über viele Jahre hinweg Minischrittchen bei der IPC, was mehr als oft hier kritisiert wurde, und zum Schluss eigentlich nur noch mehr Leistung durch mehr Cores.

Das würde meine These so gar noch bestätigen.

DSBR und die vielen anderen Änderungen bei Vega haben leider nicht den gewünschten Erfolg gebracht.
Bei Nvidia hat TBR in Kombination mit der Delta Color Compression gut funktioniert.

Das wäre wie, als wenn vom Wechsel von Kepler auf Maxwell die IPC gleich geblieben wäre, und mehr Leistung nur durch mehr Takt entsteht.
Vega hatte bisher die größten Änderungen seit Beginn von GCN.

Locuza · 1. Juni 2018

Intel ist aber am Ende bei über 20% pro Kern und Takt angekommen und hat dafür fast 5 Jahre gebraucht.

AMD war eig. schon mit GCN Gen 4 (Polaris) 7-8% schneller pro Takt als GCN Gen 3, dass GCN Gen 5 (Vega) praktisch den gleichen Vorsprung aufweist, deutet auf irgendeine Änderung hin welche sich negativ auswirkt und dann den Schnitt auf das gleiche Niveau runterzieht.
Anfangs war die Hoffnung noch da, dass AMD im Laufe der Zeit die Treiberbits für den DSBR und die neue ROP-Anbindung usw. optimieren wird und teilweise scheint das auch stattgefunden zu haben, im Schnitt selber wirkt sich das aber kaum aus.
Daher die akademische Frage, wo liegt das Problem mit Vega?

matty2580 · 1. Juni 2018

Wenn du das noch nicht einmal beantworten kannst, mit deutlich mehr Hintergrundwissen, werde ich dass bestimmt nicht können. ^^

Mich erinnert das auch etwas an die vielen Bulldozerdiskussionen.
Bis heute ist ja nicht ganz geklärt, warum die Architektur so versagt hat.

Gast1754557804 · 1. Juni 2018

Tja, AMD wirkt seit einigen Jahren etwas unglücklich. Bulldozer hat auf viele Kerne und wenig IPC gesetzt, während Intel lange auf „nur“ 4C + HT mit hohem Takt gesetzt hat was sich als goldrichtig herausgestellt hat. Seit Ryzen läufts ja bei den CPUs ja wieder

greetz
hrIntelNvidia

yingtao · 1. Juni 2018

Gurdi schrieb:
Oh schon im August....das ist ja früh.
Dafür dass einige hier schon im April mit der neuen Gen gerechnet hatten....

Das eine hat nicht unbedingt etwas mit dem anderen zu tun. Zu Maxwell, Pascal und Volta gab es ähnliche Events nachdem die Karten bereits angekündigt bzw. veröffentlicht wurden. Bei der Vorstellung der Karten wird meist nur kurz und grob erklärt was die neue Architektur anders macht, bei diesen Events geht es aber ins Detail und vor allem auch um die Produktion der Chips. Man darf nicht vergessen wo dieser Vortrag gehalten wird und was die Leute dort wissen wollen und auf der Hot Chips geht es um Chipdesign und Produktion. Wenn man sich die Themen der 3 Vortragstage anguckt sind Grafikchips das kleinste Thema. Es wird viel über Sicherheit, AI und Deep Learning geben und am Rande was zu Grafik und Effizienz für Mobile.

Mango2Go · 1. Juni 2018

Locuza schrieb:
Intel ist aber am Ende bei über 20% pro Kern und Takt angekommen und hat dafür fast 5 Jahre gebraucht.

AMD war eig. schon mit GCN Gen 4 (Polaris) 7-8% schneller pro Takt als GCN Gen 3, dass GCN Gen 5 (Vega) praktisch den gleichen Vorsprung aufweist, deutet auf irgendeine Änderung hin welche sich negativ auswirkt und dann den Schnitt auf das gleiche Niveau runterzieht.
Anfangs war die Hoffnung noch da, dass AMD im Laufe der Zeit die Treiberbits für den DSBR und die neue ROP-Anbindung usw. optimieren wird und teilweise scheint das auch stattgefunden zu haben, im Schnitt selber wirkt sich das aber kaum aus.
Daher die akademische Frage, wo liegt das Problem mit Vega?

Das die Architektur auf zwei Bereiche optimiert ist und nicht nur auf Gaming würde ich mal schätzen.

Pro_PainKiller schrieb:
Falsch ... klein AMD wollte mit Vega 'Radeon Instinct' erstmals eine voll & ganz auf HPC-Computing ausgerichtete GPU Architektur mit HBM2 und ECC anbieten, was voll in die Hosen ging, da AMD keine Erfahrung auf diesem Gebiet hat - im Gegensatz zu Nvidia, welche schon seit Anfang 2016 den 'Tesla' P100 mit 16GB HBM2 einsetzten und schon Jahre zuvor eng mit wichtigen Industrie-Partnern, wie IBM (Power8/9), Mellanox (InfiniBand) für den 300 GB/s NVLink Interconnect und allen grossen Player von HPC-Cluster den Grundstein gelegt haben.
>>> Nvidia Tesla – Wikipedia

Radeon Instinct™ MI25 Accelerator | AMD >> State-of-the-art memory technology: 16GB of HBM2 MEMORY with ECC and HIGH BANDWIDTH CACHE CONTROLLER (HBCC) <<

Die 7nm Instinct ist noch nichtmal raus. Versagt ham sie noch garnicht in diesem Bereich. Da kann sich noch was tun. (Muss zwar nicht aber kann). Vega ist von der Compute-Performance solide. Komm mal wieder runter. Ohne Witz, AMD könnte nen Titan XP Quad-SLI Killer rausbringen und du würdest immernoch meckern weil die Karte nicht grün ist. Änderungen kommen nicht so kurzfristig und es gibt sicher Verträge mit Nvidia die ihnen Abnehmer sichern. Ist bei Intel mit ihren Server-CPUs nicht anders. Kann aber ja sein, dass AMD seinen Fuß in die Tür bekommt mit Vega (auch wenn dir das offensichtlich nicht gefällt). Kann auch sein, dass das schief geht, sehen wir dann. Hat mit Epyc auch etwas gedauert, aber gab jetzt die ersten Deals.
Gerade die Modulbauweise mit Epyc zusammen macht Vega durchaus interessant.

gaussmath · 1. Juni 2018

Mango2Go schrieb:
Das die Architektur auf zwei Bereiche optimiert ist und nicht nur auf Gaming würde ich mal schätzen.

Noch misteriöser wird's bei der Single Prec Performance: Compute Performance - The AMD Radeon RX Vega 64 & RX Vega 56 Review: Vega Burning Bright

Was ist da los beim Folding@Home Benchmark? Einheiten sind massig vorhanden, Bandbreite ist vorhanden. Verkackt der Scheduler?

Gast1748380205 · 1. Juni 2018

Wahrscheinlich kriegt der Treiber das Scheduling nicht hin und da F@H weder Benchmarkrelevanz hat noch entscheidend für die Absatz der Karten ist, investiert AMD da nichts rein. Das ist ja das Schlimme an Vega, ohne Arbeit des Treiberteams erreicht sie fast nie eine angemessene Performance und diese Liebe gibt es eben nur für wenige High-Profile-Spiele und Anwendungen. Vega scheint nicht alter Wein zu sein, mehr alter Käse, der immer stärker stinkt.

gaussmath · 1. Juni 2018

Aber was ist das für ein Treiberarchitektur, die spezielle Anpassungen benötigt, damit der Scheduler halbwegs funktioniert? Da ist nicht gut...

JeeBo · 1. Juni 2018

hugo-03 schrieb:
So fehlerfrei ist Nvidia anscheid ja auch nicht !? Nvidia Titan V: Angeblich mit Rechenfehler in wissenschaftlichen Anwendungen

Und wenn man auch nur einen Funken Ahnung hat (oder bereit wäre sich zu belesen), statt nur Überschriften nach zu plappern, wüsste man, dass der Fehler dort softwareseitig war.

XXTREME schrieb:
Armseelig

armseelig / armselig | Beliebte Fehler – korrekturen.de

Soviel dazu, Kleiner.

deady1000 · 1. Juni 2018

Von mir aus kann Nvidia die nächsten zwei Jahre schön Pascal aufwärmen und verschachern. Die Cashcow will gemolken werden und die Kunden wollen es auch.
Solange meine 1080 nicht abraucht ist alles gut. :ugly:

Nvidia Turing: Erstmals auf der Hot Chips ein Thema?

Lötkolbengott/-göttin

matty2580

Guest

Lötkolbengott/-göttin

matty2580

Guest

Software-Overclocker(in)

Lötkolbengott/-göttin

matty2580

Guest

Software-Overclocker(in)

Lötkolbengott/-göttin

matty2580

Guest

Lötkolbengott/-göttin

matty2580

Guest

Gast1754557804

Guest

BIOS-Overclocker(in)

PC-Selbstbauer(in)

gaussmath

Guest

Gast1748380205

Guest

gaussmath

Guest

Schraubenverwechsler(in)

Volt-Modder(in)

Ähnliche Themen