AW: Radeon-Gerüchte: Polaris 30 in 12 nm & High-End-Navi mit HBM2
So eine neue Polaris Karte wäre die Lösung um einen Aufkauf von Navi durch Miner zu verhindern.
Dafür müssten die Stückpreise bei Navi10 aber sehr schlecht ausfallen, denn 7nm, die neuere Architektur mit mehr Shadern und GDDR6 mit mehr Bandbreite, wird deutlich mehr Leistung und/oder Perf/Watt für das Mining anbieten.
Warum nicht die Polaris GPU von der Xbox One X verwenden (über 2800 Schäfer) und ggf. mit GDDDR6 auf 256 Bit Speicherinterface koppeln?
In 12nm und der Stromersparnis vom neuen Speicher wäre da doch sicher eine solide und schnelle Karte machbar?!
Weil sich das nicht vom Arbeitsaufwand nicht lohnt.
AMD müsste eine völlig neue Maske entwickeln und Polaris ist technische Altware.
[...]
Und die IPC ist seit jenseits 10 Jahren pro GPU Shader Kern identisch.
2 Operationen Pro Kern und Hertz.
Bei einfacher Genauigkeit.
Ein passender wikipedia Artikel wäre:
Instructions per cycle - Wikipedia
Mit entsprechend optimierter Software kommt man heutzutage sehr nah an das theoretische Maximum heran.
Etwas Overhead und damit "Verlust" gibt es allerdings immer.
Praktisch gibt es keine entsprechend optimierte Software die nah an das theoretische Maximum herankommt, jedenfalls nicht wenn du nicht von super optimierten Compute-Algorithmen sprichst, sondern einem wilden Mix, wie er bei Spielen verwendet wird, weil für die theoretische Max-Leistung darf das ganze Konstrukt niemals limitieren, niemals dürfen die fixen GFX-Pipelines aus Rasterizern und Geometry-Engines limitieren und die Arbeitsverteilung muss optimal ausfallen und jeder Code muss so geschrieben sein, dass immer die optimale Anzahl an Threadgroups durchläuft und nie Stalls auftreten dank Register/Cache-Mangel und die Daten immer in einer Beziehung vorliegen, wo keine Konflikte oder Abhängigkeiten auftreten.
Das ist aber praktisch eben fernab der Realität.
Wenn Turing Ähnlichkeiten mit Volta besitzt, dann kommt da auf jeden Fall noch einmal extra Effizienz und Performance pro Takt dazu.
Wer sich die Verbesserungen und Änderungen bei Volta im Detail mit Instruction Encoding, den Cache-Bandbreiten und teils Latenzen ansehen möchte, der kann dazu ein sehr gutes Paper von dem Finanzdienstleister Citadel finden:
https://arxiv.org/pdf/1804.06826.pdf
Conclusion schrieb:
Compared to previous architectures, Volta introduces substantial changes in its instruction encoding, memory hierarchy and in the behavior of its process-units.
From Kepler to Volta, the ratio of schedulers to cores grew from 1:48 to 1:16.
This change facilitates a higher instruction throughput.
With the newly introduced L0 instruction cache, Volta mitigates the penalty associated with its larger instruction size.
The improved L1 cache offers lower latency and higher bandwidth.
Its new replacement policy also reduces cache miss rates when not using shared memory.
And the redesigned register banks mitigate bank conflicts.
[...]
Das "Problem" mit der effizient würde ich nicht so tragisch sehen.
Nvidia war von der GTX200 bis zur GTX500 Serie hinter AMD bei der Effizienz.
Es gibt immer mal wieder Abwechslungen in dem Gebiet - und zu der Zeit war es für Nvidia Käufer ja auch kein Problem, dennoch zu Millionen die GTX480 zu kaufen, obwohl die Reviews sehr auf der Lautstärke und Effizienz rumgeritten sind.
Es ist tragisch für jedes Unternehmen, welches Geld auf breitem Flur machen möchte.
Wenn die Perf/Watt 40% oder gar schlechter gegenüber der Konkurrenz ausfällt, der wird arge Probleme haben bei OEMs in Laptops zu kommen oder eine High-Performance GPU zu bauen, welche konkurrenzfähig sind, wenn der Konkurrent GPUs mit ähnlicher Leistung pro Fläche verbaut, im aktuellen Fall mit besserer.