AW: Nvidia Ampere: 70-75 Prozent mehr Performance im Vergleich zum Vorgänger - bei HPC
bin ja gespannt ob die 2304 GB/s stimmen
Angelehnt an lowkres/"Vollausbau", scheint RawMangoJuli eher eine Speicherbandbreite zu meinen, denn bspw. 2304 CUDA-Cores wären viel zu wenig, selbst für einen Vergleich innerhalb der Turing-Serie. Bereits Volta verfügt über 5120 Cores.
Ich nehme an, er meint hier tatsächlich eine Speicherbandbreite, was jedoch nicht übermäßig schwer zu realisieren wäre. Bereits der offizielle JEDEC-Standard spezifizierte Ende 2018 bis zu 307 GiB/s pro Stack (2,4 Gbps). Samsung stellte im März 2019 3,2 Gbps-Chips vor und Micron und SK Hynix folgten kurz darauf mit der Ankündigung für 3,6 Gbps-Chips, die um die 461 GiB/s pro Stack liefern und 2020 in Produktion gehen sollen. Eine kumulierte Gesamtbandbreite von 2 TiB/s ist also durchaus realisierbar, zumal vier Stacks derzeit üblich sind, dann voraussichtlich mit 64 GiB insgesamt.
Die Bandbreite (und auch Speichermenge) wird insbesondere für AI-Workloads gebraucht. Mit einem etwaigen Turing-Nachfolger wird das jedoch voraussichtlich wenig bis gar nichts zu tun haben, da HBM2E zu teuer ist. Entsprechend gibt es seit den ersten Versuchen von AMD mit Vega 10 auch keine Consumer-Karten mehr mit HBM. (1)
Neben dem Preis ist der Bedarf für einen so hohen Speicherdurchsatz bei Consumer-Chips auch nicht wirklich gegeben, wie ein Vergleich der RTX 2080 Ti zur Radeon VII zeigt. (2) Für einen Turing-Nachfolger würde ich weiterhin von GDDR6 ausgehen, ggf. in den Top-Modellen aktualisiert auf die Unterstützung von 18 Gbps-Chips. (3)
[...]Ist man sich der Bedrohung von RDNA2 bewusst, oder [...]
nVidia's HPC-Beschleuniger wird Volta beerben und zwecks Leistungssteigerung dahingehende Architekturverbesserungen implementieren. Der im Consumer-Segment relevante Turing-Nachfolger wird ein eigenständiges Design darstellen und dementsprechend hat deren HPC-Design auch nichts mit RDNA2 am Hut.
Auch bei AMD arbeitet man zurzeit an einem neuen HPC-Beschleuniger, einem Update der Instinct-Serie, der ersten Gerüchten zufolge einen großen architektonischen Umbau aufweisen und nicht mehr allzu viel mit einer regulären GPU gemein haben wird. (AMDs Design ist u. a. für den Frontier vorgesehen).
Die von der Industrie erwarteten Leistungssteigerungen (und Spezialisierungen, insbesondere mit Blick auf AI) lassen es höchst unwahrscheinlich erscheinen, dass nVidia (und auch AMD) in Zukunft ihr gesamtes GPU-Design nur auf Basis einer einzigen, aktualisierten Architektur abbilden können. Die Anforderungen der Workloads gehen immer weiter auseinander und bspw. ein beträchtlicher Anteil der Renderpipeline stellt auf den GPGPU-Beschleunigern nur verschwendete Transistorfläche dar.
Zudem muss man sich hier dem Druck der Konkurrenz beugen, die mit hochspezialisierten Designs beträchtliche Leistungen erzielt, sodass es sich weder nVidia noch AMD leisten können, im industriellen/Datacenter-Umfeld mit "angezogener Handbremse" zu fahren.(4)
Insgesamt hat das hier zitierte voraussichtlich reichlich wenig mit Consumer-Hardware zu tun und damit nichts mit einem Turing-Nachfolger oder aber RDNA2.
Abgesehen davon wäre es interessant, wenn der Autor darlegen würde, wie er auf pauschale 70 - 75 % Leistungszugewinn kommt. nVidia's neues HPC-Design wird zweifelsfrei ordenlich zulegen und mit Blick auf AI voraussichtlich noch beträchtlich mehr (weil sie es müssen), aber die verfügbaren Quellen lassen die im Titel und Text gegebene Ableitung nicht zu.
Unter Verwendung von V100-Karten wurde der Big Red 200 für etwa 5,9 PFlops ausgelegt. Jetzt hat man sich entschieden stattdessen das Nachfolgedesign (dann erst im Sommer) zu verbauen und damit soll das System schlussendlich dann bis zu rd. 8 PFlops erreichen können (wahrs. etwas weniger, denn "
deliver close to 8 petaflops" und "
adding around 2 petaflops").
Entsprechend steigert sich die Gesamtleistung des Systems um maximal +36 %. Wie viele Beschleunigerkarten genau verbaut werden und ob sich deren Zahl im Vergleich zu den anfänglich geplanten V100 signifikant reduziert hat, lässt sich jedoch in keiner Quelle, die ich zu dem Thema gefunden habe, eruieren.(5)
(1) Die Radeon VII war nur eine zwangsweise Zweitverwertung des Vega 20/MI50-Designs und nicht als Consumer-Karte geplant. Entsprechend war sie zu teuer und die Marge zu gering, sodass sie schnell wieder vom Markt genommen wurde.
nVidia hat sich bisher gar noch nie genötigt gesehen, HBM in einer Consumer-Karte zu verbauen.
(2) Hier stehen rund 616 GiB/s GDDR6 rund 1 TiB/s HBM2 gegegnüber und mit seinem offensichtlich leistungsfähigeren Speicher/Cache-Subsystem lässt Turing hier Vega 20 dennoch deutlich hinter sich (trotz gut +66 % höherer Speicherbandbreite der AMD-Karte).
(3) Die aktuellen nVidia-Karten verwenden derzeit gar nur 14 Gbps-Chips. Einzig die RTX 2080 Super macht von dem Upgrade auf 16 Gbps gebrauch (hier 496 GiB/s anstatt 448 GiB/s in Verbindung mit einem 256 Bit-Speicherinterface).
(4) In Bezug auf AI sind hier u. a. z. B. die aktuellen Designs von Xilinx und Intel/Habana zu nennen.
(5) Auf bspw.
Indiana University unveils supercomputer Big Red 200 | IT News & Events
ist von "
256 NVIDIA Tensor Core GPUs to be added in the fall" die Rede. Ohne zu wissen, wie sich im Verhältnis dazu die Zahl der ursprünglich geplanten V100 bewegte, kann man jedoch keinen sinnvollen Rückschluss treffen.
Hinzu kommt, dass das System in den kommenden Wochen mit 64 bis 96 V100 (abweichend, je nach Quelle) ausgestattet wird, quasi als Übergangslösung, bis dann im Sommer/Herbst die neuen GPGPUs kommen. Von denen sollen es aber nur 256 Stück sein (also nur in 64 - 128 Nodes von insg. 672 Nodes), sodass unklar ist, ob die dann bestehenden V100 weiterhin ein regulärer Bestandteil des Systems bleiben werden und daher in beträchtlichem Maße zur Leistung beitragen, was eine Abschätzung bezüglich dem Volta-Nachfolger zusätzlich erschwert.