News Nvidia Blackwell: B200-GPU stößt als Dual-Die-Monster in ganz neue Sphären vor

MI300 ist eine MCM GPU mit mehreren verbundenen "Compute Dies".

Pro und Con wird man wohl erst zu Release des B200 prüfen können. Wenn ich raten soll: MCM hat höhere Latenzen, ist dafür günstiger als der Die-to-Die Ansatz. Ggf. kommen bei MCM auch weniger defekte GPUs am Ende raus.
Danke, ich hatte das zwar noch im Hinterkopf war mir aber nicht mehr sicher. Ich bin gespannt wann das im Konsumer Markt Einzug erhält.

MfG
 
Fun Fakt:
Blackwell ist nicht größer als Hopper. Es sind zwar 2 DIEs, aber beide DIEs zusammen sind nur so knapp groß wie Hopper (den HBM3e nicht mitgerechnet). Ergo es sind 2x ~400mm² DIEs.
Mit 200 Milliarden Transistoren beim B100 (oder B200?) erahne ich großes für die 5090, wenn GB202 auch in derselben Transistorgröße gefertigt wird.
Denn 200 Milliarden Transistoren bei 800mm² wären 250mT/mm² !!! Das ist doppelt so viel wie bei der 4090 und 2.5x soviel wie bei Hopper...
Wenn die 5090 halbwegs mitzieht...oh boy oh boy...
150 Milliarden Transistoren bei 600mm²....
Bei 3DCenter ist die Rede davon, das Blackwell aus 2*800m^2 in 4nm Fertigung besteht, sich die Transistordichte also nur moderat erhöht hat.
 
Bei 3DCenter ist die Rede davon, das Blackwell aus 2*800m^2 in 4nm Fertigung besteht, sich die Transistordichte also nur moderat erhöht hat.
Ich habe mich total vertan. Du hast recht.
 

Anhänge

  • 1710841426298.png
    1710841426298.png
    818,5 KB · Aufrufe: 229
Zuletzt bearbeitet:
Bei 3DCenter ist die Rede davon, das Blackwell aus 2*800m^2 in 4nm Fertigung besteht, sich die Transistordichte also nur moderat erhöht hat.

Da habe ich mich ja auch am Anfang vertan. Aber in der GTC hat Herr Jensen sowohl Hopper als auch Blackwell gleichzeitig in den Händen und man sieht eindeutig, das die fast gleich groß sind ohne HBM.

1710841469285.png


Stimmt schon so ungefähr was @theGucky sagt. Ein H100 "Compute Die" ist von der Fläche her ca. ein B100 "Compute Die". Durch den besseren Prozess (4NP vs N4P) sind auf fast derselben Fläche aber ca. 20 Mrd. mehr Transistoren.
 
Wozu wird hier eigentlich diskutiert, wer von euch besitzt ein Rechenzentrum? Wie ich vorhergesagt hatte gab es keinerlei Informationswert bezüglich Desktop GPUs die erst 2025 kommen.
 
(Gigantische) Chip-to-Chip-Comm....
SLI-Revival im RTX-Titan-Segment?

Fehlen wohl die Enfgines und Treiber-Ressourcen...
Ich weiß nicht ob SLI nicht sogar nochmal ein Revival feiern könnte: da in Zukunft die Spiele immer mehr RT Cores und immer weniger auf Rasterizing setzen, wäre es möglich da SLI einzusetzen, da RT "primitiver" ist als Rastern mit Shadern, welches immer für Synchronisationsprobleme (und damit Microlags) gesorgt hat.
 
Ich weiß nicht ob SLI nicht sogar nochmal ein Revival feiern könnte: da in Zukunft die Spiele immer mehr RT Cores und immer weniger auf Rasterizing setzen, wäre es möglich da SLI einzusetzen, da RT "primitiver" ist als Rastern mit Shadern, welches immer für Synchronisationsprobleme (und damit Microlags) gesorgt hat.
Zuggegeben: Es war ein fanatsievoller Wachtraum.
(Letztes Posting vor dem Schlafen.)

Und wirklich nicht ganz enrst gemeint...
Ich denke den Die-to-Die-Link kann man nicht vergleichen mit SLI, denn hier wird eine GPU angesprochen und nicht zwei separat.
Ich träumen darf man mal darüber schon ;-)
 
Zuggegeben: Es war ein fanatsievoller Wachtraum.
(Letztes Posting vor dem Schlafen.)

Und wirklich nicht ganz enrst gemeint...

Ich träumen darf man mal darüber schon ;-)
Nun ich würde sagen, dass dein Traum durchaus Chancen hat.
Raytracing ist Rechenintensiv, aber wesentlich weniger kompliziert wie die verschiedenen "Raster-Tricks" aneinanderreihen wie das bislang gemacht wird. Damit lässt sich aber vieles in Zukunft besser skalieren. Wäre das Problem mti der Synchronisation/Latenz nicht, gäbs wohl nach wie vor SLI Karten.
Ich müsste mir das mal ansehen, ob das mit reinem RT nicht simpler ist als mit Rasterizing (inkl Shader) - und damit wieder real werden könnte (in 10+ Jahren aber erst, bis dahin wird ja unter Garantie gerastert (im Hybrid Rendering).
Alternativ hast du mit MCM Chips ja eh "Next Level SLI".
 
Ich weiß nicht ob SLI nicht sogar nochmal ein Revival feiern könnte: da in Zukunft die Spiele immer mehr RT Cores und immer weniger auf Rasterizing setzen, wäre es möglich da SLI einzusetzen, da RT "primitiver" ist als Rastern mit Shadern, welches immer für Synchronisationsprobleme (und damit Microlags) gesorgt hat.

Aktuell geht der Trend eher dazu, auf immer mehr Bildschirmweite Interpolations-Cheats zu setzen, die weiterhin eine hohe Interpolationsgüte erfordern.
Bei echten (Offline-)Raytraycern ist es dagegen meinem Wissen nach schon sehr lange üblich, sogar multiple PCs, die nur über normales Netzwerk verbunden sind, gemeinsam an einem Frame arbeiten zu lassen. Solange man die einmalig und umfassend benötigte BVH der CPU überlässt (was leistungsmäßig aber nicht zwingend eine gute Idee ist), dürfte das eigentliche Traycen gut parallelisierbar sein. Der Speicherbedarf wäre aber weiterhin hoch, wenn jede Karte alle Daten der Szene vorrätig halten soll.
 
Der Speicherbedarf wäre aber weiterhin hoch, wenn jede Karte alle Daten der Szene vorrätig halten soll.
Stimmt, das war aber eh immer ein Problem von SLI, ich frag mich halt wie es mit der Board-zu-Board Kommunikation (also der Bandbreite) aussehen muss, damit das funktioniert, aber da hat Nvidia ja auch Erfahrung (wobei NVlink ja nicht Board to Board ist).
Jedenfalls sehe ich beim reinen Raytracing theoretisch die Möglichkeit, dass SLI nochmal eine Randerscheinung wird.
 
Da GB202 wohl auch nur 4nm wird würd ich da erstmal nicht all zu viel erwarten.

Es sei denn das Ding wird auch 800mm² order so.
Ja, darum geh ich auch nicht so steil wie viele sich erwarten mit 80-100% Mehrleistung etc.

Schon die 160SMs wären hoch angesetzt in meinen Augen. Ich frage mich auch ob die Consumer-Karte nicht evtl. auf Basis N3 machbar wäre zumal sie ja erst nächstes Jahr kommt allem was man so weiß zufolge.
 
Stimmt, das war aber eh immer ein Problem von SLI, ich frag mich halt wie es mit der Board-zu-Board Kommunikation (also der Bandbreite) aussehen muss, damit das funktioniert, aber da hat Nvidia ja auch Erfahrung (wobei NVlink ja nicht Board to Board ist).
Jedenfalls sehe ich beim reinen Raytracing theoretisch die Möglichkeit, dass SLI nochmal eine Randerscheinung wird.

Wenn man pures, echtes Raytraycing betreibt, dann wird nach dem Geometrie- und BVH-Setup alles weiter nur noch per Pixel berechnet und das kann man mit sehr wenig Bandbreite verteilen. Halt die beiden genannten Datensätze, die zugegebenermaßen nicht ganz klein sind, aber auch nicht zwingend komplett ab Framebeginn verfügbar sein müssten, und ganz am Ende einen halben Screenshot im .bmp-Format, was quasi nichts ist. SLI und Crossfire sind an den vielen Rechenzeit sparenden Tricks der fortgeschrittenene Rasterizer gescheitert – wenn man Schatten und Ausleuchtung für das gesamte Bild berechnet, für Spiegelungen beliebige Stellen aus dem Framebuffer auslesen muss, etc., dann muss jede GPU ständig auf alle Daten zugreifen können. Der streng auf einzelne Pixel bezogene, voll parallelisierbare Teil wurde einfach zu klein. (Bei 3dfx betrug er noch 100 Prozent, weil es noch keine GPUs gab und all diese Aufgaben bei der CPU lagen.) Aber Raytraycing ist vom Grundgedanken her halt Brute Force, dass sowieso alles für jedes Pixel erneut berechnet.

Nur glaube ich nicht daran, dass das in diesem Jahrzehnt irgend jemand in Echtzeit machen wird. Die Leistungsanforderungen würden explodieren und die Bildqualität nur gering gegenüber der heutigen Schummelei nur wenig steigen. Aktuell nimmt letztere sogar immer schneller zu und wenn man Bildteile interpolieren will, braucht man wieder Zugriff auf alle Daten dieses sowie vorangehender Frames. Da wäre vermutlich nicht einmal mehr AFR praktikabel. (Ganz abgesehen davon, dass man heute ja jeden zweiten Frame einfach dazuerfindet.)
 
Ich Blödmann habe echt den HBM bei Hopper übersehen. D:
B100 ist doch 2x800mm²...das wäre bis auf die Verdoppelung der DIEs kein großer Sprung...

Es sieht bisher nach maximal 30-50% für die 5090 aus, wenn man den Vollausbau AD102 mit Vollausbau GB202 vergleicht. 30% wegen 30% mehr Shader und 20% extra wegen GDDR7... Leider sieht es gleichzeitig nach 600W aus D:
 
  • GB100 = 2 zusammengeklebte auf Steroide laufende H100(X)?
  • 2x ~800mm² Chipfläche :lol:
Das hört sich in meinen Ohren etwas sehr nach Asbach Uralt an.
Für AMD dürfte es daher ein leichtes sein, dieses aus der Zeit geratene Ungetüm mit dem MI400 wieder zu kontern.
Preis-Leistungs und vor allem effizienztechnisch spielt AMD sowieso in ihrer ganz eigenen Liga und Nvidia muss da ganz hinten im Bus platz nehmen und schauen das der Kleber auch bei 1000W noch hält. :heul:

AMD wird voraussichtlich bis 2025 MI400-KI-GPUs der nächsten Generation herausbringen, eine Aktualisierung des MI300 ist ebenfalls geplant

https://wccftech.com/amd-release-next-gen-mi400-ai-gpus-2025-mi300-refresh-planned-2024/
 
  • GB100 = 2 zusammengeklebte auf Steroide laufende H100(X)?
  • 2x ~800mm² Chipfläche :lol:
Im High End Bereich lohnt es sich auf solche Chipflächen zu gehen.
Es bleibt auch nicht viel anderes übrig, wenn keine großen Shrinks verfügbar sind.
Das hört sich in meinen Ohren etwas sehr nach Asbach Uralt an.
Wo sollten AMD oder Nvidia sonst kleiner fertigen?
Für AMD dürfte es daher ein leichtes sein, dieses aus der Zeit geratene Ungetüm mit dem MI400 wieder zu kontern.
Mit welchem Prozess?
Preis-Leistungs und vor allem effizienztechnisch spielt AMD sowieso in ihrer ganz eigenen Liga und Nvidia muss da ganz hinten im Bus platz nehmen und schauen das der Kleber auch bei 1000W noch hält. :heul:
Und das weißt du woher? Hat dir das Lisa Su persönlich verraten?:-)
 
Wo sollten AMD oder Nvidia sonst kleiner fertigen?
Apple macht schon 3nm bei TSMC.
Allerdings hat Apple schon einen großen Teil von 3nm reserviert. Nvidia muss also ausweichen, wenn sie Blackwell in großer Stückzahl fertigen wollen.
Ich denke das war schlicht ein Schachzug von Jensen, damit man auch viele Chips liefern kann. Denn am Ende wird man nicht für die Transistorgröße bezahlt sondern pro Chip.
Für AMD dürfte es daher ein leichtes sein, dieses aus der Zeit geratene Ungetüm mit dem MI400 wieder zu kontern.
Glaube ich nicht, aber AMD kommt frühestens Q1 2025. Bis dahin hat Nvidia schon einen Teil der Kunden versorgt.
Und selbst MI300X ist kaum existent, da AMD nicht liefern kann.

Außerdem man kann selbst mit 3nm einen doppelt so großen 5nm Chip rein von der Leistung nicht kontern...
In Datacenters geht es um 2 Dinge: Platz und Verbrauch im Verhältnis zur Leistung. AMD müsste in beiden Punkten..
 
Zurück