News Cerebras WSE-3: Der größte Chip aller Zeiten ist ein GPU-Cluster

PCGH-Redaktion

Kommentar-System
Teammitglied
Jetzt ist Ihre Meinung gefragt zu Cerebras WSE-3: Der größte Chip aller Zeiten ist ein GPU-Cluster

Der Cerebras Waferscale Engine 3 ("WSE-3") ist der größte Computerchip aller Zeiten und soll so die Rechenleistung eines gesamten GPU-Clusters in einem Chip mit der Größe eines 300-mm-Wafers vereinen.

Bitte beachten Sie: Der Kommentarbereich wird gemäß der Forenregeln moderiert. Allgemeine Fragen und Kritik zu Online-Artikeln von PC Games Hardware sind im Feedback-Unterforum zu veröffentlichen und nicht im Kommentarthread zu einer News. Dort werden sie ohne Nachfragen entfernt.

Zurück zum Artikel: Cerebras WSE-3: Der größte Chip aller Zeiten ist ein GPU-Cluster
 
Klingt ja ganz nett, aber wie hoch ist der Ausschuss ? Bei so einem großen "Chip" dürfte ja gerade mal einer von 100 Wafern lauffähig sein wenn überhaupt. Wären allein knapp 2 Mio an Unkosten nur für den Ausschuss den man wegwirft bei TSMC 4 oder 3N. Falls das überhaupt reicht.

Da kann man dann auch ziemlich viele "erprobte" H100 für kriegen. Wär geil wenns hier mehr Zahlen gäbe.:D
 
Klingt ja ganz nett, aber wie hoch ist der Ausschuss ? Bei so einem großen "Chip" dürfte ja gerade mal einer von 100 Wafern lauffähig sein wenn überhaupt. Wären allein knapp 2 Mio an Unkosten nur für den Ausschuss den man wegwirft bei TSMC 4 oder 3N. Falls das überhaupt reicht.

Da kann man dann auch ziemlich viele "erprobte" H100 für kriegen. Wär geil wenns hier mehr Zahlen gäbe.:D
Er ist intern mehrfach redundant aufgebaut.
Sodas jeder Chip funktioniert
 
Bei 24.000 Watt brauchst du ja ne Stickstoff-gefüllte Eissporthalle zum runterkühlen 😅

Can it run Doom? Ich glaube nicht, dürfte zu schwach auf der Brust sein
 
Klingt ja ganz nett, aber wie hoch ist der Ausschuss ? [...]
Cerebras spricht bei der WSE-2 von 100 % Yield. Das liegt schlicht daran, dass eine verhältnismäßig kleine Zahl an Spare Cores einkalkuliert ist. Defekte Cores werden direkt während der Herstellung identifiziert und die Datenpfade des Mesh werden bei Bedarf umgelegt um einen defekten Core zu umgehen und stattdessen einen dieser Spare Cores anzusteuern.

Die WSE-1, damals noch in 16nm gefertigt, wurde mal für 2+ Mio UIS$ pro Stück verkauft.

Auf die Größe bezogen ist das gar nicht viel. Das lässt sich entspannt mit Wasser kühlen.
"Entspannt" lässt sich da mal gar nichts kühlen, erst recht nicht in diesem Kontext hier. Das ist ein reines Datacenterprodukt und mit 15 Höheneinheiten ist das auch kein kleines Package.

Zum Kontext für Dritte ... eine solche zieht in etwa so viel wie rund 40 bis 60 HighEnd-PCs im Gaming. ;-)
 
Der Passt bestimmt in mein Gehäuse. :D Gleich neben die Waschmaschiene und den Herd.
Wieso heisst es denn ständig "... aller Zeiten..."? :huh:
Sind hier mal wieder die Propheten am Werk? Dieser Spruch ist so dämlich, sorry. :what:
 
"Entspannt" lässt sich da mal gar nichts kühlen, erst recht nicht in diesem Kontext hier. Das ist ein reines Datacenterprodukt und mit 15 Höheneinheiten ist das auch kein kleines Package.

Zum Kontext für Dritte ... eine solche zieht in etwa so viel wie rund 40 bis 60 HighEnd-PCs im Gaming. ;-)
15 Höheneinheiten für eine CPU, welche die Fläche von 56 NVidia H100 GPUs belegt, ergibt ~3,7 CPUs pro Höheneinheit, was definitiv sehr Kompakt ist (pro Höheneinheit gesehen). Die acht H100 GPUs in einem DGX H100 belegen allein bereits fünf HE und haben damit nur eine Dichte von 1,6 GPUs pro HE. Dazu kommen beim DGX H100 noch zwei HE für CPUs und eine HE für Stromversorgung, also acht HE insgesamt.

Direkter Vergleich des Verbrauchs und der Wärmeabgabe pro Fläche mit NVidia H100: Der NVidia H100 besitzt eine TDP von 700W. Auf identischer Fläche gibt der Cerebras nur ~428W ab, ist also leichter zu kühlen als ein H100. Die Komponenten sind einfach nur größer aufgrund der großen Gesamtfläche des Cerebras.
Entscheidend wie schwer etwas zu kühlen ist, ist immer noch die Wärmeabgabe pro Fläche, da bei großer Wärmeentwicklung auf kleiner Fläche ein wesentlich größerer Aufwand betrieben werden muss diese auf eine große Fläche zu verteilen um eine effektive Kühlung gewährleisten zu können.
Wenn der Cerebras nun die 56 H100 GPUs schlägt (entspricht sieben DGX H100 Racks), dann ist er auch noch wesentlich effizienter als der H100, da er für mehr Leistung nur etwas mehr als die Hälfte der DGX verbraucht.
 
Zuletzt bearbeitet:
Klingt ja ganz nett, aber wie hoch ist der Ausschuss ? Bei so einem großen "Chip" dürfte ja gerade mal einer von 100 Wafern lauffähig sein wenn überhaupt.
Wie schon erwähnt, werden kritische Teile redundant ausgeführt, was auch nicht weiter ungewöhnlich ist und unabhängige, defekte Teile einfach deaktiviert werden. Das viel größere Ausschussproblem bei so einem großen Wafer ist die Tatsache, dass er rechteckig ist, der Wafer aber ein Kreis. Bei kleinen Chips ist der Verschnitt da relativ gering, bei so großen Chips aber eben ziemlich hoch. Aber vermutlich ist die Performance pro Bruttowaferfläche einfach trotzdem höher, immerhin erspart man sich viel Off-Chip-Kommunikation.
Auf dem Bild sieht man ein Gitter das aus 12x7 Blöcken besteht.
Es währe sehr praktisch wenn in einem ein Produktiosfahler ist, den abzuschalten und der Rest kann dann genutzt werden. :)
Vermutlich ist die Deaktivierbarkeit deutlich feiner. Bei GPUs ist es ja auch völlig üblich kleinere Teile zu deaktivieren. Von daher denke ich, dass die Wahrscheinlichkeit, dass ein ganzer Block deaktiviert werden muss, sehr gering ist.
 
Ich hätte schon gerne gesehen, wo das eingebaut und wie das genau gekühlt wird. Ich nehme mal nicht an, dass da eine AIO von Arctic und Co. in Frage kommt...
 
Auf dem Bild sieht man ein Gitter das aus 12x7 Blöcken besteht.
Es währe sehr praktisch wenn in einem ein Produktiosfahler ist, den abzuschalten und der Rest kann dann genutzt werden. :)

Zumindest bei WSE 1 und WSE 2 war die Redundanz auf niedriger Ebene organisiert. Wenn dieses Muster weiter genutzt wird (und davon gehe ich aus) hat man im Prinzip 12 × 7 getrennt gefertigte (!) Chips, die sich jeweils aus einer großen Zahl aktiver und einer kleinen Zahl deaktivierter oder eben defekter Kerne zusammensetzen und die untereinander durch nachträglich aufgebrachte Verbindungen auf dem Wafer vernetzt werden. Auch Cerebras kann keine größeren Bereiche am Stück ausbelichten, als aktueller Anlagen zulassen, sondern verzichtet einfach darauf, den Wafer am Ende der Produktion in einzelne Chips zu zersägen. Ob der Marketing-Claim des größten Einzel-Chips überhaupt gerechtfertigt werden kann, ist daher umstritten. Die eigentlich Besonderheit liegt in der Integration großer Mengen Speicher, die eine Aufteilung (um z.B. HBM rund um die Einzel-Chips zu platzieren) überflüssig macht.

"Entspannt" lässt sich da mal gar nichts kühlen, erst recht nicht in diesem Kontext hier. Das ist ein reines Datacenterprodukt und mit 15 Höheneinheiten ist das auch kein kleines Package.

Zum Kontext für Dritte ... eine solche zieht in etwa so viel wie rund 40 bis 60 HighEnd-PCs im Gaming. ;-)

Die Wärmeabgabe an die Umgebung braucht natürlich weiterhin Kapazitäten entsprechend der Gesamtleistung und gleiches gilt für die Stromversorgung. Würde man beides sowie sämtliche für den Datenverkehr nötigen Zusatzeinheiten in getrennte Module auslagern, wie das bei immer mehr konventionellen Servern praktiziert wird, spräche aber eigentlich nichts gegen ein 1U-Dual- oder gar -Quad-WSE-Rack. Die Leistungsdichte ist tatsächlich angenehm niedrig und die Wärmeaufnahme vom Chip, die bei Desktop-Hardware so viele Sorgen bereitet, sollte entsprechend "entspannt" sein.

Allerdings wird kaum jemand Cerebras kaufen, wenn seine Aufgabenstellung auf mehrere Systeme verteilt berechnet werden kann, sodass sich eine zentrale Infrastruktur für multiple Einheiten lohnen würde. Da ist der Verkauf als Single-WSE-Komplettlösung einfach ökonomisch sinnvoller, auch wenn es technisch viele Alternativen gäbe.
 
@Torsten: Das ist ein 23 - 24 KW-Design. Selbst wenn betreffender Poster hätte durchblicken lassen, dass er/sie im Datacenter tätig ist, wäre die Aussage "entspannt kühlen" in diesem Kontext hier in diesem Forum dennoch vollkommender ****** ;-)

Darüber hinaus ist das Cerebras-Design immer noch als Spezial- bzw. Nischenlösung anzusehen. Das wird ebenso seine Kunden finden, ist aber ausnahmslos ein hochgradig spezialisierter ML-Chip und nicht mehr. nVidia's Tensor Cores alleine sind da schon wesentlich funktionsreicher und dazu kommt noch umfangreiche FP64-Funktionalität.
Entsprechend dürfte vermutlich auch AMD insgesamt bessere Absatzaussichten mit seiner 300er-Generation haben als Cerebras im AI-Markt.
 
Irgendwie gehen bei soviel Rechenpower schon die Fantasie-"Anteile" auf Reisen.😁
Was mich interessieren würde, wie KANN man solch ein Monster überhaupt kühlen? Legt man das in ein tiefgekühltes Ölbad? ( Natürlich nicht elektrisch Leitfähig.😎
 
Ich weiß tatsächlich nicht, wie genau der Cerebras-Kühler aussieht. Aber mit Wasser ist das, bei dieser Fläche, kein Problem – wie schon mehrfach gesagt wurde. 24 kW klingen im Vergleich zu einem Gaming-PC nach viel, aber schon ein kleiner A1-Motorroller belastet seinen Kühlkreislauf stärker (wenn er nicht luftgekühlt wird). Das manch sparsamere PC-Komponente trotz Wasserkühlung heiß wird, liegt nicht an der Wärmemenge, sondern nur an der Wärmekonzentration. Also Heizleistung pro Fläche, aber hier ist der "Chip" ja noch viel riesiger als sein Verbrauch. Die Wärme von 100 i9-12900K (100× 241 W) auf der Fläche von 221 i9-12900K (221× 209 mm²) abzuführen ist ... "entspannt". Die Wärmedichte entspricht ziemlich exakt einem Ryzen 8000G.
 
Zurück