Computer stürzen oft ab (ziehen vielleicht zu viel Strom?)

Cokicoke

Komplett-PC-Aufrüster(in)
Hallo liebe Community,

ich hab ein kleines Stabilitätsproblem mit einem Setup von mehreren Rechnern und weiß langsam nicht weiter.

Also, ich habe insgesamt 3 Workstations (für specs siehe unten) die relativ viel Watt ziehen, einen NAS (Synology DS1821+ mit 8 HDDs), einen Switch und einen Raspberry Pi die zusammen in einer Ecke stehen.

Die Stabilität der drei Workstations ist leider schon seit Beginn nicht optimal. Immer mal wieder werden sie einfach unerreichbar und müssen neu gestartet werden. Am schlimmsten ist die WS mit 2 Grafikkarten die regelmäßig abstürzt.

Letzte Woche ist dann eine Sicherung rausgeflogen, während große Last auf allen Systemen lag.
Allerdings sind die Systeme aufgeteilt auf 2 Stromkreise, weshalb nur das NAS und eine WS abgestürzt sind.

In den Logs der Systeme ist nach jedem Absturz überhaupt keine Meldung zu finden (sudo journalctl --boot=-1 --reverse). Deshalb vermute ich das es irgendwie wirklich ein Problem entweder mit der Stromversorgung oder der Kühlung gibt.

Ich habe mal einige Vermutungen aufgestellt:

1) Die PSUs für die WS reichen nicht aus. Allerdings hatte ich vor jedem Kauf mit dem BeQuiet Netzteil Kalkulator ausgerechnet welche Leistung ich brauchen. Eigentlich würde ich auch gern redundante Netzteile anschließen, allerdings schafft das einzige ATX Netzteil was ich dazu finde maximal 900W was dann doch ein bisschen knapp ist.

2) Die Verteilersteckdosen können nicht ausreichend Leistung verteilen. (SALI 680BA000006)

3) Die Kühlung ist zu schwach, auch wenn ich hier eigentlich erwarten würde das die Systeme automatisch runtertakten und das selbst regeln können.


Hat jemand von euch vielleicht Erfahrungen mit solchem Verhalten und kann mir einen Tip geben was ich als nächstes machen soll?




==================== Die Systeme ==================

CPU: AMD Threadripper 2990WX
Kühler: be quiet! Dark Rock Pro TR4
GPU: 2 * Nvidia titan rtx
MB: MSI X399 SLI PLUS Mainboard
SSD: 2TB Samsung 970 Evo Plus
PSU: 1200 Watt be quiet! Dark Power Pro 11
RAM: 128GB (8x 16GB) G.Skill RipJaws V schwarz DDR4-3200
Gehäuse: be quiet! Pure Base 600

CPU: AMD Threadripper 3990X
Kühler: be quiet! Dark Rock Pro TR4
GPU: 1 * Nvidia rtx 3090
MB: ASRock TRX40 CREATOR
SSD: 2TB Samsung 970 Evo Plus
RAM: 256GB (8x 32GB) Samsung ECC RAM
PSU: 1500 Watt be quiet! Dark Power Pro 12
Gehäuse: Fractal Design Define 7 XL

CPU: AMD Threadripper PRO 3995WX
Kühler: be quiet! Dark Rock Pro TR4
GPU: 1 * Nvidia rtx 3090
MB: Gigabyte WRX80-SU8-IPMI
SSD: 2TB Samsung 980 Pro M.2
RAM: 256GB (8x 32GB) Samsung ECC RAM
PSU: 1200 Watt be quiet! Straight Power 11
Gehäuse: be quiet! Pure Base 600

Alle Systeme laufen unter Ubuntu Server und wurden von Mindfactory zusammengebaut.
 
Zuletzt bearbeitet:
Also die Leistung der Netzteile sollte ganz locker ausreichen.

Eine Titan RTX hat 280w TDP, der AMD Threadripper 2990WX 250w.
Zusammen also großzügig gerechnet 850w im ersten System.

Systeme 2 und 3 werden dir auch nicht mehr als 800w ziehen, wenn überhaupt.

Ob deine Steckdose das abkann, keine Ahnung. Aber da kann man ja eigentlich schon ein paar Rechner anschließen, bevor da was aus geht. Weiß allerdings nciht, wie alt das Haus is, in dem du wohnst.
 
Letzte Woche ist dann eine Sicherung rausgeflogen, während große Last auf allen Systemen lag.
Allerdings sind die Systeme aufgeteilt auf 2 Stromkreise, weshalb nur das NAS und eine WS abgestürzt sind.
Das erste und dritte System brauchen so 6 ... 7A bei Höchstlast.
Das zweite so 8 ... 9A.

Was soll da eine Sicherung kommen lassen?

Hast Du Alt- oder Neubau?
Von wann ist die Hausverkabelung?

In den Logs der Systeme ist nach jedem Absturz überhaupt keine Meldung zu finden (sudo journalctl --boot=-1 --reverse). Deshalb vermute ich das es irgendwie wirklich ein Problem entweder mit der Stromversorgung oder der Kühlung gibt.
Wie sind die Systeme gekühlt (CPU-Kühler, Grafikkarte, Gehäuse, Gehäuselüfter, ... ?

Ich habe mal einige Vermutungen aufgestellt:

1) Die PSUs für die WS reichen nicht aus.
Unwahrscheinlich, aber möglich.

2) Die Verteilersteckdosen können nicht ausreichend Leistung verteilen. (SALI 680BA000006)
Die halten ja auch nur 10A aus.
Zwei Systeme dran und dunkel.

3) Die Kühlung ist zu schwach, auch wenn ich hier eigentlich erwarten würde das die Systeme automatisch runtertakten und das selbst regeln können.
Siehe Systembauteile.

Hat jemand von euch vielleicht Erfahrungen mit solchem Verhalten und kann mir einen Tip geben was ich als nächstes machen soll?
Andere Verteiler dran oder weglassen.
Wi sind die Stromkreise vor den Verteilern abgesichert (10, 16, 25A) ?


-------------------
Systembauteile:
-------------------

==================== Die Systeme ==================

AMD Threadripper 2990WX
2 * Nvidia titan rtx
1200 Watt be quiet! Dark Power Pro 11

AMD Threadripper 3990X
1 * Nvidia rtx 3090
1500 Watt be quiet! Dark Power Pro 12

AMD Threadripper PRO 3995WX
1 * Nvidia rtx 3090
1200 Watt be quiet! Straight Power 11

Alle Systeme laufen unter Ubuntu Server und wurden von Mindfactory zusammengebaut.
Ein bißchen knapp die Angaben, nicht?
Zeige mal bitte die Innereien der PCs (Mindfactory Warenkörbe, Rechnungen, ...).
 
Ganz blöde Idee: wie sieht das denn mit Mehrfachsteckdosen vor den Wandsteckdosen aus? Die halten je nach Größe und Qualität teils nicht so viel aus.
 
Interessant wäre zu wissen was genau die Systeme berechnen, also wie konstant die abgerufene Leistung bzw. erzeugte Rechenlast ist. Bei dem doch relativ enormen Setup könnten schon relativ starke Peaks bei der Stromaufnahme (und damit Schwankungen bei der Spannung) auftreten.
 
Realistisch liegen alle 3 System unter Last jeweils bei 900w bis 1KW Leistungsaufnahme. Kein Wunder das bei einer 9A Steckleiste die Sicherung rausfliegt. :D
 
Hey!

Vielen Dank für die ganzen Antworten! Dann werde ich mal definitiv die Steckdosenleisten austauschen!

Hast Du Alt- oder Neubau?
Von wann ist die Hausverkabelung?
Hm ich würde sagen das Haus ist ca 50-70 Jahre alt. Leider keine Ahnung von wann die Verkabelung ist.

Wie sind die Systeme gekühlt (CPU-Kühler, Grafikkarte, Gehäuse, Gehäuselüfter, ... ?
Die CPU Kühler sind alle: be quiet! Dark Rock Pro TR4 Tower Kühler
Gehäuse sind 2 * be quiet! Pure Base 600 und 1 * Fractal Design Define 7 XL (bei dem mit dem 3990X)
Die Grafikkarten sind alle das Referenzdesign von Nvidia.
Zusätzliche Kühlung gibt es nicht.

Interessant wäre zu wissen was genau die Systeme berechnen, also wie konstant die abgerufene Leistung bzw. erzeugte Rechenlast ist. Bei dem doch relativ enormen Setup könnten schon relativ starke Peaks bei der Stromaufnahme (und damit Schwankungen bei der Spannung) auftreten.
Es werden hauptsächlich Deep Learning Modelle trainiert. Für das Vorverabeiten der Daten wird die CPU sehr stark ausgelastet und fürs Training die GPU. Heißt es kann schon oft passieren das CPU und GPU gleichzeitig auf 100% laufen.
Ein bißchen knapp die Angaben, nicht?
Zeige mal bitte die Innereien der PCs (Mindfactory Warenkörbe, Rechnungen, ...).
Ich pack gleich mal ein paar mehr Infos in den ersten Post.

Nochmal danke an alle. Ich geh morgen mal zu Conrad, kaufe stärkere Steckdosen und geb bescheid wie das dann gelaufen ist.

LG
 
Gehäuse sind 2 * be quiet! Pure Base 600
Die sind IMO für derartige Systeme ungeeignet. Generell würde ich die Systeme auf Fractal Design Torrent umbauen.
Die beiden 180mm in der Front und die 3 140mm im Boden schaufeln genügend kühle Luft ins innere. Die warme Luft wird dadurch hinten rausgedrückt. Zusätzlich sitzt das Netzteil dann oben in einer eigenen Bay und heizt das Gehäuse nicht noch zusätzlich mit auf. Bei der Last erzeugt das auch schon einiges an Abwärme.
Zusätzliche Kühlung gibt es nicht.
In wie fern? Keine weiteren Gehäuselüfter?
 
Ich hab die 3 Systeme heute mal auf 3 Stromkreise aufgeteilt und alle Steckdosenleisten gegen stärkere Exemplare ausgetauscht. Bis jetzt läuft alles stabil, mal sehen ob das schon alles war.
Die Temperaturen lasse ich jetzt auch mal loggen.

LG und nochmal danke an alle!

In wie fern? Keine weiteren Gehäuselüfter?
Also nur die vorinstallierten.
 
Zurück