Regelmäßige Abstürze/Neustarts: Mainboard, CPU, PSU oder doch GPU?

sterreich

BIOS-Overclocker(in)
Regelmäßige Abstürze/Neustarts: Mainboard, CPU, PSU oder doch GPU?

Hallo, hab seit einiger Zeit mit Abstürzen zu kämpfen und steh gerade ein wenig mit der Fehlersuche an, vielleicht hat einer von euch ja eine Idee, gerade was Spannungen angeht, Danke im Voraus. Ich schreib lieber ausführlicher, damit ihr mir nicht alles aus der Nase ziehen müsst.

Konfiguration:
Ryzen 5 1600
Alpenföhn Olymp
MSI B350 PC Mate MSI B350 PC Mate | Preisvergleich geizhals.eu EU
MSI Twin Frozr 2GD5/OC MSI N760 TF 2GD5/OC Twin Frozr Gaming | Preisvergleich geizhals.eu EU
G.Skill Aegis 3000 CL16 G.Skill Aegis DIMM Kit 16GB, DDR4-3000 | Preisvergleich geizhals.eu EU
Super Flower Leadex II Gold 650W Super Flower Leadex II Gold weiß 650W ATX 2.3 | Preisvergleich geizhals.eu EU
Ubuntu 18.04/Windows 10 Dualboot

Alles auf Stock (RAM sogar auf 2133)

Detaillierter Problemfall:
Hab meinen alten R5 1600 wegen des Segfault-Bugs vor einem Monat ausgetauscht. Gleich nach Einbau und Segfault-Test wollte ich schauen, wohin ich mit annehmbarer Spannung (<1.35V) übertakten kann. Leider waren nicht einmal die 3.7 GHz des Vorgängers stabil. Habs also bald gelassen und auf Stock laufen lassen. Nach einem BIOS-Update blieb es so, nur dass der RAM jetzt auch mit 3066 statt 2933 MHz mit 16er Timings lief. Allerdings nicht stabil. Schob es auf insgesamt schlechtes CPU-Sample und den IMC.

Ich hab die meiste Zeit BOINC laufen (LHC und Rosetta) und so immer etwas Last auf der CPU. Nun hab ich seit etwas mehr als einer Woche regelmäßig Abstürze sobald ich den PC zusätzlich normal nutze (Firefox+VLC) und BOINC mit 8 Kernen läuft. Über Nacht läuft BOINC mit 100% und 90% Speicher ohne Neustart durch, allerdings hab ich eine >50% Fehlerrate. Mit der alten CPU waren es <20%. Sobald BOINC paussiert ist, kann ich den Rechner zumindest normal nutzen. Auf dem Mobo leuchtet mal CPU, CPU+RAM oder die VGA Leuchte für den Fehler. Dementsprechend hab ich mal ein volles Test-Programm gestartet. Außerdem will ich ungern die Austausch-CPU austauschen, wenn sie nicht den Fehler verursacht.

Hab trotz allem wegen Überhitzung getestet und die Seitenwand abgenommen. Allerdings kam die CPU selbst unter Prime Vollast nicht über 65°. WLP ausgetauscht im Falle das die Verteilung nicht passt, allerdings war es beim Abnehmen schön gleichmäßig. Mit Prime95 sowohl unter Windows als auch Linux gibt es einen sofortigen Absturz wenn man nach 5 Minuten Large FFT auf Small FFT wechselt.

Nächster Verdacht: RAM bzw. Cache. Allerdings waren 4 memtest-Läufe erfolgreich und das Problem blieb mit jeweils nur einem RAM-Riegel in unterschiedlichen Bänken bestehen.

Dann ist mir aufgefallen, dass ich immer die Klimaanlage eingeschaltet hatte, also möglicherweise schlechte Stromversorgung, weshalb ich jetzt auch PSU oder Mobo im Verdacht habe. Allerdings auch mit ausgeschalteter Klima kam es zu Abstürzen.

Dann einmal im Mainboard einen VCore von 1.46V auf Auto gesehen, hab also auf 1.3V fixiert für den Fall, das MSI bei den Spannungseinstellungen im Update gepfuscht hat. Lief eine Weile doch als ich eine Partie The Bureau: XCOM Declassified gespielt hab, ist mir das Teil wieder nach ca. 10 Minuten abgestürzt. Ist keine große Rechenlast und die GPU schon alt, also die als nächstes getestet

Nächster Part war ein GPU Test. Nach ca. 5-10 Minuten FurMark bekomme ich oft einen Absturz. Allerdings sind die GPU Temperaturen mit 80° im Rahmen und der Lüfter dreht unter 50%. 87% TDP. Furmark und Prime sind oft ein sofortiger Crash. Irgendwie scheint mir die Stromversorgung (PSU oder Mobo) immer verdächtiger.

Hab mit einem digitalen Multimeter also das PSU ausgemessen und dabei insgesamt etwas zu hohe Spannungen auf der 12V Schiene gemessen:
3.3V: 3.46
5V: 5.24
12V: 12.7
-12V: -12.43
HWMonitor allerdings sagt es passt alles mit 3.328V, 5.040V und 12.192V

Hab zur Sicherheit ein anderes Netzteil gemessen um ev. Messfehler des Multimeters bzw. Eigenheit meines Stromnetzes vorzubeugen
War ein Xilence Performance X 550W Xilence Performance X 550W ATX | Preisvergleich geizhals.eu EU
3.3V: 3.5
5V: 5.27
12V: 12.59
-12V: -12.52


tl;dr:
Neue CPU und upgedatetes BIOS
regelmäßige Abstürze ab gewisser Last seit Kurzem
Viele Fehler in BOINC
Seitenwand abgenommen
CPU <65°
WLP der CPU ausgetauscht im Falle von "Hotspots" wegen schlechter Paste
Hohe Auto-Voltage bis 1.46V
Core Voltage fixieren hat nichts gebracht.
RAM-Sticks einzeln stürzt weiterhin ab
Reproduzierbarer Absturz in Prime bei Wechsel von Large FFT auf Small FFT
GPU ~80° unter Volllast mit Lüfter auf ~50%
Absturz mit FurMark und Prime95 gleichzeitig
PSU-Spannung leicht über Spezifikation


Jetzt bin ich mir unschlüssig. Die Fehler treten auf, seit CPU ausgetauscht und BIOS upgedatet wurde. Da es aber auch Abstürze mit FurMark alleine gibt glaube ich weniger an einen Fehler der CPU (bzw. will ich vorher alles andere ausschließen). Hab zur Sicherheit ein neues Mobo geordert und werde damit testen. Allerdings bringt mir ein neues Mobo nichts, wenn es von einem potentiell fehlerhaften PSU fritiert wird.

Habt ihr vielleicht Vorschläge, wie ich noch etwas ausschließen kann, bzw. Ideen woran es liegen könnte? GPU werd ich noch in einem anderen PC testen und wie gesagt ein anderes Mobo für die CPU.
 
AW: Regelmäßige Abstürze/Neustarts: Mainboard, CPU, PSU oder doch GPU?

Den Ram hast du mal generell getestet mit memtest86+
Die Graka ist ab Werk übertaktet.Da würde ich auch mal versuchen anzusetzen wenn Furmark nicht stabil läuft.Mal mit Msi Afterburner den Takt senken. Oder mit der MSI Gaming App?
Ich hab eine Msi 1050TI und auch ab und an Probleme mit TDR Fehler und Video Scheduler BSOD.
0x119_5_DRIVER_FAULTED_SYSTEM_COMMAND_nvlddmkm!CNvLAdapter::NotifyInterruptCb
LKD_0x141_Tdr:6_IMAGE_nvlddmkm.sys_Pascal_3D

Was steht denn bei dir im Zuverlässigkeitsverlauf von Windows drin?Sicherheit/Wartung
Ich kann schon nicht mehr zählen wie oft ich den Nvidia Treiber neuinstalliert habe.Windows auch zurückgesetzt auf 1709.
 
AW: Regelmäßige Abstürze/Neustarts: Mainboard, CPU, PSU oder doch GPU?

Erst mal danke für die Hilfe.

Die Sache ist, das FurMark auch mal 10 Minuten problemlos läuft (sogar der werkseitige Core-Boost von 1020 auf 1085MHz wird durchgezogen). Generell läuft das System nach längerem Idle bzw. ausgeschaltet sein eine gewisse Zeit stabil. Sobald aber mal abgestürzt kann man den PC mit diversen Maßnahmen gleich wieder in die Knie zwingen.

BSOD im Zusammenhang mit GPU-Treiber hatte ich zuletzt unter Win 7 und noch mit Q6600/P45. Da war es klar auf den Treiber zurückzuführen. Nach Umstieg auf (den ersten) Ryzen und Linux gabs diesbezüglich keine Probleme mehr. Auch nicht unter Win 10.
Hier hab ich Neustarts ohne jegliche Vorwarnung. Auf einmal ist einfach alles schwarz.

Die Karte hab ich sogar erst im April aus Neugier ausgetestet, die hat problemlos ein paar (100) MHz sowohl beim Core als auch Speicher mehr vertragen, getestet mit Unigine Heaven und Furmark. Da aber kaum Mehrwert vorhanden war hab ich wieder runtergetaktet.

Zuverlässigkeitsverlauf sagt nur "Das System wurde nicht ordnungsgemäß heruntergefahren".
 
AW: Regelmäßige Abstürze/Neustarts: Mainboard, CPU, PSU oder doch GPU?

Probier mal die taktraten und latenzen des Rams manuell zu optimieren. Hat bei mir zumindest die Bluescreens verhindert.

Sonst könnte noch eine Windows neu Installation oder ein Chipsatztreiber Update helfen.
 
AW: Regelmäßige Abstürze/Neustarts: Mainboard, CPU, PSU oder doch GPU?

Probier mal die taktraten und latenzen des Rams manuell zu optimieren. Hat bei mir zumindest die Bluescreens verhindert.

Sonst könnte noch eine Windows neu Installation oder ein Chipsatztreiber Update helfen.

Obwohl sie mit 2133 CL16 laufen?

An Windows kann es nicht liegen, da ich die Abstürze sowohl unter Ubuntu, als auch Windows habe.
 
Zuletzt bearbeitet:
AW: Regelmäßige Abstürze/Neustarts: Mainboard, CPU, PSU oder doch GPU?

Update:
Scheint das Motherboard (gewesen) zu sein.
Hab jetzt mit einem Ersatzboard schon knapp eine Stunde Prime95 und FurMark laufen, die auf dem alten Board nach nicht mal 10 Minuten zum Absturz geführt haben.
Einzige Unterschiede sind eine SSD und 2.5" HDD die nicht verbunden sind (aber eh nur unter Linux laufen) und ich für den Test den Boxed Kühler verwende, weil ich nicht die Backplate ummoniteren wollte, also sogar schlechtere Temperaturen und eine nicht verbundene Soundkarte (da das Ersatzboard keinen PCI-Anschluss hat)

Lasse über Nacht jetzt mal durchlaufen, wenn es keinen Neustart gibt, ist die Sache für mich klar.

Danke an Lichtbringer und Schwarzseher für die Mithilfe bei der Lösungsfindung.
 
Zurück