Random PC reboot/crash Ryzen 7 5800x

Ozzelot

PC-Selbstbauer(in)
Hallo,
über das letzte Jahr verteilt hat sich mein PC immer mal wieder vollkommen willkürlich neu gestartet, manchmal im idle in Windows, während dem surfen im Web oder beim zocken. Danach konnte im im Event Viewer immer einen dieser beiden Errors finden.

"A fatal hardware error has occurred.

Reported by component: Processor Core
Error Source: Machine Check Exception
Error Type: Cache Hierarchy Error

Processor APIC ID: 14"

oder

"A fatal hardware error has occurred.

Reported by component: Processor Core
Error Source: Machine Check Exception
Error Type: Cache Hierarchy Error

Processor APIC ID: 15"

"Source: WHEA-Logger Event ID: 18"


Gefühlt wurden die Neustarts immer regelmäßiger. Habe im September dann nach Lösungen im Netz gesucht und danach zwei Dinge im BIOS geändert.
Einmal hab ich die "Global C-state Control" von "Auto" auf "Disabled" gestellt und den "Curve Optimizer" von "Auto" auf "All Cores" und "All Core Curve Optimizer Magnitude" von "0" auf "5" gestellt.
Seitdem lief der Rechner stabil bis er sich vor zwei Tagen wieder neu gestartet hat mit dem selben Error im Event Viewer.
Weiß nun nicht mehr wirklich weiter, soll ich die "Curve Optimizer Magnitude" noch etwas höher stellen oder gibt der CPU langsam den Geist auf, bzw. liegt es überhaupt am CPU. Temperaturen waren immer im grünen Bereich auch unter längeren Tests in Cinebench.

Vielen Dank für eure Hilfe! :hail:

Grüße Ozzelot
 
Zuletzt bearbeitet:
Liste erst mal diene gesamte Hardware auf, so detailliert wie nur irgend möglich! (Bitte keine groben Angaben, zum Beispiel "ich habe 32GB DDR4", dass bringt uns nichts)
Aktuellste BIOS-Version installiert?
Nach den Angaben hast du scheinbar Ryzen, nutzt du den aktuellste Chipsatztreiber?
Irgendwas übertaktet, optimiert oder untervoltet?

Je mehr Informationen du uns gibst, desto besser und schneller können wir dir helfen.
 
Stelle nicht beliebig Dinge irgendwie...

Da kann womöglich ein Kern bei dir sehr schwach sein und sich gelegentlich aufhängen.
Hilf dir selber und arbeite mal folgenden Guide durch:

Am Ende findest du dadurch heraus, welche die schwachen Kern(e) sind und wie du die im Curve Optimizer richtig einstellst.

Sollte das wider Erwarten nicht helfen, dann muss man sich mal deinen RAM anschaun, wie exakt der im Bios konfiguriert ist. Das kannst du z.B. per Zen Timings als Screenshot sichern und hier hochladen.
 
Das UEFI mal auf Standard zurücksetzen und laufen lassen.

Wenn ich mich Recht erinnere kommt es bei einem instabilen IF zu whea 18 Fehler.
Da kann das erhöhen der SoC Spannung helfen oder eben den RAM takt reduzieren.
 
Liste erst mal diene gesamte Hardware auf, so detailliert wie nur irgend möglich! (Bitte keine groben Angaben, zum Beispiel "ich habe 32GB DDR4", dass bringt uns nichts)
Aktuellste BIOS-Version installiert?
Nach den Angaben hast du scheinbar Ryzen, nutzt du den aktuellste Chipsatztreiber?
Irgendwas übertaktet, optimiert oder untervoltet?

Je mehr Informationen du uns gibst, desto besser und schneller können wir dir helfen.

CPU: AMD Ryzen 7 5800X
Cooler: Arctic Liquid Freezer II 360 A-RGB
GPU: ASUS Dual GeForce RTX 2070 SUPER OC Evo
RAM: G.Skill Trident Z Neo 32GB DDR4-3600 CL16
Mainboard: ASUS ROG Strix B550-E Gaming
PSU: be quiet! Straight Power 11 Platinum 850W
Festplatte(n): Samsung M.2 SSD 970 EVO Plus 2TB, Western Digital WD Red 2TB
OS: Windows 10 64bit
Case: be quiet! Silent Base 802

BIOS und Treiber sind alle up to date.

Bis auf das D.O.C.P. Profil für den Arbeitsspeicher hab ich nichts im BIOS geändert. Der Rechner lief so fast 2 Jahre ohne Probleme bis es zu den ersten Abstürzen kam. Danach hab ich die oben erwähnten Änderungen vorgenommen und der Rechner lief wieder ca. 4 Monate ohne Probleme, jetzt hatte ich wieder einen Absturz bisher und hoffe das es dabei bleibt. :schief:

Stelle nicht beliebig Dinge irgendwie...

Da kann womöglich ein Kern bei dir sehr schwach sein und sich gelegentlich aufhängen.
Hilf dir selber und arbeite mal folgenden Guide durch:

Am Ende findest du dadurch heraus, welche die schwachen Kern(e) sind und wie du die im Curve Optimizer richtig einstellst.

Sollte das wider Erwarten nicht helfen, dann muss man sich mal deinen RAM anschaun, wie exakt der im Bios konfiguriert ist. Das kannst du z.B. per Zen Timings als Screenshot sichern und hier hochladen.

Den Guide werde ich mir mal durchlesen, danke.

Sofern noch die Garantie greift, reklamieren.

mit frdl. Gruß

Garantie ist leider durch, falls es wirklich am CPU liegen sollte würde ich mir wohl einen 5800X3D zulegen.

Das UEFI mal auf Standard zurücksetzen und laufen lassen.

Kann ich versuchen wobei ich ja sonst nichts großartig verändert habe und vermute das die Abstürze dann wieder häufiger vorkommen, leider kann ich sie nicht wirklich reproduzieren, bevor ich die Einstellungen vorgenommen hab waren sie ziemlich willkürlich, mal 2-3 mal an einem Tag dann für 2 Wochen gar nicht usw.
 
Also ich würde wie folgt vorgehen:
1.Bios Default laden
2. In Windows DISM und SFC ausführen mehr hier:
3.Wurden dabei Fehler gefunden war dein RAM schon lang Instabil oder die Festplatte hat einen weg.
3.5 Festplatte überprüfen z.b Crystal Disk Info
4.DOCP wieder aktivieren diesmal nur auf 3200 mhz.
5.Testen
 
DISM und SFC haben beide nichts gefunden unter BIOS Default Settings. DOCP hab ich jetzt wieder aktiviert, aber wie du geschrieben hast von 3600 auf 3200 MHz gesenkt.

DISM:
DISM.png

SFC:
SFC.png

CrystalDiskInfo von SSD und HDD:
DiskInfo64Info SSD.png

DiskInfo64Info HDD.png

Zen Timings BIOS Default:
ZenTimings Default BIOS.png

Zen Timings DOCP 3200 MHz:
ZenTimings DOCP 3200 MHz.png

Was die ganze Sache für mich so kompliziert macht ist, dass ich die Reboots nicht provozieren kann und ich halt stellenweiße für Wochen keine Probleme habe obwohl der Rechner täglich mehrere Stunden in gebrauch ist.
Hier ist ein Screenshot von allen WHEA Logger Errors auf dem Event Viewer.
WHEA Errors.png
Am 30.09. hatte ich dann den Curve Optimizer auf +5 für alle Kerne gestellt und dann bis zum 16.01. keine Probleme mehr. Wobei der Error immer nur die Prozessor APIC ID 14/15 angibt, was darauf schließen sollte das der Kern der Probleme macht Kern 7 ist laut dem Report von CPU-Z.
APIC ID.png
Könnte jetzt mit Hilfe des Guides oben mit dem Curve Optimizer rum experimentieren, aber da ich den Fehler nicht wirklich reproduzieren kann kann das ganze wohl ein bisschen dauern. Zumindest wüsste ich aber auf welchen Kern ich mich konzentrieren sollte. Was vielleicht noch interessant ist ist das die meisten Reboots beim surfen bzw. im idle passiert sind also nicht unter voller Last, wenn ich mich richtig erinnere waren nur zwei der Reboots beim zocken in World of Warcraft, das ist hängen geblieben da ich bei beiden Reboots einen Hardcore Character verloren hab. ;-( Ist halt echt komisch das der Rechner vorher für ca. 2 Jahre ohne Probleme lief und auch sonst keine Veränderungen vor den Errors vorgenommen wurden.
 
Lass mal einen RAM Test durchlaufen:
dort die Variante nehmen die man auf einen bootfähig usb stick macht und in diesse booten und durchfhren lassen geht 2-4-Stunden.
Es sollten null errors angezeigt werden.
Eingebundener Inhalt
An dieser Stelle findest du externe Inhalte von Youtube. Zum Schutz deiner persönlichen Daten werden externe Einbindungen erst angezeigt, wenn du dies durch Klick auf "Alle externen Inhalte laden" bestätigst: Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit werden personenbezogene Daten an Drittplattformen übermittelt.
Für mehr Informationen besuche die Datenschutz-Seite.
 
Soll ich die RAM Riegel auch jeweils einzeln testen wie im Video oder den Test erstmal mit beiden gleichzeitig durchlaufen lassen und falls Fehler auftreten dann einzeln um zu gucken welche Riegel kaputt ist?
 
Soll ich die RAM Riegel auch jeweils einzeln testen wie im Video oder den Test erstmal mit beiden gleichzeitig durchlaufen lassen und falls Fehler auftreten dann einzeln um zu gucken welche Riegel kaputt ist?
Ja genau erstmal mit beiden gerne auch mit XMP an, und dann bei fehlen ohne XMP immer noch Fehlern einzelne.
Immer noch Fehler vlt mal einen anderen Chanel wählen , also statt slot 2 und 4 1 und 3 oder halt einzeln
 
Keine Fehler gefunden, Test war mit DOCP auf 3200 MHz
MemtestResult.png
Soll ich nochmal einen Durchlauf mit DOCP auf 3600 MHz machen?

Puh, gottseidank gibt es den CoreCycler.
Habe schon versucht den Fehler mit CoreCycler zu reproduzieren, aber der lief auch immer ohne Probleme durch mit den default Werten und als ich alle Kerne auf +5 gestellt habe, kann ich aber trotzdem nochmal testen.
 
Warum hier nicht die Garantie in Anspruch genommen wird, will sich mir nicht erschließen. Der Aufwand ist doch mitnichten vertretbar.

mit frdl. Gruß
 
Ich würde mal sagen der RAM ist I.O.
Wurde Windows schonmal neu Installiert?
Kann eigentlich nur noch board oder CPU sein.
Ja Windows wurde Im September neu installiert, also die Fehler waren vor und nach der Installation.
Werde den CPU nochmal mit CoreCycler testen und besonders auf Kern 7 achten und gucken ob ich einen Fehler provozieren kann.

Warum hier nicht die Garantie in Anspruch genommen wird, will sich mir nicht erschließen. Der Aufwand ist doch mitnichten vertretbar.
Ob die Garantie noch greift weiß ich gar nicht genau, waren es nicht 2 Jahre, die Komponenten hab ich im August/September 2021 gekauft.
 
Habe heute mit CoreCycler 4 Kerne jeweils einzeln getestet mit HT aktiv und BIOS alles auf default. Angefangen mit Kern 7 der dann einmal nach ca. einer Stunde, dann nach 30 Minuten und im dritten Durchlauf nach ca. 2 Stunden einen Crash verursacht hat mit dem selben WHEA Error im Event Viewer (Processor APIC ID 14 /15). Danach Kern 0, 1 und 2 die liefen alle ohne Probleme für jeweils für 4 Stunden durch. Werde morgen noch die anderen 4 Kerne testen, aber vermute mal stark das sie auch ohne Probleme durch laufen werden.
 
Zurück