WHEA-Crashes bei Ryzen 3900XT

TheKingPin

Schraubenverwechsler(in)
Guten Abend,

Ich habe mir vor einiger Zeit ein System zusammengebaut, und bekomme WHEA-Logger Fehler die zum Neustart des Systems ohne Bluescreen führen. Bin zuerst davon ausgegangen dass es der Prozessor ist, allerdings wechselt bei jedem Eintrag die APIC ID und ich weiß nicht so genau wie ich jetzt auf Fehlersuche gehen soll... Ich brauche den Prozessor zum Arbeiten (bin Musikproduzent und habe noch laufende Projekte) deswegen würde ich gern auf eine RMA verzichten solange nicht sicher ist, dass es wirklich daran liegt.

Das System sieht folgendermaßen aus:

CPU: AMD Ryzen 9 3900XT
GPU: XFX 5700XT Triple Dissipation 8GB
RAM: 64GB Corsair Vengeance RGB @3200 mhz CL16
Mainboard: ASUS Crosshair VIII Hero
PSU: be quiet! Dark Power Pro 11 650W
Festplatten: 2x Seagate Exos 8TB 7200 U/min
SSDs: 2x Transcend 220S 1TB M.2

BIOS und Treiber sind auf dem neusten Stand...
Habe schon einmal das OS (Win10 20H2) neu aufgesetzt, PBO und CPB deaktiviert (auf Anraten von einem anderen Forum) und den Ram auf 2100mhz (default Settings) laufen lassen, alles ohne Erfolg. Der Fehler lässt sich nicht wirklich verlässlich reproduzieren (Prime95 und Furmark liefen schon 3 Stunden ohne Fehler), er tritt sowohl unter Last als auch im Idle auf... Temperaturen sind für Air Cooling denke ich normal (CPU 85°C nach den 3 Stunden und GPU bei 75°C).
Habe gehört dass die GPU mglw. Spannungsspitzen bis zu 350W zieht, die die PSU in die Knie zwingen, kann das sein?
Bin leider nicht bewandert genug im Bereich CPU Overclocking um die einzelnen Spannungswerte auszulesen/zu deuten... Wäre super dankbar falls jemand bereit ist zu helfen!
Falls irgendwelche Logs oder Werte gebraucht werden schicke ich sie natürlich noch hinterher!

MFG
TheKingPin
 
WHEA-Fehler sind bei Ryzen3000/5000-Systemen bekannt und das hat rein gar nichts mit Netzteilen, RAM-Taktraten, PBO oder sonstwas zu tun (deswegen ändert all das auch dein Problem nicht). Ebenfalls hat das Null einfluss auf Laststabilität (weswegen Prime95 wochenlang fehlerfrei laufen wird).

Der WHEA-Bug um ihn mal so zu nennen kommt (wenn auch selten) sporadisch auf diesen Systemen vor und wurde/wird in aller Regel sehr schnell von AMD und den Boardhgerstellern durch passende BIOS-Updates behoben. Traurige Berühmtheit hat der WHEA-Bug im Zusammengang mit M.2-SSDs insbesondere von Samsung Mitte 2019 erhalten da es hier elend lange (mehrere Monate) dauerte bis neue BIOS-Versionen das Problem behoben haben. Ich war damals ebenfalls betroffen wobei der Fehler keine Abstürze produzierte sondern nur Ereignisanzeigen-Meldungen. Es gibt aber leider noch immer WHEA-Fehler vereinzelt da draußen die nie behoben wurden.

Das traurige an der Sache für dich: Du kannst daran als Nutzer quasi gar nichts machen (außer das Mainboard durch ein anderes zu ersetzen und zu hoffen...). Wenn ASUS den Bug bei dem Board nach 1,5 Jahren noch nicht gefixed hat sehe ich die Chancen als gering an dass sie das irgendwann noch tun werden.

Das einzige was man probieren könnte wäre, testweise eine andere SSD zu verwenden und die beiden Transcend auszubauen. Da viele WHEA-Fehler auf die Datenträger zurückzuführen waren weil sich da mit vereinzelten Modellen irgendwas nicht vertragen hat KÖNNTE das die Ursache sein.
Wenn du keine andere SSD hast baue mal nur die obere M.2 aus (die direkt an die CPU angebunden ist), die haben häufiger WHEA-Fehler produziert als die Anbindung unten über den X570-Chipsatz. Ich hab bis heute meine M.2 am untersten Slot übern Chipsatz laufen da ich auch nach dem BIOS-Update nicht mehr umgebaut hatte.
 
Vielen vielen Dank für die schnelle Antwort!

Klingt ja alles ein wenig traurig... Grade nach der positiven Berichterstattung seit Release hatte ich eigentlich gehofft mich mit so was nicht rumschlagen zu müssen... Nur eine M2 SSD laufen zu lassen wäre für mich schon fast zu wenig schneller Speicherplatz auf Dauer (VSTs und Libraries sitzen auf der zweiten), ich werde das aber mal zu Testzwecken umbauen... Ich denke ich wende mich mal an den ASUS Support, vielleicht wissen die ja was zu tun ist oder haben vielleicht ne optionale BIOS Version die ich noch nicht testen konnte... Dennoch einfach super von dir so schnell eine so detaillierte Antwort zu liefern! Mal sehen wie sich das ganze nach dem Umbau verhält, ich gebe dann noch einmal Rückmeldung!

Noch mal vielen Dank!

MFG
TheKingPin
 
Gern geschehen (dass die Antwort so detailliert ist liegt wohl daran dass ich genau die Probleme 2019 schon hatte und tonnenweise zeug darüber gelesen habe seitdem... glücklicherweise bei mir mit gutem Ausgang bzw. Bios-Bugfix^^), bin gespannt ob/was sich bei dir ergibt.
 
Hatte auf meinem B550 Board auch WHEA-Fehler fehler bei 3200Mhz Ramfrequenz und bei Vollbestückung(48GB) und das obwohl die eigentliche verwendete Hardwarekomponenten wie GPU , 4 Ram Module und CPU einwandfrei funktionieren.Darauf hin habe ich alle verfügbaren UEFI BIOS Versionen getestet und seltsamerweise sollten die aktuellere Version am stabilsten und am besten sein.Doch bei mir war es sogar das Gegenteil ,eine ältere UEFI Version lief ohne Fehler.Damit will ich sagen das auch die UEFI BIOS Version einen großen einfluß haben kann,ob jene Fehler je nach Boardhersteller und Hardwarekomponenten auftretten tut (kann)oder nicht.Nutze als CPU 3900X.
 
Hi,

hier noch mal ein kurzes Update:

Der Austausch der M2 hat nicht funktioniert, Crashes sind immer noch vorhanden... Habe schon den ASUS Support kontaktiert, allerdings hab ich wenig Hoffnung dass die eine Lösung finden bei dem was ich so Online mitbekommen hab...

Was wäre denn der nächst-beste Schritt? Habe vom Verkäufer bereits eine RMA für den Prozessor angefordert, wenn es allerdings das Board ist wird das ja nichts bringen... Muss jetzt erstmal ab Montag die Arbeit am PC pausieren da ich keine Ersatz-CPU habe... Kann ich bis dahin noch irgendetwas testen dass dem Problem Abhilfe verschaffen kann? Habe beim Umbau auch alle Kabel noch einmal neu gesteckt und drauf geachtet dass alles richtig sitzt, ein Einbaufehler kann es also nicht sein...

Bin für alle Vorschläge dankbar und offen...

MFG
TheKingPin
Hatte auf meinem B550 Board auch WHEA-Fehler fehler bei 3200Mhz Ramfrequenz und bei Vollbestückung(48GB) und das obwohl die eigentliche verwendete Hardwarekomponenten wie GPU , 4 Ram Module und CPU einwandfrei funktionieren.Darauf hin habe ich alle verfügbaren UEFI BIOS Versionen getestet und seltsamerweise sollten die aktuellere Version am stabilsten und am besten sein.Doch bei mir war es sogar das Gegenteil ,eine ältere UEFI Version lief ohne Fehler.Damit will ich sagen das auch die UEFI BIOS Version einen großen einfluß haben kann,ob jene Fehler je nach Boardhersteller und Hardwarekomponenten auftretten tut (kann)oder nicht.Nutze als CPU 3900X.
Kannst du mir sagen was für ein Board du verwendest? Auch von ASUS? Hast du zufällig die AGESA Version von deinem BIOS für mich? Habe glaub ich alles durch von 1.0.8.0 bis 1.2.0.0, aber vielleicht hab ich ja was ausgelassen...
 
Das Umschalten von der Power Supply Idle Control hat leider nicht funktioniert...
Ich bin hier langsam echt am Verzweifeln...
Was jetzt neu dazu gekommen ist, dass der Bildschirm flackert bevor der Crash auftritt... Ich habe jetzt auch statt einem Eintrag pro Crash gleich 4 hintereinander... Alle mit wechselnder APIC ID
Könnte es vielleicht die Anforderung an die GPU sein? Ich betreibe das System an einem Samsung 49" Ultrawide Display, meine Austauschkarte war eine R9 290 Tri-X OC... Kann es sein dass beide Karten vielleicht mit der Auflösung 5120x1440 nicht klar kommen?
 
Zurück