Ryzen 5600X: Schwerwiegender Hardwarefehler, Bus/Interconnect Error (WHEA-18) und Restarts

Bilgeco_DE

Schraubenverwechsler(in)
Vorwort / Lösung des Problems

Nach Monaten der Fehlersuche und zig Maßnahmen war die einzige Lösung für mich und einige andere im folgenden Thread die Rücksendung der CPU. Der WHEA-18 Fehler (Bus/Interconnect oder Cache Hierarchy Error) äußert sich durch einen nicht behebbaren CPU-Defekt, welcher insbesondere bei Zen3 CPUs (Ryzen 5xxx), seltener aber auch bei Ryzen 3xxx aufzutreten scheint. Die genaue Ursache ist (Stand 06/2021) nach wie vor unbekannt, da AMD bisher kein Statement abgab.


Guten Abend zusammen,

bei einem neuen System mit o.g. Prozessor treten sporadische Restarts ohne Bluescreen bereits im Idle auf, spätestens jedoch, wenn der PC unter Last gesetzt wird. Als ich versuchte, den Unigine Benchmark anzuwerfen, um etwas Last zu generieren, schmiert der PC im Ladeprozess ab, ziemlich genau dort, wo der Benchmark eigentlich starten sollte. Die Installation der GeForce-Treiber ist nicht möglich, da der PC die Installation nicht ohne Restart durchsteht. Die Windows Ereignisanzeige spuckt einen schwerwiegenden Hardwarefehler aus, Screenshot anbei, zusammen mit kritischen Kernel-Power Fehlern (System wurde unerwartet neugestartet), jedoch mit BugCheckCode '0', ergo Hardware-Problem laut Microsoft Supportpaper, da er so schnell restarted, dass kein Errorcode generiert werden kann. Beide Fehler werden nach jedem Neustart generiert.

  • MSI MPG B550 Gaming Plus (neueste nicht-Beta-BIOS-Version)
  • Ryzen 5 5600X Standardtakt
  • EVGA GTX 1070 (Übergangslösung)
  • G.Skill Aegis 2x8 GB DDR4 RAM @ Standard 2133MHz
  • BeQuiet Pure Power 600W
  • Samsung EVO 970 M.2 SSD 500 GB

  • Mehrmalige Win 20H2 Neuinstallation von verschiedenen Sticks mit Rufus und dem Media Creation Tool
  • Je Win Installation verschiedene GPUs getestet, AMD und Nvidia
  • RAM (kompatibel zum MoBo) in verschiedenen Slots probiert auf Standardtakt und XMP-Profilen, 8h Memtest86 ohne Fehler
  • Mainboardbefestigung geprüft, alle Schrauben & Abstandshalter vorhanden, GPU & RAM nachgesteckt, CPU-Kühler neu montiert, alle Kabel neugesteckt
  • Windows im abgesicherten Modus gestartet -> Restart im Idle nach einigen Minuten
  • Chipsatztreiber manuell aktualisiert (erst nach vielen Restarts, waren vorher auch schon da), GPU (lief nach vielen Versuchen irgendwann durch ohne Absturz), LAN und Audiotreiber aktuell
  • BIOS auf die neueste nicht-Beta-Version aktualisiert, läuft auf default settings

Nach etwas Recherche scheint der WHEA-Fehler nicht unbekannt zu sein bei Ryzen 5xxx, kann ich dann davon ausgehen, dass die CPU einen Schuss hat? Oder ist das Mainboard hier wahrscheinlicher, wegen der Beschreibung 'Bus/Interconnect Error'? Das Netzteil ist für mich eigentlich aus dem Schneider, wegen dem Hardwarefehler, bei einer Spannungsstörung sollte wenn überhaupt nur der Kernel-Power-Fehler auftreten schätze ich. RAM würde ich auch ausschließen und die 1070 lief vorher problemfrei in einem anderem Rechner.

Hat vielleicht jemand noch eine Idee für mich? Oder soll ich schonmal die CPU RMA beantragen, vielleicht samt Mainboard?

Danke für's Lesen! :-)
 

Anhänge

  • Ereigniseigenschaften_Allgemein.PNG
    Ereigniseigenschaften_Allgemein.PNG
    17,7 KB · Aufrufe: 522
  • Ereigniseigenschaften_Details.PNG
    Ereigniseigenschaften_Details.PNG
    138,6 KB · Aufrufe: 530
Zuletzt bearbeitet:
Ist das neuste Bios auf dem Board und die Chipsatztreiber?
Hat er alles im Spoiler stehen.
Mir fällt da leider auch nichts ein, alls was man so machen kann hat er getan.
Nur testen mit anderer Hardware käme noch in Frage aber ist halt schwierig bei CPU , Mainboard.
Oder anderen RAM probieren.
 
@Schwarzseher
@rhalin

Ja das BIOS ist auf der aktuellsten nicht-Beta-Version und der Chipsatztreiber ist auch aktuell, beides auch nachgeprüft.

Anderen RAM habe ich zunächst nicht geprüft, da dieser für mich nach 8h Memtest86 ohne Fehler und mit Einzelbestückung jeweils in verschiedenen Slots eher unverdächtig erschien, da die Ausgangsproblematik nach wie vor bestand. Kann ich aber ggf. noch machen.

Andere CPU / Mainboard zu testen habe ich spontan nicht die Möglichkeit außer evtl. neue zu bestellen, aber im Moment deutet ohnehin alles auf einen CPU-Defekt hin.

Ich habe zwischenzeitlich noch die Tipps bekommen, den Core Perfomance Boost sowie Precision Boost Overdrive (als finalen Test) zu deaktivieren. Außerdem den RAM im BIOS von DOCP auf Auto, falls auf DOCP gestellt, was ich gerade gar nicht weiß. Falls der Rechner dann stabil bleibt kann ich die CPU direkt ausbauen und wegschicken ...

Außerdem noch einige BIOS-Settings bzgl. Netzteil Stromversorgung, Global C-States, PSU Idle Control und Power Down Mode ...

Ich werde berichten was sich ergibt.
 
Bei mir zeigt sich ein ähnliches Verhalten (5800X & Asus B550-E):
Idle-Crashes beim Browsen, bei Lastwechseln (z.B. nach GTA 5, beim Laden oder Ingame bei Star Citizen); das Internet scheint voll mit ähnlichen Meldungen darüber zu sein - vermutlich Platz 2 nach Katzenbildern.
Prime95, Stresstests und anderer Kram, sowie MemTest mit zwei verschiedenen Kits (2x8 @ 3000, 2x32 @ 3200) im Default sowie mit DOCP liefen jeweils problemlos durch.

Lösungen gabs bisher nicht, keine der Einstellungen im Bios zeigte irgendeine Besserung.
Getestet, jeweils mit CMOS Clear und Default Settings, die aktuellen Bios-Versionen stable & beta.

Habe jetzt mal eine neue CPU bestellt, werde vermutlich ab Mittwoch zum Testen kommen.
(Edit: Leerzeichen nach @, da 3000 ein User ist...)
 
Es gab ja eine ganze Weile Bios Probleme mit bestimmten Agesa Versionen und auch USB Probleme vorallem bei B550 Boards .Da sollte aber das meiste von gefixt worden sein .
Da wird wohl wirklich der Cache oder ein Kern oder Speichercontroller defekt sein.

Meldungen mit gleichen Problemen gibt es da leider zu hauf

Ganz am Anfang hieß es immer die C-States deaktivieren oder PCIe 4.0 usw.

EDIT:
Kann man bei dem Board vielleicht auch einzelne Kerne Deaktivieren?
SMT komplett das weiß ich wohl.
Dann kann man das evtl. direkt der CPU zuschreiben wenn es so läuft .Sollte der Cache defekt sein wird es wohl weniger von Nutzen sein .
 
Zuletzt bearbeitet:
Zumindest in meinem Fall mit Agesa 1.2.0.2 (das passende Bios führt Asus noch als Beta) ist USB etwas besser, aber konstante Datenraten weiterhin nicht möglich, z.B. USB-TV Stick.

Zu dem WHEA 18 gibt es wohl hauptsächlich zwei Stammgäste: Bus/Interconnect Error sowie Cache Hierarchy Error.
Bei letzterem wurde wohl oft ein CPU-Tausch durchgeführt; ich hoffe mal dass das in unserem Fall (@Bilgeco_DE und mir) auch etwas bringt.
In wie weit natürlich auch Windows in der Lage ist, das zum Zeitpunkt des Crashes sauber aufzudröseln, kann ich nicht beurteilen.

Auch gibt es Hinweise, zumindest zum Cache Error, TDC limit bzw. EDC current limit auf 190-200A zu setzen, konnte aber im Bios nichts passendes finden.
AMD Community-Ryzen 5800x system crashing into reboot

SMT werde ich das nächste mal mit deaktivieren; Global C-States=off sowie der Standard-Kram (CBP, PBS, PBO, JBO, ...) wurden immer wieder getestet.
Bei einzelnen Kernen bin ich mir nicht sicher, gefunden habe ich nichts.
 
@Gwandlaus

In dem von dir verlinkten Thread wird von Anpassungen im PBO gesprochen, wodurch allerdings die Garantie erlischt, wenn ich richtig informiert bin? Jedenfalls erhalte ich im BIOS eine entsprechende Warnung, sobald ich dort etwas ändern möchte. Ich bin mir nicht sicher, ob es bereits zählt, PBO zu deaktivieren (glaube Standard ist Auto?), da ich das eigentlich noch testen wollte ...

Laut dem Beitrag scheint es ja an der CPU in Kombo mit dem Mainboard zu liegen, da das BIOS einfach nicht mit der CPU out of the box klarzukommen scheint. In diesem Fall fürchte ich dann aber keine Besserung durch Austausch der CPU, wenn es bei der selben bleibt. Ist natürlich nur die Vermutung des Autors. Dagegen spricht, dass viele nach dem Austausch der CPU Ruhe hatten. Und wenn Ryzen 5xxx grundsätzlich nicht mit bestimmten Mainboards funktionieren würde, gäbe es wohl deutlich mehr bekannte Problemfälle als bisher. Momentan wirkt es auf mich wie ein Fehler, der bei bestimmten CPU / MoBo Konstellationen auftreten kann. Fraglich dann aber, ob nur die CPU Schuld ist, aber laut vielen Berichten ja schon. Interessant zu wissen wäre auch, welche Unterschiede es zwischen dem Bus/Interconnect und dem Cache Hierarchy Error genau gibt.

Beim Recherchieren ist mir auch aufgefallen, dass der Cache Hierarchy Error definitiv häufiger vorzukommen scheint, als der Bus/Interconnect Error.

@Schwarzseher Ob einzelne Kerne abschaltbar sind werde ich mir auch mal anschauen.
 
In dem von dir verlinkten Thread wird von Anpassungen im PBO gesprochen, wodurch allerdings die Garantie erlischt
Ich bin mir tatsächlich nicht ganz sicher - ich fand bei mir diese Einstellungen unter dem AI Tweaker, dort hatte ich diese Meldung m.W. nicht gesehen.
Muss aber dazu sagen, ich habe die letzten zwei Wochen öfters im Bios Einstellungen verstellt als in den letzten fast 30 Jahren addiert (gut, das war immer Intel, das war von Haus aus stabil ;-) ) und eventuell gewisse Hinweise selektiv ignoriere.

Jedenfalls habe ich dort die Einstellungen umgesetzt:
EDC = 180
PPT = 130
TDC Thermal Limit = 85 (°C)

Seit dem scheint es stabiler zu sein, zumindest diese Idle-Reboots sind momentan nicht mehr so oft aufgetreten.
Mit ein wenig "Glück" tatsächlich nur eine Unstimmigkeit zwischen CPU und Bios, wobei ich dachte die Early-Adoper Phase sollte vorbei sein.

Edit: Es gab wieder einen Reboot, aber man konnte länger arbeiten.
 
Zuletzt bearbeitet:
@Gwandlaus

Interessant, danke für's Berichten.

Ich bin mal wirklich gespannt, ob bei dir nach dem CPU-Tausch Besserung eintritt. Ich teste kommende Woche noch die letzten mir zur Verfügung stehenden Tipps und schaue, ob ich den CPU-Defekt damit bestätigen kann. Ich habe da echt etwas auf das Deaktivieren des CBP gehofft, was in deinem Fall aber auch keine Besserung brachte.

Laut einem anderen Erfahrungsbericht soll der WHEA-18 zumindest bei der "Gedankenfabrik" ein bekannter RMA-Grund der Ryzen 5xxx sein. Dort werden die CPUs scheinbar auch anstandslos umgetauscht. Die neue hat bei dem User dann auch funktioniert, was wieder dafür sprechen würde, dass es eher ein alleiniges CPU-Problem zu sein scheint.
 
Kleines Update:
Mit den angepassten Werten lief das System viel stabiler, aber weiterhin sporadische Idle-Resets vor allem beim Browsen.

Gestern Abend hatte ich die neue CPU eingebaut, CMOS-Clear und Bios-Defaults geladen, und ansonsten keine gravierenden Änderungen durchgeführt (kein DOCP, AI Tweaker usw.) bis auf Kleinigkeiten wie Boot-Einstellungen, Deaktivieren von ungenutzten Board-Features sowie Typical Idle Current habe ich ihm gegönnt.
Keine Abstürze seitdem mehr gehabt, wobei ich noch nicht alles testen konnte - sollte wieder was auftreten, geb' ich natürlich Bescheid.

Beide Chips sind übrigens Baujahr 2021, der vermeintlich Defekte aus KW11, der Neue aus KW14.
 
@Gwandlaus

Danke für dein Update.

Es scheint sich also zu bestätigen, dass die Änderung der Werte wenn überhaupt nur kurze Freude bringt und es am Ende wohl einfach an der CPU liegt. Insbesondere an bestimmten Chargen, mit denen irgendwas nicht stimmt.

Sobald ich wieder zum Testen komme probiere ich auch noch alle Tipps die ich habe und werde ansonsten auch die CPU zurücksenden. Ich liefere dann auch noch die Produktionsdaten nach und werde berichten, ob es mit der neuen CPU dann funktioniert.
 
Meiner geht morgen auch in die RMA zu MF.
Entgegen dem Rat von cloudconnected habe ich noch wochenlang und haareraufend alle möglichen BIOS-Einstellungen getroffen, wobei sich abseits von Stock + XMP alles nur verschlechtert hat.

Mein Rat, parallel zu vielen anderen hier im Forum, die mit WHEA-Logger Fehlern zu kämpfen hatten. Ab in die Reklamation. Die Arbeit ist es nicht wert, es ist weiterhin noch kein guter Lösungsansatz vorhanden und verschiebt meist nur das Problem temporär.

Kurze Frage @cloudconnected : Woran sehe ich die Herstellungs-KW vom Prozi? Ist das der Schriftzug 2105SUS auf dem Heatspreader? Demzufolge dann KW 5 aus 2021?

Edit: Ich vertraue nicht darauf, dass MF den Fehler zuverlässig reproduzieren kann und mir die CPU dann auch noch austauscht. Hab ne RMA bei AMD direkt gestellt.
 
Zuletzt bearbeitet:
2105SUS [...] Demzufolge dann KW 5 aus 2021?
Genau, 2021, KW 05 (Wafer aus Saratoga und zusammengetackert in China, falls die Angaben hier noch stimmen).
Mein defekter Chip hatte auch SUS, der Ersatz SUT...

Wenn ich deinen anderen Thread richtig verstehe, funktionierte dein System die erste Zeit problemlos, die Reboots fingen erst später an? Da bin ich mal gespannt ob es bei mir so stabil bleibt - richtig viel Vertrauen schafft das allerdings momentan nicht.
 
Das System lief einige Wochen fehlerfrei, was schon echt strange ist.
Ab dem ersten Fehler gings nur noch bergab. Vor allem, da es vollkommen unberechenbar war, wann die Kiste wieder abschmiert. Auch vollkommen wahllos, egal ob ich im Idle war, Office Arbeiten, im Mythic Raid oder gerade Tabellenleader im TDM in CoD war. (das fuchst mich immer noch am Meisten >.<)

Dann war wieder mal einige Tage Ruhe (zuletzt über eine Woche keinen Absturz gehabt) und dann gings wieder volle Granate los. Momentan läuft gerade mein 7700K im alten Rechner, dem ich jedoch direkt mal ein moderates OC spendieren musste, damit das aktuelle CoD halbwegs vernünftig läuft. Mega ärgerlich das Ganze.

Heute noch neue Fotos für die AMD RMA machen (anscheinend nehmen sie mal pauschal von allen an, dass sie zu blöd sind die CPU richtig in den Sockel zu stecken) und dann wird er nächste Woche auf die Reise gehen.
Leider sind in dem anderen, großen Thread seit einigen Wochen schon keine Neuigkeiten mehr gepostet worden. Mich würde da die Thematik bei einigen interessieren, ob die CPUs jetzt fehlerfrei laufen. Mich macht das Ganze nämlich wirklich wahnsinnig. Rund 4k€ sind in den Pc geflossen (keine neue Grafikkarte) und dann läuft das nicht ordentlich. Von den etlichen Datenverlusten und zerschossenen Installationen, die durch die Abstürze kamen sprechen wir da mal gar nicht.

Und nein, Vertrauen habe ich mittlerweile auch nicht mehr. Ich ärgere mich maßlos, dass ich zu AMD gegriffen habe und mir nicht nen 10850/10900K besorgt habe.
 
Das System lief einige Wochen fehlerfrei, was schon echt strange ist.
Bei mir waren die Probleme von Anfang an vorhanden.
Gut, das aller erste Mal war mein Fehler, habe zum Spaß mal die alte Windows Installation (per WIM Backup & Restore) auf dem neuen System installiert und alle Treiber usw. nachinstalliert - lief etwas unrund.

Aber auch mit einer sauberen Installation unmittelbar danach war keine Stabilität erreichbar, habe ca. 2 Wochen lang alle möglichen Einstellungen ausprobiert, aber geholfen hat nichts. Resets alle 5 - 60 Minuten, vor allem bei wenig Last.
Seit dem Wechsel am Mittwoch ist es ruhig geblieben, habe inzwischen auch DOCP sowie die restliche Hardware wieder angeschlossen. Man kann wohl nur hoffen, dass es so bleibt.

Was ein wenig verwundert, außer der Meldung von Februar über vermeintlich hohen Ausfallraten, welche in der deutschen "Fachpresse" teils wieder relativiert (und in Foren zum Teil als blaue Propaganda verurteilt) wurde, finde ich keinerlei Berichte darüber. Haben wir einfach nur Pech bei der Chip-Lotterie?
 
Resets waren bei mir tatsächlich viel verstreuter. Ich hatte Tage, da hatte ich stündlich Resets, oder gar mehrmals in der Stunde. Dann hatte ich Zeiträume, in welchen die Resets weit gestreuter, über mehrere Tage vorkamen.

Bei mir läuft der Pc nur unter Vollbestückung. Alles andere macht für meinen angedachten Einsatz keinen Sinn und ist auch nicht hinnehmbar, dass Geräte ausgetauscht werden müssen, etc.

Chiplotterie? Bei einem 5600X lasse ich mir das noch ein Stück weit eingehen. Allerdings nicht bei einer CPU, die im Preisbereich um die 600 Euro liegt. Uff, absolut gar nicht. Zudem ich auch finde, dass zu viele Leute (allein hier) davon betroffen waren (von Reddit und Co. gar nicht zu sprechen) um von Zufällen zu reden.
 
Zurück