Black SOD nach Ruhezustand, Analyse sagt Grafiktreiber schuld

Capucius

Freizeitschrauber(in)
Hallo,

mein neuer PC (Details unten im Post) hat unter Windows 11 gestern nach dem Aufwecken aus dem Ruhezustand/Hibernate immer wieder den Bildschirm kurz auf Schwarz geschaltet. Während ich dann 2h Doom Eternal gespielt habe war alles ok, nach dem Beenden des Spiels wurde der Bildschirm wieder schwarz, dann gab es einen Black Screen of Death mit Reboot.

Ich habe gleich den Memory dump angeschaut
Arguments:
Arg1: 0000000000000002, The driver failed upon the submission of a command.
Arg2: ffffffffc000000d
Arg3: ffffd40bfedaf870
Arg4: ffffa3065ecb5ea0
und konnte rausfinden, dass der NT-Statuscode im Dump (nach den ersten 32 bit im zweiten Parameter/Arg2) c000000d ist. Der Code steht für:
10: kd> !error ffffffff`c000000d
Error code: (NTSTATUS) 0xc000000d (3221225485) - Einem Dienst oder einer Funktion wurde ein ungültiger Parameter übergeben.
Der Call Stack sieht so aus:
10: kd> knL
# Child-SP RetAddr Call Site
00 ffffd40b`fedaf728 fffff802`73c0529a nt!KeBugCheckEx
01 ffffd40b`fedaf730 fffff802`8c0d2318 watchdog!WdLogSingleEntry5+0x39aa
02 ffffd40b`fedaf7c0 fffff802`8c14502d dxgmms2!VidSchiSendToExecutionQueue+0x1b2a8
03 ffffd40b`fedaf990 fffff802`8c15e4ba dxgmms2!VidSchiSubmitPagingCommand+0x2ed
04 ffffd40b`fedafb20 fffff802`8c15e32a dxgmms2!VidSchiRun_PriorityTable+0x17a
05 ffffd40b`fedafb70 fffff802`643304b5 dxgmms2!VidSchiWorkerThread+0xca
06 ffffd40b`fedafbb0 fffff802`6441be24 nt!PspSystemThreadStartup+0x55
07 ffffd40b`fedafc00 00000000`00000000 nt!KiStartSystemThread+0x34
Da sieht man unter 02 und 03, dass es sich um den Grafiktreiber handelt und dass der Hinweis in den Arguments "driver failed upon the submission of a command" zutrifft, nämlich beim Versuch auf die GraKa zuzugreifen und etwas zu setzen.

An der Stelle hört mein windbg Wissen jetzt allerdings leider auf, ich kann mir denken, dass ich jetzt den Speicher genauer anschauen müsste um zu identifizieren, was genau geschrieben werden soll, aber weiß nicht, wie ich das machen müsste. Meine Vermutung ist aber, dass da Power Management gemacht werden sollte und das nicht geklappt hat.

Ich konnte den Fehler bisher nicht noch einmal durch Hibernate provozieren, bin aber jetzt zeitlich etwas nervös, noch kann ich die Komponenten recht problemlos zurückschicken.

Daher meine Fragen: kann jemand mir helfen, die Analyse noch weiter ins Detail weiterzuführen und zu prüfen, ob es ein reines Treiberproblem war (falsch versucht die Funktion aufzurufen) oder evtl. eben doch ein Hardwareproblem (nicht in der Lage den Funktionsaufruf auszuführen)? Falls keiner das kann: sollte ich jetzt einfach abwarten und schauen, ob es wieder auftritt? Mir ist es bisher eigentlich nie untergekommen, dass so etwas nur einmal zufällig auftritt und dann nie wieder.

Viele Grüße und Danke
Capucius

Die Hardware:
CPU: AMD Ryzen™ 9 5900X
Board: MSI MPG X570S Carbon Max Wifi
RAM: Corsair DIMM 64 GB DDR4-3200 Kit (16-20-20-38)
SSD: Seagate FireCuda 530 1 TB
Kühler: Scythe Fuma 2 Rev.B SCFM-2100
Netzteil: be quiet! STRAIGHT POWER 11 Platinum 850W
Gehäuse: Fractal Design Torrent
Windows 11 Home
 
Das wichtigste hast du leider vergessen:

Welche Grafikkarte?

Und warum eigentlich so kompliziert?
Guck einfach in den Zuverlässigkeitsverlauf, da sollte auch eine entsprechende Fehlermeldung protokolliert sein.
Ooops, wie peinlich. Hatte die Hardware aus der Bestellung kopiert und die GPU hatte ich woanders gekauft. Sorry. Es ist eine Gigabyte 3080 Eagle OC 10G, hab es auch oben reineditiert.

Danke, kannte den Zuverlässigkeitsverlauf noch nicht, das ist echt praktisch. Aber der liefert im Prinzip nur Adressen und Speicherhinhalte ohne die Möglichkeit das dann zu analysieren, oder? In dem konkreten Fall liefert er nur "Aufgrund eines Hardwareproblems ist Windows nicht mehr voll funktionsfähig." dazu "LiveKernelEvent" und die Parameter, die ich auch im Dump ausgelesen habe. Das ist ja sogar ein klein wenig irreführend, weil man nicht sieht, welche Funktion die Violation ausgelöst hat, und es eben auch am Treiber liegen kann und nicht unbedingt an der Hardware.

Anderen Grafikkartentreiber probiert?
Darf auch ruhig älter sein, wenn der neueste installiert ist.
Nur den gleichen noch mal neu installiert, wenn es noch einmal auftritt ist ein Älterer auch eine gute Idee, danke.
 
Beschreibung
Aufgrund eines Hardwareproblems ist Windows nicht mehr voll funktionsfähig.

Problemsignatur
Problemereignisame: LiveKernelEvent
Code: 117
Parameter 1: ffffa3066970c010
Parameter 2: fffff802859f1690
Parameter 3: 0
Parameter 4: 0
Betriebssystemversion: 10_0_22000
Service Pack: 0_0
Produkt: 768_1
Betriebsystemversion: 10.0.22000.2.0.0.768.101
Gebietsschema-ID: 1031
2 * 32GB, Slots wie im Manual und auf dem Board vorgegeben.
 
Zurück