Crashes/Grafikfehler/BSOD im Idle nach Last

Torchman

Schraubenverwechsler(in)
Hallo Leute,

so langsam bin ich ratlos, was mit meinem PC los ist und hoffe hier auf den entscheidenden Tipp.

Zu mein System:
MB: ASRock Z87 Extreme 4
Prozessor: Xeon E3-1230 v3
Grafik: GTX 980 ti Palit Super Jetstream
Arbeitsspeicher: Crucial Ballistix Sport 2x8GB
SSD Samsung 860 Evo 500Gb
NT: Seasonic 650w Focus + Gold

Alles weitere ist momentan abgeklemmt.

Zu meinem Problem:
Der PC schmiert regelmäßig ab, wenn keine oder wenig Last auf der GPU ist. Das äußert sich in diversen, Unterschiedlichen Bluescreens ("video scheduler internal Error" unter win10 bzw. Error Code 116 unter win7) und Bildfehlern und Freezes. Die Fehlermeldungen betreffen allerdings nicht ausschließlich die Grafikhardware sondern Teil auch den Speicher.
Zum ersten Mal trat das Problem bei Hots im Spiel auf, nachdem das System davor stabil über 2h lief.
Das besondere ist, die Kiste abstürzt, nachdem Last anlag. Die Abstürze kann ich provozieren, indem ich die FutMark laufen lasse. 1-2 Minuten NACH Beendigung des Tests stürzt der PC zu 50% ab. Während des Tests ist alles unauffällig, Temp bleibt unter 70°C. Auch aufgrund der Fehlermeldung und diverser Meldungen der "nvlddmkm" im Ereignislog habe zunächst ein Treiberproblem vermutet, das scheint aber nicht die Ursache zu sein. Auch mit einer anderen Grafikkarte (xfx 280x) verabschiedet sich das System schnell im idle.

Von einer defekten CPU gehe ich nicht aus. Primark 95 läuft ohne Probleme und auch ohne den anschließenden Crash.

Mir gehen so langsam die Ideen aus. Die letzte Vermutung war, dass sobald der Lüfter der Grafikkarte ausgeht das System crasht.
Das scheint aber auch nicht die Ursache zu sein, da ich den Leerlauf ja mittels Afterburner verhindert habe. Ein Treiberproblem kann ich nahezu sicher ausschließen, genauso scheint es nicht an der Karte zu liegen, da das selbe Problem in grün mit der AMD-Karte auftritt. Sollte es ein Hardware-Problem sein, bleibt eigentlich nur CPU oder das Board. Das scheint mir aber beides unlogisch, da die Kiste ja unter Volllast läuft und nach einem Neustart auch stabil läuft, solange ich keine verrückten Sachen mache. Das Problem scheint der Übergang von Last zu Leerlauf zu sein.
Auch kam es nun schon 2x vor, dass nach einem Neustart die GPU Lüfter grundlos auf 100% liefen, was mMn wieder in Richtung Treiber zeigt.



Folgendes habe ich bereits ausprobiert:
-Grafiktreiber mittels DDU neu installiert (auch die alten Treiber teils aus 2015)
-Grafikkarte getauscht
-System mehrfach neu aufgesetzt, Win 7 ultimate und Win 10 Pro, jeweils mit /ohne Windows- Updates und diversen Grafiktreibern getestet
-SSD getauscht + Anschluss gewechselt + Kabel getauscht +Diverse SMART-Tests der SSD ohne fehler
-RAM-Riegel getauscht und Bänke durchgewechselt+ RAM-Test für mehrere Stunden ohne fehler
-Netzteil getauscht
-Energiemodus auf Höchstleistung und Maximale Performance in der Nvidia Systemsteuerung eingestellt
-Mittels MSI-Afterburner die Lüftersteuerung fixiert.
-sämtliche Anleitungen zum nvlddmkm -Crash durchprobiert
-UEFI-Updates bis zur neusten Beta-Version
-Bios-Displayport Update der Grafikkarte
-XMP 1.3 im UEFi eingestellt
-Alle Anschlüsse auf Wackler getestet



Vielleicht gibt es irgendwelche Bios-Einstellungen die helfen könnten? Ich freue mich über jeden Tipp.

LG Torchman
 
Zuletzt bearbeitet:

Einwegkartoffel

Kokü-Junkie (m/w)
Wenn ich das jetzt richtig gelesen habe: evtl ist es ja der Speicher --> memtest mal laufen lassen?! Oder was für einen RAM Test hast du gemacht? Module einzeln getestet?
 

lefskij

Freizeitschrauber(in)
Schon die CMOS-Batterie getauscht? Das Board ist etwas älter und vielleicht ist die ja leer...

Oder kontrolliert, ob es irgendwo einen Kurzen gibt - zum Beispiel an den Abstandhaltern zwischen Board und Gehäuse? Mache doch mal einen Versuchsaufbau außerhalb des Gehäuses, auf einem Stück Pappe oder nem flachen Karton, um solche Kurzschlußmöglichkeiten auszuschließen...
 
TE
TE
T

Torchman

Schraubenverwechsler(in)
@einwegkartoffel
den Arbeitsspeicher kann ich als Ursache ausschließen. Habe sowohl neue Riegel als auch die Bänke 2&4 statt 1&3 gestestet. Memtest brachte keine fehler

@lefskij
Deine Ideen werde ich heute Abend gleich mal testen. Ich halte das aber für recht unwahrscheinlich, da ich das Board vor nicht mal einem Jahr wegen eines anderen Problems getauscht habe.


Als ich die Kiste heute morgen kurz angemacht habe, bin ich nach einem "Video_TDR_failure" bluescreen nicht mal mehr ins Windows gekommen. Der PC ist dann mit dem folgenden Bild mehrfach eingefrohren
Das sieht schon wieder verdammt nach Grafikkarte aus, was ja nicht sein kann, da der Fehler auch mit meiner alten 280x auftritt.
 

Anhänge

  • 20181024_075335.jpg
    20181024_075335.jpg
    2 MB · Aufrufe: 56
TE
TE
T

Torchman

Schraubenverwechsler(in)
Habe schon beide PCIe Slots getestet. Das scheint auch nicht die Ursache zu sein.

Euere Meinungen gehen ja alle in Richtung Board. Sollte der Tipp von levski nichts bringen, werde ich mal versuchen, mit ein gebrauchtes Board bei Ebay zu organisieren. Neu gibts das Board oder ein gleichwertiges leider nicht mehr zu einem normalen Preis
 

lefskij

Freizeitschrauber(in)
Es gäbe da eventuell noch andere Lösungsansätze:

1. Du hast ja noch ein weiteres Netzteil zum Testen verwendet als dein Seasonic, nicht wahr? Welches war das und ist es ein älteres Modell? Vielleicht haben deine Netzteile Probleme mit Lastwechseln...

2. Verwendest du eine Steckdosenleiste an der deine Computerhardware angeschlossen ist? Sind dort auch noch andere elektrische Geräte angeschlossen (z.B. etwas stark Strom verbrauchendes)? Oder hast du eine billige Master/Slave-Steckerleiste im Gebrauch? Man sollte seine empfindliche Hardware möglichst immer an einem separaten Stromkreis betreiben oder zumindest nur die PC-Komponenten und Monitor an einer Steckerleiste (es genügt auch eine einfache, meinetwegen mit Schalter).

3. Wie sieht es mit der Luftzufuhr im Case aus? Hast du die Gehäuselüfter geprüft? Wird das Board vielleicht zu heiss - bei einem offenen Testaufbau außerhalb sollte das zumindest kein Problem mehr sein...

4. Hast du deine GPUs jemals übertaktet oder vielleicht sogar ein modifiziertes BIOS aufgespielt? Das ist generell ein riskantes Unterfangen, falls man falsche Einstellungen oder unpassende BIOS-Dateien verwendet. Wenn du beide Karten zufälligerweise falsch bearbeitet hast, kann das natürlich auch die Fehlerquelle sein.

5. Schau dir auch mal die Steckerbuchsen des Mainboards an, ob da etwas korrodiert oder verschmort ist.

PS: Du hast das Board vor knapp einem Jahr getauscht? Wenn es neu gekauft wurde, hast du ja evtl. noch Gewährleistungsansprüche - bevor du also ein anderes kaufen möchtest... bekommst du von ASRock vielleicht ein Alternativmodell (recht unwahrscheinlich, da nicht mehr produziert) oder Geld zurück.
 
Zuletzt bearbeitet:

fritz37

Schraubenverwechsler(in)
hast du schon einmal die cpu neu gesokkelt schau dir auch mahl die Pins vom mabo an ob die verbogen sind habe ich auf mein asus mabo schon öfter das Problem gehabt das mein rechner mit einmahl am rumm spinnen war dann cpu neu gesokkelt und alles lief
 

lefskij

Freizeitschrauber(in)
hast du schon einmal die cpu neu gesokkelt schau dir auch mahl die Pins vom mabo an ob die verbogen sind habe ich auf mein asus mabo schon öfter das Problem gehabt das mein rechner mit einmahl am rumm spinnen war dann cpu neu gesokkelt und alles lief

Das ist auch ein gutes Argument... :daumen:

Ich würde auch noch den Anpressdruck des CPU-Kühlers und die Wärmeleitpaste überprüfen - wenn da was nicht stimmt, kann das auch viele Probleme verursachen. Wobei du ja sagtest, dass deine Prime-Durchläufe ohne Probleme abgelaufen sind. Ein zu hoher Anpressdruck kann sich aber durchaus negativ auf die Kontakte zwischen Prozessor und Sockel auswirken...

Du hast ja schon sehr viel getestet - da kommt es auf zwei, drei weitere Versuche sicher nicht an und du musst ja sowieso fast alles zerlegen, wenn du sicher gehen möchtest.

Wir drücken dir die Daumen :nicken:
 
TE
TE
T

Torchman

Schraubenverwechsler(in)
Hallo zusammen.

Habe nun gestern den PC auf nem Pappkarton aufgebaut, zunächst mit der 980ti. Mit dem Aufbau ist der PC wieder direkt wieder abgeschmiert. Für den Aufbau habe ich ein Coolermaster 500W Netzteil anstelle des Seasonic verwendet und dem ganzen eine eigene Steckdose spendiert.

Auffällig waren hier die Fehlercodes des Mainboards die in der Folge "15, 40, 4f, 78, 62, 99" beim booten auftreten. In Windows bin ich nur in den abgesicherten Modus gekommen. Der Fehler aus Post #4 hat sich wiederholt.
Die Fehler deuten in alle Richtungen, im Wesentlichen aber auf einen Chipset/Bios-Fehler und CPU/Speicher. 99 stehet für PCIe. Die Empfehlung lt. Handbuch, den CPU und Speicher neu bzw einzeln einzubauen und einen CMOS-Reset zu machen hat keine Besserung gebracht. Damit ist aber ein fehlerhafter Sitz der CPU auch ausgeschlossen. Die Pins sehen aus wie neu. Einen zu hohen Anpressdruck des Kühler schließe ich auch aus, da ein zu großer Druck durch die Bauart des Kühlers eigentlich ausgeschlossen ist.

Die MB-Codes sind hier im Detail nachzulesen:
Dr. Debug - Asrock Z87 Extreme4 User Manual [Page 36]

Nach dem Test war ich mir eigentlich sicher, dass es am Board liegt. Trotzdem habe ich aus Neugier nochmals die 280x eingebaut anstelle der 980ti - das ganze auch auf dem Karton. Das interessante war nun, dass zwar weiterhin die selben Fehlercodes vom Mainboard kamen, das System lief ansonsten aber stabil für die Dauer meiner Tests mit und ohne Last. Das ist insofern verwunderlich, als dass beim ersten Wechsel der Grafikkarte auf die 280x vor ein paar Tagen sofort ein Bluescreen kam. Das war, als ich das ganze unter win 7 ultimate gestestet hatte mit dem Fehlercode 0000116, was ja wieder auf die Grafikkarte hindeutet.

Ich habe mir jetzt mal einen anderen PC ausgeliehen und werde am Wochenende mal die 980ti testen, auch wenn ich es nach wie vor und wegen der Fehlercodes des MB'S für unwahrscheinlich halte, dass die Karte schuld ist.

Ist es möglich, dass das Mainboard zu wenig Spannung auf den PCIe-Slot bringt?


Was eure anderen Vorschläge angeht,
-die Luftzufuhr im Gehäuse selbst schätze ich als sehr gut ein. Das Gehöuse hat 4 eigene Lüfter, zusätzlich unterstüzt einer der beiden CPu-Lüfter den Luftstrom
-Stecker sehen gut aus. Habe für den gestrigen Test auch andere verwendet
-Bios habe ich nie modifiert. Habe lediglich im Rahmen meiner Tests diverse Bios-Updates gemacht und das B-Bios geladen
-Das Seasonic-Netzteil ist 1 Woche alt, das Coolermaster ist so alt wie das Mainboard.
-Das MB habe ich untersucht. Dort ist nix verkokelt o.Ä. Sieht alles gut aus
-Im normalen Betrieb hingen PC und Monitor gemeinsam an einem Mehrfachstecker mit Schalter. Hatte den PC aber schon Einzeln an eine Steckdose

Danke für eure Unterstützung!
Ich werde euch auf dem Laufenden halten
 
Zuletzt bearbeitet:
TE
TE
T

Torchman

Schraubenverwechsler(in)
Ich habe wegen der Dr.Debug-Codes nochmals recherchiert.Es ist wohl so, dass die Anzeige im Idealfall bis 99 durch läuft, was dann bedeutet, dem Board geht es gut.

Bei der 280x war das der Fall nach Reset. bei der 980ti wurde der Code 72 längere Zeit angezeigt. Der steht für "72 - PCH devices initialization". Der Start der PCI-Slots kommt ab Code 90. Lt. Wikipedia kann PCH device fast alles sein:

"The PCH controls certain data paths and support functions used in conjunction with Intel CPUs. These include clocking (the system clock), Flexible Display Interface (FDI) and Direct Media Interface (DMI), although FDI is only used when the chipset is required to support a processor with integrated graphics. As such, I/O functions are reassigned between this new central hub and the CPU compared to the previous architecture: some northbridge functions, the memory controller and PCI-e lanes, were integrated into the CPU while the PCH took over the remaining functions in addition to the traditional roles of the southbridge. "

Hier sind sämtliche Codes im Detail aufgeführt: List of Dr Debug BIOS Codes - Motherboards - Level1Techs Forums
 
Zuletzt bearbeitet:

Plasmadampfer

Freizeitschrauber(in)
GraKa platt. Leider hat der XEON keine IGPU. Ich habe für solche Fälle eine einfache ATI GraKa. LOL, an der habe ich auch schon Kabel angelötet zwecks Messungen.

Die GTX980 kannste werfen, traurig aber wahr. Ich weis nicht, ob Du meinen Plastikzitronen Thread kennst. Bau die GTX aus und reibe mit einem Mikrofasertuch und ein bis zwei Tropfen von einer Plastikzitrone aus dem Supermarkt
die PCI-E Kontakte ab, so dass die wieder blank sind. Bevor ich mich hier angemeldet habe, hatte mein Blechtrottel auch Probleme. Einen ganzen Tag habe ich den auseinandergenommen, geputzt und wieder zusammengebaut.

Läuft wieder astrein die Kiste seit 2012.

Auf die Plastikzitrone bin ich durch Zufall gekommen. Ich lötete als Elektroniker eine Lochrasterplatine und normal verroten ja die Lötaugen, wenn man die Platine anfasst. Zwischendurch habe ich gekocht, Gulasch, und irgendwie bekam ich die Plastikzitrone für Säure nicht auf, dann doch. Ich hatte also Zitronensäure an den Pfoten. Wie geil ist das denn, die Lötaugen Blitzeblank, wo ich die Lochrasterplatine angefasst hatte....

Könnte klappen :-)
 
Zuletzt bearbeitet:
TE
TE
T

Torchman

Schraubenverwechsler(in)
GraKa platt. Leider hat der XEON keine IGPU. Ich habe für solche Fälle eine einfache ATI GraKa. LOL, an der habe ich auch schon Kabel angelötet zwecks Messungen.

Die GTX980 kannste werfen, traurig aber wahr.

Und wie erklärst du dir den selben Fehler vor ein paar Tagen mit der alten Karte? Das ist der Punkt der mich stutzig macht
 

Plasmadampfer

Freizeitschrauber(in)
Ich habe in dem 1 Tag Zerlegen und Zusammenbauen natürlich auch die CPU Kontakte, die Ram Riegel, sowie die Xonar Essence STX geputzt. Meine Maschine hatte im Laufe der Jahre wirklich Kontaktprobleme mit angelaufenen Kontakten , bzw. zu hohe Übergangswiderstände.


Für mich hat sich der Tag Arbeit gelohnt, weil ich schon ach neee gedacht habe. Jetzt muss ich I7-8700K kaufen DDR4 RAMs sind ja noch besser im Preis, och neee kommt Leute. Ich hab doch kein Bock zu ordern... Meine Kiste läuft wieder einwandfrei.

So Grafik Bugs hatte ich nicht, eher das die Maschine einfach gefreezed ist. Bei mir lags denke ich mal Hauptsächlich an den Kontakten zu den RAMs.

Mehr kann ich Dir leider nicht sagen.
 
Zuletzt bearbeitet:
TE
TE
T

Torchman

Schraubenverwechsler(in)
Kurzes Update für alle Interessierten:
Meine 980ti ist hinüber, ich vermute dass der Speicher der Karte einen Knacks hat. Beim Test meiner anderen Karte habe ich diese wohl nicht richtig eingebaut habe o.Ä., was mich dann auf die falsche Färte gebracht hat.

Danke dennoch allen für die Tipps, die mir dennoch sehr geholfen haben! Habe mir eine 1070ti angeschafft, damit läuft wieder alles.
 
Oben Unten