Andauernde BSOD und 100% M.2 Auslastung / Was ist defekt?

Friday13th

Komplett-PC-Käufer(in)
Hallo Leute!
Hab einige tage mühsames rumtesten hintermir und wende mich daher an das Forum.
(Zusammenfassung ganz unten)

Seit rund 2 Wochen bekomme ich unter Windows 10 vermehrt Bluescreens.
Ich verwende i.d.R. Debian 9, Windows nur für diverse Spiele - in den letzten Wochen hab ich vermehrt gezockt daher war ich so gut wie immer unter Windows drin.

Zunächst zu meinem System, GPU/CPU custom Wassergekühlt unter Last ca 50°C:
Asus Rampage Extreme V x99
5820k, getaktet auf 6x4Ghz bei 1.1v vcore, adaptiv (lief alles stabil die letzten 3 Jahre, habe zuvor alles intensivst mit IntelBurnIn und Prime95 getestet)
GTX 970, kein OC
4x8GB Patriot 4 irgendwas 2400er DDR4 RAM
irgendein BeQuiet Gold Netzteil
Samsung 950 Pro 512GB M.2 NVMe mit neuester Firmware(Hatte diese M.2 von Beginn an und die letzten 3 Jahre keine Probleme, war von Anfang an die noch aktuellste Firmware droben)
4 Seagate 2TB Platten
Bluray Laufwerk

Ich habe einen cuplex kryos CPU Kühler im Einsatz mit dem dazu passenden 2011-3er Montagesatz welcher laut Angabe nicht "zu fest" angeschraubt werden kann.


Vorweg:
Samsung Magican, CrystalDiskInfo und Smartmoontools sagen mir alle das Selbe: Die M.2 ist in einem tadellosen Zustand, 17TB geschriebene Daten 98% Health keine SMART auffälligkeiten
Der Mainboard eigene Test beim Start haut mir keinen Fehler raus, piept nicht und nix - also diesem Test passt alles.
Die M.2 wurde nie "nicht erkannt" oder so. Ist immer da, die anderen Platten (wenn angesteckt) ebenso.

Zum Problem:
Angefangen hat es damit dass ein RAM Slot nicht mehr richtig erkannt wurde, die Riegel ansich haben funktioniert (habe einzeln getestet) lief ne Zeit so, hatte keine Zeit um mich anständig zu kümmern.
Dann fingen die Bluescreens an woraufhin ich den PC komplett gereinigt hab und meiner Vermutung nachgegangen bin, dass das Board entweder unter mechanischer Spannung stand oder die CPU verrutscht ist (wie auch immer das passiert sein soll - bin 2 mal mit dem Rechner umgezogen) - habe alles neu verbaut und seither niemals mehr Probleme mit dem RAM gehabt (alles wird erkannt und läuft ohne Fehler)
Die Bluescreens blieben, woraufhin ich die M.2 neu aufgesetzt habe, sprich Windows und Linux neu installiert - lief auch soweit alles, aber schon beim installieren der Treiber unter Windows habe ich nen BSOD bekommen. Hab nochmals die M.2 raus, kontakte gereinigt mit Isopropanol, Sockel ausgeblasen - Spiel von neuem, alles neu aufgesetzt.

Habe dann keine BSOD mehr bekommen, aber das verhalten war per se das selbe - Computer friert ein und nichts geht mehr - habe dies per Datenträger Leistungs überwachung und Recourcen Manager parallel mit überwacht --> Auslastung geht auf 100% und nichts geht mehr, manchmal fängt er sich wieder, manchmal nicht, die konsequenz war immer die selbe, normales "Arbeiten" war nicht möglich.
Auch bei der Linux Installation gab es bei manchen Anläufen schon bei der Partitionierung der Platte probleme.

Kurz und knapp was ich alles getan habe:

- Alles mehrfach neu aufgesetzt
- dabei alles außer die M.2 abgesteckt
- Mit Samsung NVMe Treibern und den Microsoft treibern getestet
- Die von Asus zur verfügung gestellten Chipsatztreiber etc verwendet und die aktuellen Intel bzw Herstellertreiber versucht (stichwort Snappy Driver Installer)
- Ohne Internetverbindung Windows installiert, treiber manuell installiert etc.

- Habe inzwischen wohl 10+ mal neu Aufgesetzt in unterschiedlichen Konstellationen um Softwaretechnisch alles auszuschließen

Ich hab keine Ahnung ob in letzter Zeit ein neues Windoof Update gekommen ist, was die Probleme auslöst, habe mit der aktuellen März ISO gearbeitet und das auch Offline wie oben beschrieben.

Ich habe auf BIOS 1 das aktuellste Bios (also BETA deklariert) am laufen und auf BIOS 2 das aktuellste nicht Beta Bios - bei beiden die selben Probleme und ich habe mehrfach CMOS Reset durchgeführt und mit default Werten gearbeitet sowie mit meinem OC Profil.

So, als dies alles nichts half habe ich die 250GB HP M.2 aus meinem Server ausgebaut, mit Clonezilla gespeichert und in meinen Desktop Rechner verbaut --> alles lief anstandslos und ich hatte über viele Stunden nicht ein einziges Problem.

Daraufhin habe ich die Samsung M.2 wieder eingebaut und bin über Linux Live per USB Stick rein und wollte die M.2 auf Badblocks überprüfen, jedoch war mir dies nicht möglich da ich die M.2 nicht auf ext4 formatiert (quickformat) bekam und als ich Windows auf eine normale HDD installiert habe konnte ich auch keine vollständige Formatierung durchführen - Windows ist zwar nicht abgestürtzt (war ja auf der HDD), aber hat endlos gedauert
Ok, mein Resultat war, die M.2 ist hinüber --> Samsung Garantiefall eröffnet, ich sollte Rechnung etc hinschicken --> Samsung tauscht mir die Platte nicht weil der Aufkleber beschädigt ist (naja, stimmt auch, hatte nen M.2 Kühler droben, lächerlich ist es trotzdem, verdammt lächerlich)

Daraufhin habe ich die Samsung M.2 in meinen Server gesteckt (Dell T30) und Linux Live gestartet per USB und jetzt kommt das für mich verwirrende. Sämtliche tests liefen problemlos durch. Habe die SSD voll formatiert, badblocks scan gemacht (0 badblocks), vollständige SMART Analyse etc.

Ich habe keine Treiberupdates gemacht bevor die BSOD aufgetaucht sind die irgendwelche Konflikte auslösen könnten und nichts an Hard- und Software geändert.


Was denkt Ihr kann ich noch probieren und wo könnte das Problem liegen?
Habe einen Defekt des Netzteils im Grunde ausgeschloßen, da dieser sich auch anders zeigen würde (meine Vermutung, die M.2 bekommt ja über das Board ihren Strom)

(Ganz nebenbei ist es für mich keine Lösung die M.2s dauerhaft zu tauschen, da mir 1. die 250gb im Server cshon zu viel sind und mir die 250GB im Desktop Rechner nicht reichen und mir am Ende 2. das Mainboard die HP M.2 noch zerschießt falls es am Board liegt)

Zusammenfassung:
- Andauernd BSOD bzw 100% SSD Auslastung, nichts geht mehr
- Samsung M.2 top Zustand und läuft in meinem Server ohne weitere Probleme (Samsung M.2 seit 3 Jahren im Desktop im Einsatz ohne Konflikte)
- HP M.2 250GB läuft hingegen im Desktop Rechner problemlos (im Server natürlich auch)
 
Zuletzt bearbeitet:
Angefangen hat es damit dass ein RAM Slot nicht mehr richtig erkannt wurde, die Riegel ansich haben funktioniert (habe einzeln getestet) lief ne Zeit so, hatte keine Zeit um mich anständig zu kümmern.
Das ist doch schon der erste Hinweis, dass etwas an Mainboard, CPU, Spannungsversorgung oder den BIOS-Settings nicht stimmt.

Ich hab keine Ahnung ob in letzter Zeit ein neues Windoof Update gekommen ist
Man kann ja Windows oder MS vieles unterstellen, aber wenn Du auch unter Linux massivste Probleme hattest:
Auch bei der Linux Installation gab es bei manchen Anläufen schon bei der Partitionierung der Platte probleme.
dann liegt doch wohl der Verdacht extrem nahe, dass es ann der HW und NICHT an Windows liegt. Was ist Windoof überhaupt für eine System, ich kenne es nicht? Wenn Dir Windows (ist vermutlich gemeint) nicht passt, dass lösche es halt.

und mit default Werten gearbeitet sowie mit meinem OC Profil.
Also gehe ich davon aus, dass Du ALLE Probleme auch mit den Standardsettings ohne jegeliches OC (auch ohen XMP beim Ram) hast. Insb,. das die Linux-Partitonnierungsprobleme auch mit den Startdardsettings auftreten.

und wollte die M.2 auf Badblocks überprüfen, jedoch war mir dies nicht möglich da ich die M.2 nicht auf ext4 formatiert (quickformat) bekam
Dann ist wohl an der HW etwas faul, oder soll das nun auch ein Windows-Update Schuld sein?

Ok, mein Resultat war, die M.2 ist hinüber --> Samsung Garantiefall eröffnet, ich sollte Rechnung etc hinschicken --> Samsung tauscht mir die Platte nicht weil der Aufkleber beschädigt ist (naja, stimmt auch, hatte nen M.2 Kühler droben, lächerlich ist es trotzdem, verdammt lächerlich)
Außer Dir weiss keiner, was Du beim Ablösen des Kühlers gemacht hast. Also bezieht sich Samsung halt auf seine Garantiebedingungen.

Ich gehe zwar davon aus, dass die EVO 950 die neueste Firmware hat, aber zumindest hiernach scheint es mit dem Board mit der 960 EVO und älterer Firmware (der SSD) öfters Probleme gegeben zu haben (drittletztes Posting).:
will pcie nvme ssd work on asus rampage v extreme? - www.hardwarezone.com.sg

Was denkt Ihr kann ich noch probieren und wo könnte das Problem liegen?
Ich würde auf eine Kombi aus Alter der HW, OC/UV und/oder Spannungsversorgung tippen. Wenn schon ein intakter Ram-Riegel nicht mehr erkannt wird, deutet dies wohl in die Selbe Richtung.

Mein i7-2600k hat damals nach gut einem Jahr Undervolting auch Probleme gemacht. Mit Standardsettings läuft er nun weiter 7 Jahre problemlos.
 
Außer Dir weiss keiner, was Du beim Ablösen des Kühlers gemacht hast. Also bezieht sich Samsung halt auf seine Garantiebedingungen.
Ist wohl problemlos zu erkennen ob Hardware mechanisch beschädigt wurde.. Aber das ist Off Topic und so ist Samsung halt.

Ich gehe zwar davon aus, dass die EVO 950 die neueste Firmware hat
Ich habe keine EVO sondern eine Pro, weshalb es mich mit der Garantie auch so ärgert (wenn die M.2 überhaupt der Übeltäter ist..)
In dem besagten Posting wird die M.2 ja nicht erkannt. Dieses Problem trat bei mir nie auf, außerdem hab ich ja wie beschrieben die neuste Firmware droben.

Wenn schon ein intakter Ram-Riegel nicht mehr erkannt wird, deutet dies wohl in die Selbe Richtung.
Gibt keinen intakten RAM Riegel, das lag vermutlich tatsächlich daran, dass nicht alle CPU Pins kontakt hatten
Memtest86 ist über mehrere Stunden ohne Fehler gelaufen.

Ich würde auf eine Kombi aus Alter der HW, OC/UV und/oder Spannungsversorgung tippen.
...
Mein i7-2600k hat damals nach gut einem Jahr Undervolting auch Probleme gemacht. Mit Standardsettings läuft er nun weiter 7 Jahre problemlos.
Meine Hardware ist nicht wirklich "alt" mit 3 Jahren und und die besagen Probleme hab ich leider auch mit Default Settings
(Ich betreibe übrigens kein Undervolting, aber das ist ja auch egal)
 
Ist wohl problemlos zu erkennen ob Hardware mechanisch beschädigt wurde.. Aber das ist Off Topic und so ist Samsung halt.
Na wenn Du meinst, Du scheinst ja im Support tätig zu sein.

Gibt keinen intakten RAM Riegel, das lag vermutlich tatsächlich daran, dass nicht alle CPU Pins kontakt hatten Memtest86 ist über mehrere Stunden ohne Fehler gelaufen.
Und damit lief dann vorher 3 Jahre alles problemlos. Wenn nicht, wurde für mich doch irgendwas an der HW geändert.

Wer sagt Dir, dass jetzt (nach dem anscheinenden Neueinbau der CPU) alles ok ist. Immerhin ging danach das Bluescreen-Problem los.

Meine Hardware ist nicht wirklich "alt" mit 3 Jahren und und die besagen Probleme hab ich leider auch mit Default Settings
(Ich betreibe übrigens kein Undervolting, aber das ist ja auch egal)
Ja, mir ist es in der Tat egal, warum Du dann extra "5820k, getaktet auf 6x4Ghz bei 1.1v vcore, adaptiv" erwähnst. Für mich liest sich das jedenfalls nicht nach Standard-Settings, die Du aber ja auch getestet hast.
 
Schau mal, ich hab doch geschrieben, dass ich 2 mal mit dem Rechner umgezogen bin und dass ich annehme das beim letzten mal dadurch die CPU leicht verrutscht ist. Ich weiß es ehrlich gesagt nicht ab wann der RAM nicht mehr erkannt wurde, hatte halt dann anstelle meiner 32gb nur noch 24gb am Start.
6x4Ghz@1.1v bedeutet, dass ich übertakte und nicht undervolte. Undervolting ist im Grunde das Gegenteil vom übertakten...


Bin leider nicht flüssig genug einfach Board und ssd zu tauschen. Das Board würde ich eh gebraucht tauschen weils neu kaum mehr was gibt. Ich lass die M.2 jetzt mal länger im Server und schau ob wirklich alles mit ihr passt und tausche dann das Board.
 
*hier war mal der selbe post von vorhin*
Sorry für den doppelpost, mein Smartphone hat mir angezeigt der Post wäre noch nicht gesendet worden.
Was ich mir jetzt nur noch überlegt habe ist, dass die HP M.2 Ex900 doch ein etwas neueres Modell ist als meine 950 Pro und mit 250gb auch etwas kleiner als die Samsung. Vielleicht liegt es dann doch an der 3.3v Zuleitung vom Netzteil, dass dieses dem peak der Samsung von wohl rund 2A+ (also knapp unter 7Watt) nicht bedienen kann? Ich hoffe ich kann mir die Tage irgendwo ein Netzteil leihen und die Sache mal ausprobieren.
 
Zuletzt bearbeitet:
Kannst du nicht einfach beide SSD tauschen, wenn die im jeweils anderen System laufen? Wäre die billigste Lösung.

Dann einfach schauen, wie sich die Preise entwickeln und eine 970 Evo Plus 500 GB einbauen.
 
Auch diesbezüglich bin ich in meinem Start posting eingegangen
Bin jetzt aktuell nicht zu hause, werde dann mal messen was für ein Strom an meiner 3.3v Leitung fließt und was er mir unter last an ner kleinen schaltung ausgibt. Netzteil zu ersetzten wäre natürlich die günstigste Variante für mich
Die 250er HP ex900 zieht unter volllast nur 4W, die Samsung 7W, mein Netzteil sollte 20A an 3.3v liefern auf dem Blatt was bei der dünnen Ader natürlich Blödsinn sein sollte.
Wenn es tatsächlich die 3.3v Leitung sein sollte könnte ich ja im Grunde ne 12v Leitung anzapfen, nen step down converter zwischenschalten und auf 3.3v regeln und ins Board einspeisen. Diese teile hätte ich zuhause. Werd ich mir mal überlegen wenn ich wieder daheim bin.
Echt ein scheiß Thema, wenn ich nicht weiß was ich austauschen soll. Aber danke für die Unterstützung. Meine ganzen spezis haben nur noch Laptops und ich kann mir von quasi niemanden teile borgen
 
Zuletzt bearbeitet:
Wobei du bei einem neuen Netzteil in ähnlichen Preisregionen unterwegs bist, wie wenn du dir direkt eine neue M.2 500 GB SSD holst.

7W @ 3,3 V sind auch nur 2 A. Die werden aber auch nur selten anliegen.
 
Netzteile bekomme ich gebraucht recht günstig im Gegensatz zu den NVMe Laufwerken. Hab mir jetzt ein Corsair CS750M in OVP um 25€ geholt, werd ich heute Abend mal testen.
Ich habe übrigens ein Thermaltake Smart M850W (kein BeQuiet wie im start Posting - das hab ich damals ersetzt)
 
Zurück