ASUS X99-E WS - PCIe Probleme

godstyled

PC-Selbstbauer(in)
Hallo Forum,

ich bin mittlerweile mit meinem Latein etwas am Ende und wollte mal nachfragen, ob hier vielleicht noch jemand eine Idee hat außer dem letzten Ausweg, neukaufen.

Mein System besteht aus einem Core i7 6800K auf einem ASUS X99-E WS. Board und Prozessor sind gebraucht und ich weiß leider nur wenig über die Vorgeschichte.
Die Problematik ist, dass die Grafikkarte (am Anfang eine GTX1080, dann eine RTX 2070 Super, dann eine RTX 3070, keine der Grafikkarten ist eine Founders, die 1080 war eine ZOTAC AMP!, die beiden RTX waren ASUS Dual) bei einem Kaltstart (reproduzierbar) nicht erkannt wird.
Durch das POST geht er durch (er bootet Windows), aber Bild bekommt man keines und wenn man per TeamViewer auf den PC geht hat man eine Fixe Auflösung von 600x480 und das System läuft über den Windows Bildschirm Treiber.
Anschließend muss man das System ausschalten, die Grafikkarte kräftig nach unten drücken (in der Nähe des PCIe Slots) und dann bootet er wieder regulär (ja ich weiß, sehr brutal und mechanisch bestimmt nicht gut, ich habe natürlich lange Zeit erst einmal Dinge wie Reseaten, BIOS Reset u.ä. probiert, helfen tut aber tatsächlich ausschließlich dieser mechanische "fix").
Es gibt auch Tage, da startet der PC zwar kommt aber nicht durch den POST, auf dem PC wird dann einfach nur ein blinkendes "_" dargestellt, wenn man den PC dann neustartet hat man wieder ersteres Problem bis man oben genannten "fix" anwendet und das System dann wieder normal bootet.
Wenn der PC dann mal läuft, läuft er sauber durch, auch unter Volllast (hab ihn mal 6 Stunden lang Furmark + Prime95 parallel ausgesetzt) für durchschnittlich 6-10 Stunden bis er kommentarlos abstürzt und dann wieder oben genannter "fix" angewendet werden muss damit er wieder bootet (was theoretisch ein mechanisches Problem am PCIe Slot bestätigen würde, nämlich, dass die Grafikkarte keinen Kontakt mehr hat).

Zum Hintergrund, der PC aus dem die Komponenten kommen lief 2 Jahre als Rendermaschine mit 4 GTX1080 im SLI, Netzteil, CPU und Board habe ich dann rausgekauft, die restliche Hardware wurde einzeln weiter verkauft (nicht an mich). Was ich weiß ist, dass das original Gehäuse etwas verzogen war an den PCIe Slots und die GTX 1080 daher alle etwas schräg angebracht waren. Außerdem war am Board ein Kondensator abgerissen den ich aber mit meiner MFD Lötstation ersetzt habe (der Läuft auch nach Spannungstester). Interessanterweise lief der PC auch mit abgerissenem Kondensator vorher noch (der war schon länger abgerissen, da der PC aber lief hat der Vorbesitzer nichts gemacht).

Da ich, auf Grund der Vorgeschichte von einem schaden an den PCIe Steckplätzen bzw. deren Lötstellen ausging habe ich diese einfach mal mit Heißluft aus der MFD Lötstation behandelt - leider ohne Erfolg. Ich kann auch mit dem Auge und unter der Lupe keinen Bruch einer Lötstelle oder einen Schaden an einer Leiterbahn auf dem Board erkennen. Auch der CPU Sockel sieht gut aus, keine Pins verbogen. Die Slots selber habe ich mit Druckluft durchgepustet um auch eine Verunreinigung durch Staub ausschließen zu können.

Hat vll. irgend einer noch eine Idee? Ich habe bereits alle x16 Slots durchprobiert (die ich mit der 2 1/2 Slot 3070 verwenden kann) ohne Änderung (das alle PCIe Slots gleichermaßen defekt sein sollen kann ich mir eigentlich nicht vorstellen). Das System lief bis kurz vor Verkauf noch und da auch im 24/7 Betrieb. Eine M.2 auf PCIe x4 und eine USB-C mit USB 3.1 erweiterungskarte ebenfalls PCIe x4 laufen in den freien x16 Slots Problemlos, auch wenn die Karte nicht erkannt wird und man per TeamViewer drauf geht ist die M.2 da und der USB-C Anschluss funktioniert, es betrifft wirklich nur Grafikkarten. Ein anderes Netzteil habe ich auch mal getestet um einen Schaden am NT auszuschließen.

Sämtliche Standby und Tiefschlafmodi sind in Windows 10 deaktiviert, der PC steht auf "Fast" beim POST-Mode im UEFI und das Problem tritt sowohl im Legacy Mode des UEFI als auch im speziell für Windows 10 optimiertem Modus auf. UEFI und Treiber sind aktuell.

Wären 2011er Sockel Boards nicht so abartig teuer würde ich einfach kurzen Prozess machen und ein neues Board kaufen, allerdings kann ich mir das (genauso wenig wie ein Upgrade auf z.B. ein Ryzen System wie ich es gerne hätte) nicht leisten. Die Grafikkarte will ich auch ungern länger so einer mechanischen Belastung aussetzen und daher meine Frage, ob noch irgend jemand eine Idee hat die ich austesten könnte (vll. spezielle Leiterbahnen auf dem Mainboard die ich mal explizit prüfen könnte o.ä.).
 
Puhhh die slots kann man natürlich nicht auschließen. die letzte ausweg methode wäre natürlich nen komplett neuen slot drauf zu löten anosnsten hast du ja wirklich alles probiert. ist natürlich gut möglich das durch das leicht schräge anbringen vorher auf dauer die slots leicht verzogen sind. und eben nicht die volle auflagefläche vorhanden ist... eventuell kommt es dann nach einiger zeit wärbebedingt dazu das die pins ihre auflagefläche komplett verlieren und das system crasht....
 
Welcher Kondensator war es denn? Weißt du in welchem Kreis der ist? Wie ist der "abgerissen" könnte dabei weiter etwas an der Hardware beschädigt worden sein?
Du hast ja jetzt schon einiges probiert. Auf die Ferne würde ich noch vorschlagen zu schauen ob übers BIOS was zu holen ist (angenommen irgendeine Verbindung ist elektrisch beeinträchtigt dann könnten gewisse Einstellungen wie BCLK 100.0 helfen). Wenn der PC im Boot Vorgang hängt was wird denn als Q-Code angezeigt du hast ja einen QCode Logger.
 
Puhhh die slots kann man natürlich nicht auschließen. die letzte ausweg methode wäre natürlich nen komplett neuen slot drauf zu löten anosnsten hast du ja wirklich alles probiert. ist natürlich gut möglich das durch das leicht schräge anbringen vorher auf dauer die slots leicht verzogen sind. und eben nicht die volle auflagefläche vorhanden ist... eventuell kommt es dann nach einiger zeit wärbebedingt dazu das die pins ihre auflagefläche komplett verlieren und das system crasht....

Danke, wirklich! Ich weiß schon warum ich hier noch mal nachgefragt hab, manchmal sieht man den Wald halt vor lauter Bäumen nicht. Hab über den Jahreswechsel den PCIe Slot von nem Donation-Board draufgelötet und was soll ich sagen, grundsätzlich funktioniert es nun. Bis auf ein "neues" Problem was mir die Vermutung gibt, dass tatsächlich noch etwas mehr mit dem Board nicht stimmt. Aber Danke schon mal für die Idee die mich zumindest einen Schritt weiter gebracht hat!

Welcher Kondensator war es denn? Weißt du in welchem Kreis der ist? Wie ist der "abgerissen" könnte dabei weiter etwas an der Hardware beschädigt worden sein?
Du hast ja jetzt schon einiges probiert. Auf die Ferne würde ich noch vorschlagen zu schauen ob übers BIOS was zu holen ist (angenommen irgendeine Verbindung ist elektrisch beeinträchtigt dann könnten gewisse Einstellungen wie BCLK 100.0 helfen). Wenn der PC im Boot Vorgang hängt was wird denn als Q-Code angezeigt du hast ja einen QCode Logger.

Leider weiß ich den Stromkreis nicht ich vermute aber mal, dass die getauschte Spule eher mit den Onboard Chips (LAN, Sound, etc.) zusammen hängt (da der PC tatsächlich mit abgerissener Spule weiterhin funktionierte).

Der Q-Code ist leider immer AA "Boot into the system" als ob es normal weitergeht. Früher hat das Board (vor dem Tausch der Spule und nun dem Tausch des PCIe Slots) sporadisch auch mal D6 "Graphic Card abnormal" nun aber nicht mehr trotz eines weiteren entdeckten Problems:

Neue Problematik

Nach dem Tausch des PCIe Slots hat die Grafikkarte nun wohl korrekten Kontakt denn diese muss nun nicht mehr physikalisch angefasst werden damit der PC bootet.
Allerdings muss der PC nun oft mehrfach neu gestartet werden bis er über die Grafikkarte Signal ausgibt, der detaillierte Vorgang ist wie folgt:

  1. PC wird über Power-Button eingeschaltet
    1. Möglichkeit A ist, dass gar kein Bild angezeigt wird (kein Signal am Monitor), der PC dennoch normal durch den Post läuft - auch durch die GPU Prüfung - und anschließend in Windows bootet, über TeamViewer ist das Problem wie vor dem Tausch des PCIe Slots, es wird keine Grafikkarte erkannt und der PC läuft mit dem Standard Windows Display Treiber auf einer Auflösung von 680x400
    2. Möglichkeit B ist, das BIOS Logo vom Mainboard (ASUS) wird angezeigt, der PC geht dann in den Boot über bleibt aber vor dem starten des Windows Boot Loaders hängen (blinkender Underscore in der linken oberen Ecke)
  2. Der PC wird neugestartet (über den Power Button aus und anschließend wieder an, über den Restart Button funktioniert der folgende Weg überhaupt nicht, ein Reboot über den Restartbutton hat noch nie funktioniert -> Der PC geht dann zwar aus und wieder an aber bis auf die drehenden Lüfter passiert nichts, QCode bleibt bei 00 was zwar CPU abnormal ist aber halt auch einfach der erste Code, beim Weg über den Power Button läuft der Neustart soweit Reibungslos, dass dieser Fehler nicht auftritt) der Bildschirm bekommt aber nach wie vor kein Signal
    1. Im Hintergrund bootet das System immer in Windows, jedoch mit dem Symptomen wie unter punkt 1.1 beschrieben
  3. Der PC wird noch einmal neugestartet, i.d.R. 3-5 mal bis er dann auf einmal wieder mit Bild und ganz normal bootet. Danach ist das System wieder voll funktional und auch über mehrere Stunden wie auch Tage am Stück stabil

So ich bin mittlerweile so weit zu sagen, ist halt so, muss ich mit leben und irgendwann demnächst eine neue CPU+Board kaufen (möchte für die alte CPU eigentlich auch keine 150€+ für ein Board mit 2011-3er Sockel ausgeben), aber vielleicht hat ja nach wie vor irgend jemand eine Idee wo das Problem liegen könnte bzw. was man noch testen könnte.
 

Anhänge

  • multi-gpu-bg.jpg
    multi-gpu-bg.jpg
    205,7 KB · Aufrufe: 20
  • ASUS_X99-E_WS-USB_3.1_04.jpg
    ASUS_X99-E_WS-USB_3.1_04.jpg
    328,6 KB · Aufrufe: 19
Was ich prüfen würde:
- RAM. Sowohl Low-Level-Test aller Riegel (memtest x86, nicht Win) als auch Betrieb mit Teilbestückung. Erratische Fehler sind oft RAM und wenn nur die ersten paar Byte betroffen sind, deren Inhalt sich nach dem Booten nicht mehr ändert, kann Windows trotzdem stabil laufen.
- Netzteil/Stromversorgung der Grafikkarte austauschen (bzw. mal mit einer nur via PCI-E versorgten versuchen)
- Wird die Grafikkarte (oder zumindest ein unbekanntes PCI-E-Gerät) beim blinden Boot ergkannt oder fehlt sie ganz?
- 1., 3. und 5. Slot gehören zu den getesteten? (= Mindestens einer war dabei, der über den zweiten PCI-E-Switch läuft)

Der markierte Kondensator gehört mit hoher Wahrscheinlichkeit nicht zur Audiosektion, jedenfalls ist er ziemlich klein, einsam und der Weg bis zur Codec-Stromversorgung ist lang. Entweder einer benachbarten Controller hat etwas damit zu tun oder direkt rechts davon liegende Taktgeber. Falls letzterer für PCI-E-Slots zuständig ist (K.A. – aber so viele auf so kleinem Raum kenne ich sonst nicht und die Slots sind die zweite auffällige Besonderheit, ein Kausalzusammenhang naheliegend), könnte das die Fehlerquelle sein. Würde auch zu der mangelnden Wirkung des Restart-Buttons passen (der die Stromversorgung nicht unterbricht, sondern Taktgeber weiterlaufen lässt). Zwischenfrage: Hast du noch weitere PCI-E-Geräte außer M.2, USB 3.1 und GPU zum testen? Ich bin mir gerade unsicher, wie erstere die Taktkorrdination abwickeln. SATA-Express zum Beispiel nutzt ein anderes System als PCI-Express, weswegen sich an den SATA-E-Ports von AMDs 300er und 400er I/O-Hubs nur mit viel Aufwand normale PCI-E-Geräte betreiben ließen. Die typische Ausnahme waren ASMedias USB-3.1-Controller, die ihrerseits SATA-E-fähig waren. Sollten (einige) M.2-SSDs vergleichbare Fähigkeiten haben oder der Adapter irgend etwas aufbereiten könnte es sein, dass die bislang genutzten Vergleichsojekte einfach nicht betroffen sind. SATA-Controller, Sound- und Video-Capturing-Karten müssten aber in die gleiche Kerbe wie die GPUs schlagen.
 
Um es ggf. auf die PCIe einzugrenzen, wenn du in 640x480 in Windows sitzt, wie ist dann die GPU elektrisch verbunden (schau mal in Sisoft Sandra oder so). Da steht dann zum Beispielt PCIe 1.0 4x wenn irgendwas an der Kommunikation nicht passt (aber vorher Link State Power Management ausschalten). Ansonsten eben 16x PCIe 3.0.
 
Zurück