Ursache von RAM Instabilität finden

muadib

PC-Selbstbauer(in)
Gestern nutzte ich unter Windows 10 ein Spiel und plötzlich stürzte dieses mit einem Verweis auf korrupte Installationsdateien ab. Ein Neustart des Spiels lieferte das gleiche Ergebnis und wenige Minuten später stürzte der Rechner mit einem Blue Screen und einem Memory Management Fehler ab. Mein Arbeitsspeicher und meine CPU laufen in dieser Konfiguration seit ca. 8 Jahren.

Um den GSKILL RAM 4x8GB DDR3 2400 auf Stabilität zu testen habe ich zuerst meine CPU auf Standardtakt zurückgesetzt und memtest gestartet. Es zeigte nach kurzer Zeit einen Fehler. Den RAM im 1600er Modus laufen zu lassen verursachte ebenfalls Fehler.

Ich habe noch zwei Kingston HyperX RAM Module mit 2x4GB DRR3 1600, die bei einem Test keine Fehler zeigten.

Die weiteren Tests erfolgten wieder mit dem ursprünglichen Takt von 2400, wie es im XMP Profil hinterlegt ist. Dann habe ich nur zwei Module getestet, die ebenfalls Fehler produzierten. Seltsamerweise war das aber auch mit den anderen beiden Modulen der Fall. Wie wahrscheinlich ist es, dass bei vier Modulen mindestens zwei defekt sind?

Dann habe ich alle Module einzeln getestet. Wie auch vorher habe ich, sofern keine Fehler auftraten, memtest immer zwei Durchgänge laufen lassen. Zwei Module zeigten keine Fehler, eines zeigte Fehler und das vierte verhielt sich seltsam. Beim ersten Testversuch des vierten Moduls wurde die CPU Taktfrequenz falsch angezeigt und der Test war sehr langsam. Nach einem Neustart und dem neu einsetzen des Moduls zeigte es auch jetzt Fehler.

Nun zu den Fehlern. Bei zwei der RAM Module zeigte memtest manchmal bei zwei Durchläufen Fehler an der gleichen Speicheradresse, manchmal aber auch nicht. Manchmal zeigte es mehr, manchmal weniger Fehler und manchmal erst beim zweiten Durchlauf.

Mir stellt sich die Frage wo der Fehler liegt. Ist es das Mainboard, die CPU oder der RAM. Sagt es etwas aus, wenn der Fehler nicht immer bei der gleichen Speicheradresse auftritt? Bevor ich den RAM unter Garantie umtauschen lasse möchte ich natürlich klarstellen, dass das Problem auch beim Speicher liegt. Meint ihr ob ich zwingend einen zweiten PC brauche um da sicher sein zu können?
 
Es scheint doch etwas komplizierter zu werden. Ab und zu habe ich beim Neustart des Systems den Bios Fehler Code: System Timer Failure. Da die Bios Batterie ok ist, bleibt nur ein Problem mit der Ansteuerung des RAMs übrig. Allerdings ist jetzt auch bei den vermeintlich stabilen RAM Modulen ein Fehler nach drei memtest Durchläufen aufgetreten. Die beiden anderen Module weigern sich inzwischen komplett mit dem XMP Profil zu starten, funktionieren aber, zumindest bis jetzt ohne Fehler, wenn ich im Bios die Safe Defaults lade.

Ich werde noch etwas mit verschiedenen Frequenzen und Spannung experimentieren.
 
Kannst du deine ganze Hardware mal auflisten? Am Einfachsten wäre es den RAM auf einem anderen Board zu testen, am besten einem, das bekannt funktioniert. Wenn es da läuft weißt du Bescheid. Wenn memtest da auch Fehler wirft ebenfalls.
 
Ich habe einen i7 3770K auf einem ASRock Fatal1ty P67 Profess1onal Mainboard mit 32 GB G.Skill RipJawsX DDR3-2400 11-13-13-31 2T.

An den Timings habe ich noch nichts verstellt. Es war immer das XMP Profil aktiviert. Ich habe aber die Taktraten bis auf 1066 gesenkt und habe immernoch Fehler gehabt. Das Erhöhen der RAM, VCCSA und VTT Spannung hat nichts gebracht. Mit dem Kingston HyperX Speicher, der 1600 hat, gibt es weiterhin keine Probleme.

In den nächsten Tagen werde ich es mal auf einem anderen System probieren und dann berichten.
 
Zuletzt bearbeitet:
Hast Du die Sticks einzeln in unterschiedlichen Slots getestet? Oder immer den selber Slot dafür verwendet. Sprich produzieren die Sticks, welche Errors aufweisen, diese in allen DIMM Slots des Boards?
 
Am 12 Jahre alten Netzteil wirds nicht liegen? Sowas ähnliches war in einem anderen Thread, neues Netzteil und läuft.
 
Solche Fehler sind eklig zu finden. Ad Hoc würde ich auch einmal testweise ein anderes Netzteil versuchen. Der Fehler kann aber genauso gut vom Mainboard stammen oder CPU. Bei dem Alter des Rechners kann es auch die Spannungsversorgung an der CPU erwischen, die Kondensatoren funktionieren nicht immer bis in alle Ewigkeit.

Generell würde ich mal ein Upgrade empfehlen, Windows 11 funktioniert auf dem Rechner eh nicht und Windows 10 ist nächstes Jahr tot.
 
Beim Test eines einzelnen Sticks habe ich immer den gleichen Slot verwendet und da schien es mit einigen Sticks besser zu funktionieren als mit anderen. Ein Stick in Slot 0 funktioniert gar nicht. Im Handbuch steht nichts dazu drin, aber ich habe vermutet, dass man mit einem Stick nicht alle Slots benutzen kann und habe immer Slot 2 verwendet. Beim Test von zwei Sticks habe ich immer Slot 0 und 2 benutzt.

An einen Netzteilfehler habe ich auch gedacht. Hatte aber kein passendes zum Wechsel parat. Dieses Netzteil hatte ich vor 13 Jahren als PCGH Abo Prämie bekommen, kurze Zeit nachdem ich mir ein neues gekauft hatte. :wall: Das ist jetzt 13 Jahre alt und lag mindestens 10 davon in meinem Schrank. Leider altern Komponenten auch wenn man sie nicht nutzt. In den nächsten Tagen werde ich aber wahrscheinlich Zugang zu einem anderen PC haben und dann testen.

Ein signifikantes Upgrade ist für mich momentan aus finanziellen Gründen nicht drin. Theoretisch müsste man Windows 11 auf dem Rechner zum laufen bekommen. Ob das in 1,5 Jahren, wenn Windows 10 keinen Support mehr bekommt, auch noch gilt kann man natürlich nicht sagen. Abgesehen vom Spielen nutze ich meinen PC eh nur noch mit Linux. Selbst wenn ich einen neuen Rechner mit Windows 11 hätte, würde ich diesen als Retro Rechner weiter nutzen wollen, da auf diesem neben Windows 10 und Linux, auch Windows 8.1, Windows 7 und Windows XP läuft.
 
Zuletzt bearbeitet:
Also wenn es das PSU wäre, dann würde es ja alle Sticks betreffen. Wenn es sich wirklich auf 2 Sticks "einkreisen" lässt die jetzt plötzlich Errors werfen dann würde ich einfach davon ausgehen, dass die DRAM "Zellen" den Geist aufgeben. Vor allem da es ja scheinbar immer in "ähnlichen" Speicherbereichen auftritt.

Die Sticks liefen halt 8 Jahre. Mit 150mV mehr als die ICs eigentlich vorsehen. Das Binning von G.Skill hat sie damals nur anders qualifiziert als wohl den Großteil der jeweiligen Chargen vom Hersteller. Und die produzieren alle nach JEDEC. Was die "Abnehmer" wie G.Skill, Corsair oder Kingston dann damit machen ist deren Bier.
Ein signifikantes Upgrade ist für mich momentan aus finanziellen Gründen nicht drin.
Wenn die vorhandene Leistung ausreicht für dich besteht dafür ja auch erstmal kein Grund. Wenn Du es wirklich auf 2 fehlerhafte Sticks eingrenzen kannst, kauf dir gebraucht 2 "neue" und fertig.
 
Leider sind die Fehler nicht konsistent. Manchmal sind die RAM Sticks stabil, manchmal nicht. Das scheint leider für alle vier zu gelten. Mein Eindruck war, je mehr RAM Riegel ich verwende, umso schneller treten Fehler auf.

Ich habe jetzt auf einem zweiten Board getestet. Zwar treten auch bei diesem Fehler auf, allerdings sind dort im CPU Sockel ein paar Pins leicht verbogen, weshalb ich das als Ursache für die Fehler nicht ausschließen kann. In den kommenden Tagen werde ich es an weiteren PCs probieren.
 
Manchmal sind die RAM Sticks stabil, manchmal nicht. Das scheint leider für alle vier zu gelten. Mein Eindruck war, je mehr RAM Riegel ich verwende, umso schneller treten Fehler auf.
Dann deutet es für mich darauf hin, dass der IMC deiner CPU langsam aber sicher am sterben ist.
 
Ich habe weiterhin versucht den Fehler zu finden.

Mein zweites Testsystem bestand aus einem Z77 Board, einem anderen Netzteil und einer anderen CPU. Da hier zuerst auch RAM Fehler auftraten, war ich mir nicht sicher ob es am Sockel lag, da dort ein paar Pins nicht zu 100% gerade waren. Dann sah ich aber, dass dort ein Beta Bios für bessere RAM Kompatibilität installiert war. Nachdem ich dort das Bios gegen das neueste Standardbios ausgetauscht hatte, liefen alle vier Sticks mit bis zu 1866. Soviel zu besserer RAM Kompatibilität. 1866 sind nicht schlecht, wenn man bedenkt, dass es hier nur ein Pentium Dual Core Prozessor ist. Der RAM scheint also ok zu sein.

Mit meinem Hauptsystem mit P67 Board hatte ich in der Vergangenheit bereits Probleme mit dem letzten Bios Update, worüber ich hier im Forum schon einmal berichtete. Trotz wiederholtem Abbruch beim Update hatte ich es damals doch noch geschafft das Bios Update aufzuspielen. Mein Gedanke war, vielleicht ist beim damaligen Update nicht alles glatt gelaufen und das Bios läuft zwar, ist aber fehlerhaft. Zumindest beim Einstellen der RAM Frequenzen zeigte zwar das Bios immer die an die ich ausgewählt hatte, das Memtest Programm zeigte aber immer 2400 an, was beim Z77 Testboard nicht der Fall war. Zuerst versuchte ich das vorhandene Bios nochmals neu aufzuspielen. Dabei war nicht wie beim letzten Mal eine Fehlermeldung, sondern der PC stürzte komplett ab und dieses Mal war dann das Bios komplett im Arsch. Aufgrund des Verhaltens beim Bios Update, vermute ich einen Defekt des Bios Chips der ein erfolgreiches Update verhindert. Um dieses Board zu retten brauche ich dann wohl irgendwann einen neuen Chip und wahrscheinlich ein Gerät zum programmieren des Chips.

Zumindest habe ich den RAM auf dem Z77 Board zum Laufen gebracht und habe deshalb meinen 3770K nun auf dem Z77 installiert. So lange dort nur zwei Sticks installiert waren funktionierten dort auch alle RAM Sticks in allen Slots bei 2400. Mit 4 Sticks musste ich aber auf 1333 runter für einen stabilen Betrieb. Das würde als Ursache für die CPU sprechen. Denkbar wäre auch, dass das P67 Board mit seinem vielleicht fehlerhaften Bios dazu beigetragen hat. Vermutlich ist das Z77 auch etwas hochwertiger als das P67.

Als letztes wollte ich am Z77 Board die DRAM, VCCSA, VTT Spannungen optimieren um aus meinen vier RAM Sticks die maximale stabile Frequenz zu bekommen. Nachdem ich alle drei Spannungen erhöht hatte, war plötzlich ein stabiler Betrieb mit allen vier Sticks bei 2400 möglich. Dann wollte ich die Spannungen wieder zurücksetzen um herauszufinden welche der Spannungen in welchem Umfang erhöht werden muss. Das Ergebnis war, auf einmal waren alle Sticks mit Standardspannungen stabil. Da war ich langsam am Durchdrehen. Dass der 3770K weniger RAM Takt konnte als der Pentium sprach für ein CPU Problem aber dass auf dem neuen Board dann doch noch alles funktioniert spricht für ein Problem mit dem P67 Board. Dann fiel mir ein, dass ich bei den letzten Tests einen Lüfter auf den RAM gerichtet hatte. Als ich diesen wieder entfernte trat zumindest ein RAM Fehler wieder auf. Kühlung scheint also mit eine Rolle zu spielen, aber vermutlich nicht die einzige, da ich voher mit 2400 nicht nur einen RAM Fehler hatte sondern unzählige. Vermutlich sind die Wärmeleitpads gealtert und die RAM Riegel werden dadurch heißer. Vier Riegel nebeneinander zu haben vergrößert das Problem.

Da die Hitze zwar ein, aber nicht das einzige Problem bei der Stabilität des RAMs war, werde ich vorsichtshalber mein System mit memtest regelmäßig überwachen. Ich habe keine Lust mir mit RAM Fehlern wichtige Daten zu zerstören. Ich habe jetzt immer einen Lüfter auf die RAM Riegel gerichtet.

PS
Zu früh gefreut. Nachdem ich zig Tests im offenen Aufbau ohne Fehler hatte, ist nach dem Einbau im Gehäuse ein einziger RAM Fehler aufgetreten. Also werde ich weiterhin mit Spannungen und Taktfrequenzen experimentieren, bis es endlich stabil ist.
 
Zuletzt bearbeitet:
Höhere Spannungen > Höhere Temperaturen für die DRAM Chips -> Höhere Temps führen zwangsläufig irgendwann zu Instabilitäten. Je nach Memory ICs(Samsung, SK Hynix, Micron, Nanya etc.pp.) ist das aber unterschiedlich ab welcher Temperatur diese eintreten.

Sind auf deinen Sticks die gleichen ICs verbaut? Hast Du da mal nachgeschaut?
Dann fiel mir ein, dass ich bei den letzten Tests einen Lüfter auf den RAM gerichtet hatte.
Übliche Vorgehensweise bei OC´lern. Ghetto Mod zur Befestigung eines Fans auf den Sticks.
.
 
Was für ein Temperaturproblem spricht:
  1. Keine Fehler im offenen Aufbau wenn ein Lüfter auf die RAM Riegel gerichtet ist.
  2. Jetzt im Gehäuse wieder vereinzelt Fehler, da der Lüfter für die RAM Riegel aufgrund der Enge im PC deutlich weiter von den RAM Riegeln entfernt ist als im offenen Aufbau
  3. Die Fehler traten erst vor ein paar Tagen auf, als es deutlich wärmer wurde.
Die vier RAM Sticks sind aus der gleichen Serie.
 
Die vier RAM Sticks sind aus der gleichen Serie.
Das besagt rein gar nichts. ;) Die Hersteller verbauen das an ICs was gerade verfügbar ist. Du kannst grundsätzlich eine SKU mit 2 oder 3 unterschiedlichen ICs bekommen. Gerade bei G.Skill und Corsair ist das sogar relativ häufig der Fall.
 
Das besagt rein gar nichts. ;) Die Hersteller verbauen das an ICs was gerade verfügbar ist. Du kannst grundsätzlich eine SKU mit 2 oder 3 unterschiedlichen ICs bekommen. Gerade bei G.Skill und Corsair ist das sogar relativ häufig der Fall.
Zur Identifizierung müsste ich vermutlich den RAM Kühler demontieren. Da ich aber damit rechnen muss dadurch die Garantie zu verlieren, lasse ich es besser.
 
Ich hatte bereits früher Taiphoon Burner verwendet und bei allen vier Sticks diese Daten bekommen. Ich finde hier aber keine Angaben zu den Chips, außer dem Produzenten der als G.Skill hinterlegt ist.
 

Anhänge

  • Screenshot 2024-05-05 at 13-56-25 Screenshot.png
    Screenshot 2024-05-05 at 13-56-25 Screenshot.png
    323,4 KB · Aufrufe: 8
Zuletzt bearbeitet:
Zurück