Kann eine (Teil)defekte GPU andere Komponenten schädigen?

TriadFish · 14. Januar 2022

Wie ich heute leider durch den Test im Rechner eines Freundes erfahren habe, ist meine GPU offenbar (Teil)defekt. Es handelt sich um eine KFA2 2060 Super 1-Click OC. Die Karte ist etwa 2 Jahre und 2 Monate alt, wurde nur moderat genutzt und nicht übertaktet.

Das Fehlerbild ist recht merkwürdig: Beim Starten von Diablo 2 Resurrected und BF 2042 stürzt der PC mit einer gewissen Chance komplett ab (Blackscreen, GPU und CPU Lüfter drehen voll auf, es ertönt der Windows-Sound der auch kommt, wenn man einen USB-Stick einsteckt). Dies passiert immer nur im Ladebildschirm de beiden Spiele und wurde mit der Zeit gefühlt häufiger. Wenn die Spiele einmal gestartet sind, kann ich sie stundenlang ohne Probleme spielen. Auch Map/Serverwechel in BF 2042 sind kein Problem.

Die Karte läuft ansonsten einwandfrei, ich habe nie Grafikfehler oder Temperaturprobleme gehabt und mit anderen Spielen gibt es keinerlei Schwierigkeiten. Dazu gehören z.B.:

Cyberpunk 2077
Hunt: Showdown
DayZ
Arma 3
Battlefront 2
BF BC2
Star Wars Jedi: Fallen Order

und einige andere...

Auch verschiedene Benchmarks laufen ohne Fehler:

Unigine Superposition
3D Mark Timespy
3D Mark Stress Test

Dann habe ich festgestellt, dass der 3D Mark Mesh Test den Absturz zu 100% reproduziert. Hier nicht während des Ladens, aber immer ca. 1 Sekunde nachdem der Test gestartet ist. Mit dem Mesh Test habe ich dann auch im PC eines Freundes gegengetestet und dort ist es exakt das selbe Fehlerbild.

Da ich nun nicht vor habe mir bei den derzeitigen Preisen eine neue GPU zuzulegen und meine vorhandene ja bisher in den meisten Spielen (noch) tadellos funktioniert, frage ich mich, ob in irgendeiner Weise die anderen Komponenten beschädigt werden können, wenn ich die Karte weiter verwende?

Der Rest des PCs ist nämlich fast neu (ca. 5 Monate alt).

Wie die Abstürze überhaupt zu Stande kommen weis ich natürlich nicht. Könnte evtl. ein Problem mit den Spannungswandlern sein...

Gast1705317003 · 14. Januar 2022

Wie schaut es mit dem Temps bei Last aus?Und wurde jemals die Wärmeleitpads(Spannungswandler(n) und Vram,s) von der GPU gewechselt?Das könnte man eventuell versuchen(auf eigene Verantwortung)und schaun ob da eine Besserung herbei führt(?).
Nach meiner Erfahrung.wenn eine GPU seinen Dienst einstellt.Sollte eigentlich kein weiterer defekt am Mainboard und Co .auftretten.Es wird einfach kein Anzeige mehr erzeugt und die Deug LED oder Post LED,wenn vorhanden auf dem Board.Leuchtet dann der entsprechende Debug LED auf oder zeigt oder gibts ein Debug Code/Töne(AMI Beep Codec) aus.Das keine GPU vorhanden ist oder defekt ist.

Natürlich gab,s auch mal Fälle,wo unerfahrene Nutzer ihre GPU im laufenden Betrieb eingebaut bzw.ausgebaut haben.
Das hat dazu geführt,das im PCI-E Slot(Kontakte)und bei der GPU selbst zum Kurzschluss kam und beide Komponenten schaden nahm.Sowas sollte man auf keinemfall machen,dann ist es selbstverschulden.
Und sollte ein Kurzschluss vorhanden sein und das unabhängig vom welcher Hardware verursacht wird.Da muß deine Netzteil sofort abschalten um weitere Hardware schäden zu vermeiden.Wenn ein qualitativ gutes Netzteil genutzt wird.

Finallin · 15. Januar 2022

Brexzidian7794 schrieb:
Natürlich gab,s auch mal Fälle,wo unerfahrene Nutzer ihre GPU im laufenden Betrieb eingebaut bzw.ausgebaut haben.
Das hat dazu geführt,das im PCI-E Slot(Kontakte)und bei der GPU selbst zum Kurzschluss kam und beide Komponenten schaden nahm.

Das ist Quatsch... PCI ist seit 1997 Hot Plug fähig und PCIe seit 2002 wenn ich mich richtig erinnere.
Auch wenn ich es nicht machen würde, PCI und PCIe sind HotPlug fähig.

@ TE

Nein, eine Teildefekte Komponente, in diesem Fall die Grafikkarte (wobei ich persönlich das nicht glaube) kann keine anderen Hardware- Bauteile in Mitleidenschaft ziehen.

chill_eule · 15. Januar 2022

TriadFish schrieb:
Die Karte läuft ansonsten einwandfrei, ich habe nie Grafikfehler oder Temperaturprobleme gehabt und mit anderen Spielen gibt es keinerlei Schwierigkeiten. Dazu gehören z.B.:

[...]

TriadFish schrieb:
Auch verschiedene Benchmarks laufen ohne Fehler:

[...]

TriadFish schrieb:
Beim Starten von Diablo 2 Resurrected und BF 2042 stürzt der PC mit einer gewissen Chance komplett ab

TriadFish schrieb:
Dann habe ich festgestellt, dass der 3D Mark Mesh Test den Absturz zu 100% reproduziert.

Bei der eher großen Auswahl an Games/Benchmarks die problemlos läuft, gegenüber nur 2 Games und einem Benchmark, die nicht laufen, würde ich da ja eher ein Softwareproblem vermuten (Treiber? Verbuggte Games/Benchmarks?) :ka:

Das das Problem bei einem Benchmark im PC deines Kumpels auch auftritt ist bestenfalls ein Indiz.

TriadFish schrieb:
Mit dem Mesh Test habe ich dann auch im PC eines Freundes gegengetestet und dort ist es exakt das selbe Fehlerbild.

Funktioniert denn der "Mesh Test" im PC deines Kumpels mit seiner Grafikkarte?
Könnt ihr auf der Kiste mal D2:R und BF2042 installieren und austesten mit seiner Hardware?

Achso.... PS:
Gib doch bitte noch deine gesamte Hard- und Software an.

TriadFish · 15. Januar 2022

Brexzidian7794 schrieb:
Wie schaut es mit dem Temps bei Last aus?Und wurde jemals die Wärmeleitpads(Spannungswandler(n) und Vram,s) von der GPU gewechselt?

Die GPU Temp geht unter Volllast bis ca. 76 Grad, GPU Hotstop bis ca. 91 Grad. Weitere Temps kann ich bei der Karte nicht auslesen, oder doch? An den Wärmeleitpads will ich eigentlich ungerne rumfummeln.

Finallin schrieb:
Nein, eine Teildefekte Komponente, in diesem Fall die Grafikkarte (wobei ich persönlich das nicht glaube) kann keine anderen Hardware- Bauteile in Mitleidenschaft ziehen.

Was glaubst Du denn woarn es liegt? Ich habe jetzt eine wochenlange Fehlersuche hinter mir, war bereits selbst nahezu überzeugt davon, dass es nicht an der GPU liegen kann und wollte den PC schon zu Mindfactory zurück schicken (Der ja ohne GPU bestellt wurde). WIndows zeigt Kernelevent Power Errors und hin und wieder Hardwarefehler an. Im Rechner des Freundes exakt das selbe Fehlerbild...

chill_eule schrieb:
Bei der eher großen Auswahl an Games/Benchmarks die problemlos läuft, gegenüber nur 2 Games und einem Benchmark, die nicht laufen, würde ich da ja eher ein Softwareproblem vermuten (Treiber? Verbuggte Games/Benchmarks?)

Daran hatte ich auch eine ganze Weile geglaubt, habe aber in der Hinsicht schon jede Menge probiert. Außerdem finde ich weder bei D2R noch bei BF 2042 Personen, die das selbe Problem haben, nur Leute die ähnliche (aber im Detail doch andere) Probleme haben. Habe schon alle Foren diesbezüglich abgegrast.

chill_eule schrieb:
Das das Problem bei einem Benchmark im PC deines Kumpels auch auftritt ist bestenfalls ein Indiz.

Funktioniert denn der "Mesh Test" im PC deines Kumpels mit seiner Grafikkarte?
Könnt ihr auf der Kiste mal D2:R und BF2042 installieren und austesten mit seiner Hardware?

Achso.... PS:
Gib doch bitte noch deine gesamte Hard- und Software an.

Er hat nur eine GTX 970, die unterstützt kein DX12 Ultimate und damit auch nicht den Mesh Shader Test. Daher konnten wir nur mit meiner GPU in seinem PC testen. D2:R läuft bei ihm, BF 2042 hat er zu Release 1-2 mal kurz gespielt und dann aufgrund der Bugs refunded.

Meine Hardware ist folgende:

MSI MAG Z590 Tomahawk Wifi mit aktuellstem Bios
Samsung 980 Pro 1 TB M2. SSD
Samsung 970 Evo Plus 1 TB M.2 SSD
32 GB G.Skill RipJaws V DDR4-3600 CL16 Dual Kit
Core i7 11700K
KFA2 RTX 2060 Super 1-Click OC
Be Quiet! Dark Rock 4 Pro
Be Quiet! Straight Power 11 750 Watt Modular 80+ Gold NT
Fractal Design Define 7 Black Case
4 Gehäuselüfter
Windows 10 Pro 64 Bit mit allen Updates
aktuellster NVidia Treiber

4thVariety · 15. Januar 2022

Wenn der Fehler nur beim Initialisieren einer 3D Engine auftritt, dann klingt das als würde ein Strom zusammenbrechen, wenn die Karte auf ihr Maximum umschaltet. Das WindowsLog stützt das in dem Sinne, dass es ein PowerFailure ist.

Wenn die Karte in einem anderen PC den gleichen Fehler produziert, dann ist das Netzteil nicht der erste Hauptverdächtige, dann ist es die Karte aus irgendeinem Grund.

Wenn die Karte über Stunden stabil läuft, bedeutet es, dass die Karte intern sehr gut ihren Stabilitätspunkt kennt wenn sie denn einmal die Last hochgefahren hat. Sie kennt den Punkt nur beim Anfahren dieser beiden Engines nicht und schießt über das Ziel hinaus (vgl. New World). Ursachen können in Bauteilen auf dem Board begründet sein, oder der Takt ist nicht so stabil wie die Karte glaubt. Nvidia Karten stürzen jeden Tag Systeme ab, wenn die User den Takt zu hoch einstellen.

Für deine Karte gibt es ein One-Klick Overclocking Tool vom Hersteller.

KFA2 GeForce® RTX 2060 Super (1-Click OC) - GeForce® RTX SUPER Series - Graphics Card

<div id="featurebullets_feature_div" class="feature" data-feature-name="featurebullets"> <div id="feature-bullets" class="a-section a-spacing-medium a-spacing-top-small"> <ul class="a-vertical a-spacing-none"> <li><span class="a-list-item">NVIDIA® GeFo

www.kfa2.com

Ich würde zuerst den One-Klick Overclock abschalten und dann die Karten leicht untertakten. Wenn das den Fehler behebt, ist dein Problem dass die Karte nicht mehr den Takt erreicht auf den sie ursprünglich von Hersteller eingestellt wurde. Das ist auch die bevorzugte Lösung, weil dich das 2-3fps kostet und ein müdes Lächeln.

Wenn die Karte trotz Underclock zusammenbricht und der PC sich abschaltet und sicherheitshalber die ganzen Lüfter auf 100% hochdreht weil er keine Temperaturen mehr sieht, dann ist es eher ein Defekt an einem Bauteil auf der Karte. Wenn du sowas fixen könntest, würdest du nicht hier schreiben, dann geht es noch um die Frage welches Risiko besteht für das System. Da sehe ich mehr Risiken für die Karte auf Dauer, als für den Rest.

TriadFish · 16. Januar 2022

Guten Morgen 4thVariety,

das sehe ich genau so wie Du. Die Karte scheint in den genannten Fällen mit einem Lastwechsel/Spannungswechsel nicht klar zu kommen. Das 1-Click OC der Karte ist schon seit bestimmt einem Jahr deaktiviert. Habe es damals abgeschaltet, um die Karte zu schonen aufgrund der Preissituation bei den GPUs.

Was ich bereits probiert habe:

- Powerlimit erhöhen
- per Curve Editor im Afterburner undervolten
- Chip und VRAM-Takt reduzieren

Hat alles nicht geholfen. Ich werde jetzt aber mal mit Energieverwaltungsmodus "adaptiv" testen. Einen Versuch ist es wert.

Update: Crasht auch damit.

xlOrDsNaKex · 16. Januar 2022

Die Schrauben des Kühler nachziehen. Solche Verhalten können auch auftreten weil Komponenten zu schnell zu heiß werden.

Ich hatte mittlerweile jetzt schon mehrere nvidia Karten auf dem Tisch mit solch einem Fehlerbild. Einmal war die Spannungsversorgung defekt. Einmal war es der nicht richtig sitzende Kühler, Einmal hab ich den Grund nicht ermitteln können (Schrott) Einmal konnte die Heißluftpistole die Karte wiederbeleben.

4thVariety · 16. Januar 2022

TriadFish schrieb:
- Powerlimit erhöhen
- per Curve Editor im Afterburner undervolten
- Chip und VRAM-Takt reduzieren

Das Powerlimit willst du eben nicht erhöhen, du willst es senken
tl;dr GPU-Z herunterladen und starten, mit Battlefield die Karte auf 100% Last bringen, in GPU-Z die "PowerCap Reason" nachsehen. Vor dem Start von Battlefield GPU-Z starten und "log to file" starten. Wenn ein Absturz kommt, steht da vielelicht etwas drin, das uns hier weiterhilft.

Zum Beispiel. Die Karte hat ein Powerlimit von 160W (<- einfach nur eine Zahl, damit eine Zahl im Beispiel steht und es einfacher verständlich wird) Ab Werk hat die Karte dieses Limit und das Bios auf der Karte testet bei Start der Engine kurz das Powerlimit. Jetzt kommt es zu zwei Fällen.

(1) Manche Spiele verursachen einen Bug und es werden statt 160W etwas mehr, z.B. 165W getestet, die Karte funktioniert nicht jenseits ihrer Spezifikation und schaltet ab.

(2) Die Karte hat eine Alterserscheinung und packt ihr eigenes Werks-Limit gar nicht mehr. Dann müsstest du das Powerlimit auf 155W heruntersetzen, damit sie nicht mehr beim Selbsttest (zu dem Zeitpunkt denke ich, dass der Fehler passiert) über das Ziel hinausschießt.

Ich denke auch, dass die Karte deshalb stundenlang funktioniert, weil wenn die Karte läuft, dann kommt vermutlich ihr thermisches Limit eher zum Tragen als ihr Powerlimit. z.B. die Karte könnte auf 170W gehen (du erlaubst es ja am Powerlimit Regler), aber der Chip ist am Temperaturlimit und deswegen geht die Karte nicht auf 170W, würde sie das tun würde sie sofort die Grätsche machen.

Die gute Nachricht, du kannst genau das mit dem Tool GPU-Z testen. (Download: http://filepony.de/download-gpuz/get-mirror-server.html)

Im Tab Sensor zeigt GPU-Z den sog PerCap Reason, das ist der Grund warum deine Karte nicht noch schneller geht. Da steht eine oder mehrere Sachen aus dieser Liste

vRel: die Karte könnte mehr, aber die Spannung wäre dann zu instabil. (Du bekommst Nvidia Speed oder etwas mehr, aber da wäre noch Raum für mehr)
VOP: die Karte ist am Limit der Spannung die für die Karte im Bios eingestellt ist. (Du bekommst Nvidia Speed oder mehr, aber da ist kein Raum mehr in der Spannungsversorgung die der Hersteller auf der Karte verbaut hat)
Pwr: Die Karte ist am Powerlimit das irgendwo eingestellt ist. Treiber, Bios, Overclocktool. Das kann auch ein physikalisches Limit sein. Der Nvidia Chip fordert mehr Power an, aber die Elektronik auf dem Board sagt, nein, mehr gibt es nicht. Da hätte der Hersteller bessere VRAMs verbauen müssen, hat er aber nicht.
Thrm: die Karte ist an ihrem Temperatur Limit und zieht deswegen nicht mehr Strom
Util: der Chip von Nvidia läuft schon bei 100%, ohne dass einer der anderen Fälle eingetreten ist.

Ich würde wetten, wenn deine Karte unter Battlefield erstmal läuft, dann wird in der Anzeige nicht PWR stehen. Weil wenn die Karte auf voller Power läuft wie beim kurzen Selbsttest, dann schmiert sie ab. Wenn sie dann läuft, dann läuft sie so, dass sie zuerst in eines der anderen Limits läuft und nie PWR.

Auf dem Bild siehst du wie das bei einer billigen 3060Ti ohne OC Gedöns aussieht im benchmark. Die ist bei 1935MHz und könnte vielleicht auch 1950MHz aber dafür bräuchte es etwas mehr Strom und etwas saubere Spannung und das kann das Board nicht liefern, also sagt der Nvidia Chip, nö, lass mal lieber sein. Eine Asus ROG Strix würde diese Limits nicht haben, da würde die Karte auf 1950MHz gehen. Die kann den gleichen Grund für ihr Limit haben letztlich, nur halt auf auf einem anderen Niveau. Das kann dann viel Aufpreis für 1-2% Leistung sein.

TriadFish · 16. Januar 2022

Habe GPU-Z gestartet und die Logs aktiviert. Dann den 3D Mark Mesh Test gestartet um einen Crash zu provozieren. Habe das Log mal angehängt, vllt. erkennst Du da ja was. Die Power Cap Reason stand noch auf Idle, der Crash kommt wahrscheinlich so schnell, dass ich da gar keine Änderung sehen kann.

Wie kann man überhaupt das Powerlimit einer GPU reduzieren? MSI Afterburner und das Utility von KFA2 lassen nur eine Erhöhung zu, wenn ich mich recht erinnere.

4thVariety · 16. Januar 2022

Gut, das ist ein Log das von Idle -> Crash
Kannst du noch ein Log machen von Idle -> Spiel startet normal?

Es ist wirklich so, dass in dem Log noch nichts auffälliges passiert. Das Log eines normalen Starts sollte uns zeigen in welcher Reihenfolge bei deiner Karte die nächsten Dinge passieren. Bei meiner Karte würde der Takt des Chips und des Speichers kurz auf das Maximum springen, ohne dass der Powerdrain am bei den 8Pin Connectoren ansteigt. Erst danach geht die Karte hoch mit dem Strom-Verbrauch, der Temperatur, etc. Wenn das bei deiner Karte auch der Fall ist, dann bleiben als Ursache für die Abstürze fast nur der 2060 Chip selbst oder die Kondensatoren und nähster Umgebung des Chips als Fehlerursache übrig. Das wäre als Fehler zu bevorzugen, weil das Bauteile sind die wirklich nur die Karte abstürzen wenn sie von unbenutzt auf benutzt hochspringen. Ursache ist dann egal, Bestückungsfehler, Schlagschaden, Hitze, Alter. Deine Karte hat ja bewiesen, dass wenn sie läuft, dann läuft sie.

p.s. Log mit dem Editor öffnen und alles kopieren, dann in Libre Office einfügan, da ist eine Option "Spaltentrennung mit Komma". Das sollte das Log sehr leicht lesbar machen.

TriadFish · 16. Januar 2022

Hab das mit Libre Office nicht ganz kapiert, habe das Log deshalb wieder so angefügt, wie es von GPU-Z erstellt wird.

Diesmal habe ich einen erfolgreichen Start von Diablo 2 Resurrected dokumentiert. Ist von den 3 Anwendungen diejenige, die mit der geringsten Chance Crasht. GPU-Z zeigte dabei zuerst vRel und wechselte dann auf PWR. Ziemlich genau zu dem Zeitpunkt des Wechsels ist der PC sonst gecrasht würde ich sagen, evtl. auch etwas früher.

Hab gerade auch mal im Extreme Tuner das Power Target auf 90% runter gesetzt. Der 3D Mark Mesh Test crasht damit trotzdem.

4thVariety · 16. Januar 2022

Linke Spalte geht von grün nach gelb, von 1080 auf 1470Mhz. Diesen Ramp Up gibt es nur für zwei Zeilen, wenn die Karte crasht. Da liegt der Hund begraben.

Die Spalte Boardpower hat ihren Ramp Up jedoch verzögert, und erst wenn der RAM von 1470 auf 1890Mhz geht. Bedeutet, den ersten Ramp Up von 1080 auf 1470 bezahlt die Karte indem Kondensatoren entladen werden. Das sieht man daran, dass alle anderen Metriken erst anziehen, wenn die Karte auf 1890MHz geht.

Ganz rechts in der Voltage sieht man auch, dass die Karte erst auf mehr Voltage (1.037V) geht, wenn der Sprung auf 1890MHz erfolgt Bei diesem Sprung geht der 2060 Chip vom PerfCap Reason 16 (Idle), sofort in den PerfCap 04 (limited by max operating voltage). Die Karte (als Ganzes) ist am Maximum der Volt die gerade gehen und sollte sie in dem Moment mehr Volt brauchen, (weil zum 2060 Chip auch noch die Elektronik außenrum gerade übermäßig Strom zieht) wird es dunkel. Spannung bricht ganz zusammen, und aus. Beim Absturz ist das der Hilfeschrei, den wir im Log nicht sehen.

Im Crash Log aus dem vorherigen Post geht der Takt auch zwei Einträge lang hoch, aber die Spannung geht noch nicht hoch. Das erste Hochtakten im Verbund mit dem Umschalten der Karte von Idle auf halbe TDP saugt also die Karte komplett leer und crasht das System, bevor die Spannungsversorgung reagieren kann und insgesamt hochregelt.

Das ist nicht ideal, denn vermutlich braucht die Karte an der Stelle mehr um diesen Anstieg abzufangen der durch das Hochfahren der Karte im Verbund mit dem Entladen der Kondensatoren entstanden ist. Vermutlich hat der Hersteller damit nicht gerechnet, denn später sehen wir wenn die Karte auf 125W geht sinkt die Spannung sogar und das PerfCap wechselt auf 1 (imited by temperature limit.). KFA2 könnte daher geneigt sein zu glauben die Reaktionsfähigkeit der Spannungsversorgung wäre gut genug, wenn sie das in Wirklichkeit nicht ist. KFA2 könnte auch glauben, dass man weniger Kondensatoren zum Spannungsausgleich braucht als Nvidia das gesagt hat, weil man ja eh am TDP Limit ist und nicht am Spannungslimit. Auch falsch.

Fehlerursache sind also eine Spannungsversorgung mit zu wenig Reaktionsgeschwindigkeit, oder (was wahrscheinlicher ist) zu wenige Reserve in Kondensatoren nahe dem Chip. Ich erinnere nur an die 3080 Diskussion mit den Kondensatoren auf dessen Rückseite.

Gute Nachricht: dem PC sollte das ebensowenig schaden, als würde man einfach den Resetknopf drücken. Die GPU schaltet aus Panik ab und der PC macht mit. Schreibfehler auf der SSD die ihren Cache nicht mehr in den Flash geschrieben bekommt und eine Windows Installation die deswegen nicht mehr bootet, sind hier der schlimmste Fall.

Schlechte Nachricht: so richtig eine gute Lösung gibt es nicht. Auf Hardwareebene wird sich das nicht nachträglich fixen lassen. Da müsste man schon ein neues Bios für die Karte programmieren, das wird nicht passieren.

Mittelmäßige Lösung:
Die Karte springt von 1080 -> 1470 (+390) -> 180 (+405)
Dieser Sprung braucht manchmal in der Summe zu viel Energie die nicht von den Kondensatoren geliefert werden können, bevor die Spannungsversorgung Gas gibt.
Aus den Logs sehe ich aber auch, dass bei 125W TDP die Karte bestenfalls bei 1800MHz läuft.

Dann nehmen wir doch gleich 1750 als neues Limit., vor allem weil das synchron mit dem Mem Clock wäre.
Das Verhalten der Karte in zwei Sprüngen auf 1750 zu gehen werden wir nicht ändern können, ebensowenig, dass die Karte den ersten Sprung aus zu wenig Kondensatorenpower bezahlen will. Aber die Sprünge sind kleiner (335), vielleicht reicht das ja aus. Wir wissen ja, dass die Karte gerade so an der Grenze ist, den Sprung manchmal zu schaffen und manchmal nicht.

Einen Undervolt sollten wir dann aber nicht fahren, das PerfCap hätte gerne jetzt schon mehr an entscheidender Stelle.

TriadFish · 16. Januar 2022

Erstmal vielen Dank für Deine Hilfe.

Was genau mache ich jetzt? Im Extreme Tuner ein negatives GPU Clock Offset einstellen? Könnte es auch helfen, wenn ich die Karte zusätzlich etwas overvolte?

MfG

Update: ich habe es jetzt mal mit einem GPU Clock Offset von -250 getestet. Habe mich 3 Sekunden lang gefreut, so lange lief der Mesh Test diesmal, bevor er abgeschmiert ist. Das ist immerhin 3 mal so langer wie sonst ^^

4thVariety · 16. Januar 2022

TriadFish schrieb:
Erstmal vielen Dank für Deine Hilfe.

Was genau mache ich jetzt? Im Extreme Tuner ein negatives GPU Clock Offset einstellen? Könnte es auch helfen, wenn ich die Karte zusätzlich etwas overvolte?

MfG

Update: ich habe es jetzt mal mit einem GPU Clock Offset von -250 getestet. Habe mich 3 Sekunden lang gefreut, so lange lief der Mesh Test diesmal, bevor er abgeschmiert ist. Das ist immerhin 3 mal so langer wie sonst ^^

GPU Clock runter, ja. 1750MhZ wäre nice wegen Synchronität zwischen RAM und Chip.

Aber Overvolting dürfte nichts helfen, weil das setzt ja nur den Verbrauch des 2060 Chips hoch und der Engpass ist Irgendwo zwischen Ausgang Spannungswandler und Gesamtkapazität der Kondensatoren.

Ich weiß nicht, ob an die GPU auf 0.95V flat setzen könnte und ob das überhaupt einen Freiraum schafft. Summe Energie muss runter und da sehe ich nur beim Takt eine Chance

TriadFish · 16. Januar 2022

Selbst ein -250Mhz GPU Clock Offset hat wie gesagt den Test nur 2 Sekunden länger durchhalten lassen. Hast Du noch eine andere Idee?

4thVariety · 16. Januar 2022

TriadFish schrieb:
Selbst ein -250Mhz GPU Clock Offset hat wie gesagt den Test nur 2 Sekunden länger durchhalten lassen. Hast Du noch eine andere Idee?

2 Sekunden länger bei einer Änderung die Auswirkungen auf die Gesamtthermik der Karte hat. Das kann man jetzt in zwei Richtungen pushen. Langsam wird es auch seltsam mit den Lösungen, aber egal. Einzige Anforderung muss funktionieren, nehme ich an.

Lösung 1:

Irgendwie die GPU an das Hitze Limit bekommen, ohne dass sie vorher diese Phase des schnellen hochtakten hat sondern wegen der Hitze von vornehrein noch viel viel langsamer das Limit anfährt.

Kannst du den Idle Fanspeed so runtersetzen, dass die Karte im Idle 60+ oder 65+ Grad hat? Im Fehlerprotokoll geht die Karte von 67 Grad auf 71 Grad im Hotspot. Aber die Karte geht nur von 54 auf 58. Die Karte geht ja in der Spalte PerfCap Reason von 16 auf 4 auf 1. Vielleicht geht die Karte wenn sie heißer ist gleich auf 1. Fancurve ab 66 Grad wieder bei 65%, aber unter 66 Grad Fanspeed unter 5%. Das bitte über das Twaek Tool aber ein und ausschalten, zum "vorglühen" der Karte.

Lösung 2:
Es muss ja keine Lüftersteuerung sein, sondern nur etwas das man laufen lässt bevor das Spiel startet, damit die Karte heißglüht mit etwas anderem das den Crash nicht verursacht, dann startet man das Spiel obendrauf und hält den vorglühprozess wieder an.

Video konvertieren, Ethereum Mining, ein Spiel im Windows Modus. Irgendetwas das man verlässlich einschalten kann, ohne dass die Karte abstürzt. Dann das eigentliche Spiel starten das die Karte abstürzt. Das andere Programm wieder abschalten und voila, wenn sie läuft, dann läuft sie ja sagst du.

Lösung 3:

Oder den umgekehrten Weg, mehr Kühlung. Ich hab die Karte auf der Webseite angesehen, vielleicht ist das Backplate ja das Problem, weil es die Hitze staut. Backplates sind ja oft optisch nice, aber ansonsten nutzlos. Kann man das Backplate abschrauben ohne dass der vorder Kühlkörper abfällt? Überhitzt die Backplate potentiell Bauteile indem es sie erstickt? (Kein Kontakt aber eingeschlossene Luft zwischen Backplate und Platine). Backplate runter, Lüfter einen Luftstrom über die Rückseite erzeugen lassen.

Sollte Hitze das Problem sein auch mal Lüfter permanent auf 100% und offenes Gehäuse und noch mehr Lüfter direkt auf die Karte ausrichten. Heizung aus, Fenser auf, Pulli an. Sehen, ob es besser wird, wenn die generelle Temperatur der Elektronik niedriger ist. Das gibt einen Anhaltspunkt ob es Sinn macht alle Wärmepads zu tauschen und zwar damit:

K5 Pro Viscose Thermal CPU Paste Compound for Thermal Pad Replacement Acer Aspire 30g: Amazon.de: Computer & Accessories

www.amazon.de

Sehr anfängerfreundlich, keine Rätselraten wieviel Millimeter Thermalpad an welcher Stelle richtig sind, einfach mit dem Zeug wuchern und fertig. Achtung: nicht als Wärmeleitpaste auf der Nvidia GPU benutzen, sondern wirklich nur als Ersatz für Thermalpads auf VRAM, RAM, etc.

Mir ist klar, dass das Vorschläge sind für die mich die Nvidia Inquisition hier im Forum bis an den Südpol jagen wird.

TriadFish · 17. Januar 2022

Ich werde Lösung 2 mal testen, vllt. schaffe ich das noch heute Abend. Wenn das plötzliche hochtakten wirklich das Problem ist, sollte Lösung 2 ja auf jeden Fall funktionieren.

Ich bin mir ziemlich sicher, dass man die Backplate nicht einfach so abnehmen kann. Bei diesen Grafikkarten ist es normalerweise so, dass die Schrauben in der Backplate bis in den Lüfterblock rein gehen. Heißt also: Ohne Backplate hält der Lüfterblock nur noch über die WLP auf der GPU und den ansonsten vorhandenen Wärmeleitpads.

Ich spiele nun eh mit dem Gedanken die GPU mal auf zu machen und die WLP zu erneuern. Wie ich nun erfahren habe, hat das vielen Leuten bei solchen Problemen geholfen. Es ist gut möglich, dass die werksseitige WLP die GPU nicht komplett abdeckt und daher bestimmte Bauteile gut gekühlt sind, andere nicht. Das würde auch erklären, warum vieles gut läuft und manche Spiele schon beim Laden abschmieren.

TriadFish · 17. Januar 2022

4thVariety schrieb:
Lösung 2:
Es muss ja keine Lüftersteuerung sein, sondern nur etwas das man laufen lässt bevor das Spiel startet, damit die Karte heißglüht mit etwas anderem das den Crash nicht verursacht, dann startet man das Spiel obendrauf und hält den vorglühprozess wieder an.

Video konvertieren, Ethereum Mining, ein Spiel im Windows Modus. Irgendetwas das man verlässlich einschalten kann, ohne dass die Karte abstürzt. Dann das eigentliche Spiel starten das die Karte abstürzt. Das andere Programm wieder abschalten und voila, wenn sie läuft, dann läuft sie ja sagst du.

Du bist ein Genie, das hat tatsächlich funktioniert. Ich habe Furmark genutzt, um meine GPU auf 18xx Chiptakt zu bringen und dann den 3D Mark Mesh Test parallel gestartet. Und siehe da... der PC ist nicht abgestürzt. Ich habe dann wohl nach etwa 10 Sekunden abgebrochen und es ein zweites mal getestet. Hat auch beim 2. mal funktioniert, wieder nach 10 Sekunden abgebrochen, da ich meiner GPU nicht zu viel zumuten will.

Der Mesh Test ist noch nie länger als vllt. 1 Sekunde gelaufen bevor der PC abgeschmiert ist (bei ca. 20 Versuchen), bei GPU Offset -250 hat er ca. 3 Sekunden durchgehalten. Das zeigt v.A., dass Du mit Deiner Vermutung genau richtig gelegen hast und, dass die Temperaturen nicht das Problem sind, sondern das schnelle hochtakten in bestimmen Situationen. Scheinbar ist die GPU gar nicht defekt, sondern es handelt sich um einen Konstruktionsfehler seitens KFA2. Die verbauten Kondensatoren sind einfach zu schwach um 2 hohe Taktsprünge direkt hintereinander abzufedern. Da dies in den meisten Spielen gar nicht vorkommt, ist es mir die ersten 2 Jahre nur nicht aufgefallen.

Nun sollte es also auch möglich sein, dass ich mit der Methode BF 2042 und D2R ohne Abstürze starten kann. Ich denke damit kann ich leben. Werde das in der nächsten Zeit testen und genau beobachten.

Ich möchte Dir nochmal sehr herzlich für Deine Hilfe danken, da wäre ich im Leben nicht von selbst drauf gekommen. Solche Tipps sind Gold wert! :daumen:

MfG

4thVariety · 18. Januar 2022

TriadFish schrieb:
Nun sollte es also auch möglich sein, dass ich mit der Methode BF 2042 und D2R ohne Abstürze starten kann. Ich denke damit kann ich leben. Werde das in der nächsten Zeit testen und genau beobachten.

Jetzt möchtest du einen Youtuber finden, der aus der Geschichte ein Video macht, dafür deine Karte braucht und sie dir deshalb abtauscht gegen eine leicht bessere.

Kann eine (Teil)defekte GPU andere Komponenten schädigen?

Software-Overclocker(in)

Gast1705317003

Guest

Finallin

Guest

¡el moderador!

Software-Overclocker(in)

BIOS-Overclocker(in)

Software-Overclocker(in)

Freizeitschrauber(in)

BIOS-Overclocker(in)

Anhänge

Software-Overclocker(in)

Anhänge

BIOS-Overclocker(in)

Software-Overclocker(in)

Anhänge

BIOS-Overclocker(in)

Anhänge

Software-Overclocker(in)

BIOS-Overclocker(in)

Software-Overclocker(in)

BIOS-Overclocker(in)

Software-Overclocker(in)

Software-Overclocker(in)

BIOS-Overclocker(in)

Ähnliche Themen