Linke Spalte geht von grün nach gelb, von 1080 auf 1470Mhz. Diesen Ramp Up gibt es nur für zwei Zeilen, wenn die Karte crasht. Da liegt der Hund begraben.
Die Spalte Boardpower hat ihren Ramp Up jedoch verzögert, und erst wenn der RAM von 1470 auf 1890Mhz geht. Bedeutet, den ersten Ramp Up von 1080 auf 1470 bezahlt die Karte indem Kondensatoren entladen werden. Das sieht man daran, dass alle anderen Metriken erst anziehen, wenn die Karte auf 1890MHz geht.
Ganz rechts in der Voltage sieht man auch, dass die Karte erst auf mehr Voltage (1.037V) geht, wenn der Sprung auf 1890MHz erfolgt Bei diesem Sprung geht der 2060 Chip vom PerfCap Reason 16 (Idle), sofort in den PerfCap 04 (limited by max operating voltage). Die Karte (als Ganzes) ist am Maximum der Volt die gerade gehen und sollte sie in dem Moment mehr Volt brauchen, (weil zum 2060 Chip auch noch die Elektronik außenrum gerade übermäßig Strom zieht) wird es dunkel. Spannung bricht ganz zusammen, und aus. Beim Absturz ist das der Hilfeschrei, den wir im Log nicht sehen.
Im Crash Log aus dem vorherigen Post geht der Takt auch zwei Einträge lang hoch, aber die Spannung geht noch nicht hoch. Das erste Hochtakten im Verbund mit dem Umschalten der Karte von Idle auf halbe TDP saugt also die Karte komplett leer und crasht das System, bevor die Spannungsversorgung reagieren kann und insgesamt hochregelt.
Das ist nicht ideal, denn vermutlich braucht die Karte an der Stelle mehr um diesen Anstieg abzufangen der durch das Hochfahren der Karte im Verbund mit dem Entladen der Kondensatoren entstanden ist. Vermutlich hat der Hersteller damit nicht gerechnet, denn später sehen wir wenn die Karte auf 125W geht sinkt die Spannung sogar und das PerfCap wechselt auf 1 (imited by temperature limit.). KFA2 könnte daher geneigt sein zu glauben die Reaktionsfähigkeit der Spannungsversorgung wäre gut genug, wenn sie das in Wirklichkeit nicht ist. KFA2 könnte auch glauben, dass man weniger Kondensatoren zum Spannungsausgleich braucht als Nvidia das gesagt hat, weil man ja eh am TDP Limit ist und nicht am Spannungslimit. Auch falsch.
Fehlerursache sind also eine Spannungsversorgung mit zu wenig Reaktionsgeschwindigkeit, oder (was wahrscheinlicher ist) zu wenige Reserve in Kondensatoren nahe dem Chip. Ich erinnere nur an die 3080 Diskussion mit den Kondensatoren auf dessen Rückseite.
Gute Nachricht: dem PC sollte das ebensowenig schaden, als würde man einfach den Resetknopf drücken. Die GPU schaltet aus Panik ab und der PC macht mit. Schreibfehler auf der SSD die ihren Cache nicht mehr in den Flash geschrieben bekommt und eine Windows Installation die deswegen nicht mehr bootet, sind hier der schlimmste Fall.
Schlechte Nachricht: so richtig eine gute Lösung gibt es nicht. Auf Hardwareebene wird sich das nicht nachträglich fixen lassen. Da müsste man schon ein neues Bios für die Karte programmieren, das wird nicht passieren.
Mittelmäßige Lösung:
Die Karte springt von 1080 -> 1470 (+390) -> 180 (+405)
Dieser Sprung braucht manchmal in der Summe zu viel Energie die nicht von den Kondensatoren geliefert werden können, bevor die Spannungsversorgung Gas gibt.
Aus den Logs sehe ich aber auch, dass bei 125W TDP die Karte bestenfalls bei 1800MHz läuft.
Dann nehmen wir doch gleich 1750 als neues Limit., vor allem weil das synchron mit dem Mem Clock wäre.
Das Verhalten der Karte in zwei Sprüngen auf 1750 zu gehen werden wir nicht ändern können, ebensowenig, dass die Karte den ersten Sprung aus zu wenig Kondensatorenpower bezahlen will. Aber die Sprünge sind kleiner (335), vielleicht reicht das ja aus. Wir wissen ja, dass die Karte gerade so an der Grenze ist, den Sprung manchmal zu schaffen und manchmal nicht.
Einen Undervolt sollten wir dann aber nicht fahren, das PerfCap hätte gerne jetzt schon mehr an entscheidender Stelle.