Tagebuch - Ein "ONE MILLION PPD FOLDER" entsteht!

Du, na klar, alles gleichzeitig geht nun mal nicht und manch eine Priorität geht vor. Versteh das auch bitte nicht drängende Hektik, hatte mich einfach nur gewundert.
 
Mal ein Update zwischen durch, da mein eigentlich PC immer noch Außerbetrieb gesetzt ist muss ich den Foldingrechner immer mal "missbrauchen" um etwas dran zu arbeiten das kostet natürlich immer Punkte :/
Ansosnten läuft der PC gut durch mit Windows 7 leider hab ich ab und zu noch Treiberproblme in der Hinsicht das Treiber anscheinend abstürzt und dann eine der Karten nur noch mit 405Mhz tacktet ich hab das leider noch nicht weiter verfolgen können ist tritt total sporatisch auf.
Außerdem musste eine KFA zur RMA da sie leider kein Bild oder sonstiges von sich gab, zurzeit laufen 2xKFA 970 GTX@ 1530Mhz und eine Gainward 970 GTX@1500Mhz, mehr macht leider die Spannungsversorgung nicht mit sprich ohne Biosmod kommen wir mit der Gainward nicht weiter.
Ich hoffe das die Woche endlich mein Kühleroberteil kommt.
 
Das Problem, dass der Treiber abstürzt und die GPU danach mit Max 405mhz arbeitet, habe ich auch manchmal bei meiner GTX980. Ich führe es auf die TaktstabilitäT zurück, denn sobald ich mit dem OC leicht runter gehe, ist das Problem weg.
 
Das Problem mit dem zu hohen Takt und dann bei der nächsten WU nicht mehr hochtakten kenn ich leider auch von meinem Faltserver der unter Ubuntu läuft.
 
Das gleiche Problem hab ich doch auch unter Win 10 ;) Und nein bei mir hat es nix mit dem OC zu tun, da der Fehler selbst bei UNTERtaktung auftritt.
 
Ja das mit dem Takt ist eine ganz komische Sache, ich hatte sie ja auch schon mit Standarttakt laufen da ist das auch aufgetreten aber immer nur bei 0x21 und einer bestimmten WU - Größe, muss ich das nächste mal drauf schauen welche es denn gewesen ist.
 
Nach meiner Erfahrung treten die "Bad states" bei bestimmten 0x21-er Projekten im direkten Zusammenhang mit dem OC und (!) der Temperatur auf. Da die GPU-Temperatur bei diesem Projekt durch die WaKü kein Thema sein sollte, würde ich mal gezielt ein paar zusätzliche Temperatursensoren z.B. auf den RAM-Chips und Spannungswandlern positionieren (falls die nicht in die WaKü integriert sind). Als diese Projekte bei mir die letzten Fehler produzierten, war die GPU-Temperatur vollkommen unkritisch (max. 65°C, eher weniger).
 
...
Außerdem musste eine KFA zur RMA da sie leider kein Bild oder sonstiges von sich gab, zurzeit laufen 2xKFA 970 GTX@ 1530Mhz und eine Gainward 970 GTX@1500Mhz, mehr macht leider die Spannungsversorgung nicht mit sprich ohne Biosmod kommen wir mit der Gainward nicht weiter.
Ich hoffe das die Woche endlich mein Kühleroberteil kommt.

Was ist KFA und RMA?
Ein Doppelklick verrät mir da manchmal echt treffende Vorschläge - manchmal auch nach meinem Geschmack, ganz lustige.

So könnte mit KFA "Korean Friendship Association" gemeint sein, "Körperfettanteil" oder "Krankenfürsogeanstalt". :D
RMA ist danach dann eine "Rauch-Melde-Anlage" oder schlicht "Royal Malta Artillery" :D:D:D Das stelle sich einer mal vor - ich hab Angst.

Natürlich möchte ich jetzt nicht umtriebige Mitfalter veräppeln.
Aber ich konnte es mir jetzt einfach nicht verkneifen.


Als fleißiger Leser dieser Lieblingsthreads ist mir aber schon klar, daß einmal die GraKa gemeint ist, zum Andern die Rücksendung - wenn sich das mir auch nicht sofort aufgedrängt hat. :rollen:
Ich sitze ja nur in meinem Schreibtischsessel und fühle mich in meinem Lesefluß gehemmt. ;) Wie schlimm!
Es ist im Grunde sicher nur die Spannung, endlich unten anzukommen (im Thread) und alles zu wissen.
 
@ mattinator
Ja das mit den Temperaturen kam mir auch schon in sinn da diese von Normalbetrieb (0x18) ca 41°C ~ 44°C ,die dritte, teilweise bei einer 0x21 auf 55°C klettern. Die KFA-Karten haben nur einen GPU-Only-Kühler drauf und zusätzlich wird die Spannungsversorgung von einem Lüfter belüftet. Die Gainward hat ein Fullcover dort ist das Problem noch nie aufgetreten.
@ JeansOn
KFA ist ein Hersteller von Grafikkarten, von diesen hatten wir eigentlich drei Grafikkarten am laufen und zum testen hatten wir noch vom Hersteller Gainward Grafikkarten da.
Bei RMA ist das Rücksende Prozedere gemeint wenn man einen Defekt hat diese beim Hersteller auszutauschen / reklamieren.
:-)
 
Also bei mir hängt der Treiber eigentlich fast nur wenn ich die GPU stärker übertakte; kann aber auch ganz gut sein, dass es tatsächlich mit der Temperatur der Nebenverbraucher wie Spannungswandler zusammenhängt und nicht von Chip selbst...
Ich habe aber auch festgestellt, dass die Treiber auf Firefox sehr sensibel reagieren. Sprich jedesmal wenn der Treiber abschmierte, lief Firefox zumindest im Hintergrund. Ich habe jetzt bei Firefox die HW-Beschschleunigung abgeschaltet (CPU faltet eh nicht mit und ist stark genug um den Internet-Kram selbst zu bewältigen...) und das Problem ist seltener geworden.

Wenn man aber so durchs Internet liest, scheint Nvidia hier ein Treiberproblem zu haben, welches bereits Jahre existiert und die Fehlerquelle noch immer nicht gefunden wurde.

Zum Glück wurde ich lange mit dem Problem verschont...
 
so jetzt hatte ich wieder eine, auffällig ist jedes mal bricht die WU bei 65% ab und die Karte lief zur Zeit mit Standarttakt.
Projekt:10495
Basecredit:14421
Es ist auch jedesmal diese WU die dann abricht.

12:14:48:WU03:FS03:0x21:Completed 1300000 out of 2000000 steps (65%)
12:14:56:WU03:FS03:0x21:Bad State detected... attempting to resume from last good checkpoint
12:14:56:WU03:FS03:0x21:Max number of retries reached. Aborting.
12:14:56:WU03:FS03:0x21:ERROR:Max Retries Reached
12:14:56:WU03:FS03:0x21:Saving result file logfile_01.txt
12:14:56:WU03:FS03:0x21:Saving result file log.txt
12:14:56:WU03:FS03:0x21:Folding@home Core Shutdown: BAD_WORK_UNIT
12:14:57:WARNING:WU03:FS03:FahCore returned: BAD_WORK_UNIT (114 = 0x72)
 
12:14:56:WU03:FS03:0x21:Bad State detected... attempting to resume from last good checkpoint
12:14:56:WU03:FS03:0x21:Max number of retries reached. Aborting.
12:14:56:WU03:FS03:0x21:ERROR:Max Retries Reached
12:14:56:WU03:FS03:0x21:Saving result file logfile_01.txt
12:14:56:WU03:FS03:0x21:Saving result file log.txt
12:14:56:WU03:FS03:0x21:Folding@home Core Shutdown: BAD_WORK_UNIT
12:14:57:WARNING:WU03:FS03:FahCore returned: BAD_WORK_UNIT (114 = 0x72)
12:14:57:WU03:FS03:Sending unit results: id:03 state:SEND error:FAULTY project:9633 run:0 clone:36 gen:12 core:0x21 unit:0x00000013ab436c9b5609bee25c8a3148
12:14:57:WU03:FS03:Uploading 14.50KiB to 171.67.108.155
12:14:57:WU03:FS03:Connecting to 171.67.108.155:8080
12:14:58:WU03:FS03:Upload complete
12:14:58:WU03:FS03:Server responded WORK_ACK (400)
12:14:58:WU03:FS03:Cleaning up
12:20:50:WU03:FS01:Connecting to 171.67.108.45:80
12:20:51:WU03:FS01:Assigned to work server 140.163.4.234
12:20:51:WU03:FS01:Requesting new work unit for slot 01: RUNNING gpu:0:GM204 [GeForce GTX 970] from 140.163.4.234
12:20:51:WU03:FS01:Connecting to 140.163.4.234:8080
12:20:51:WU03:FS01:Downloading 3.63MiB
12:20:56:WU03:FS01:Download complete
12:20:56:WU03:FS01:Received Unit: id:03 state:DOWNLOAD error:NO_ERROR project:10477 run:1 clone:24 gen:240 core:0x18 unit:0x0000012a538b3dba548b2624e88e1e6f
12:26:06:WU03:FS01:Starting
12:26:06:WU03:FS01:Running FahCore: "C:\Program Files (x86)\FAHClient/FAHCoreWrapper.exe" C:/Users/Folding/AppData/Roaming/FAHClient/cores/web.stanford.edu/~pande/Win32/AMD64/NVIDIA/Fermi/Core_18.fah/FahCore_18.exe -dir 03 -suffix 01 -version 704 -lifeline 3112 -checkpoint 3 -gpu 0 -gpu-vendor nvidia
12:26:06:WU03:FS01:Started FahCore on PID 1688
12:26:06:WU03:FS01:Core PID:6468
12:26:06:WU03:FS01:FahCore 0x18 started
 
... wir haben leider noch immer Probs mit Treiberabstürzen und die 0x21er versauen leider den Schnitt. Je nach WUs erreichen wir nun zwischen 750K und 1 Mio PPDs.
 
Ich habe mir jetzt folgende Strategie überlegt:
- wenn ein Projekt nach drei Bad States auf FAULTY läuft, halbiere ich das OC-Offset
- wenn das stabil ist, gebe ich die Hälfte des Offsets wieder drauf
Dadurch erreiche ich quasi eine geometrische Annäherung an das Optimum, was schneller geht und die Anzahl der fehlerhaften Projekte reduziert. Wenn es bis Offset 0 nicht stabil wird, werde ich wohl die entsprechenden Server in meiner Linux-Firewall "ZURÜCKWEISEN" lassen. Ich sehen diesen "Cheat" als legitim an, da es Stanford nichts nutzen wird, wenn sie auf Grund eines Serienfehlers nur teilweise / fehlerhaft gerechnete Projekte hochgeladen bekommen. Btw., warum verteilt Standford über die Assignment- und Workserver überhaupt diese Projekte an die aktuellen Maxwell-Karten, wenn sie zu nahezu 100% sowieso nicht korrekt gerechnet werden ? Sie haben es doch in der Hand, das zu steuern.:schief:
 
@matti: das hört sich nach einem sehr guten Plan an. Ich mache es ein wenig anders. Sobald ich eine bad WU dabei habe, gehe ich um 10MHz runter. Das mache ich solange bis stabil. Um eine Basis zu finden arbeite ich mit dem ATITool. Der damit gefundenen Wert ziehe ich 70MHz ab und bin dann damit schon fast stabil - je nach WU. Hat bisher recht gut funktiniert und vor allem Zeit gespart ;)
 
Zurück