-
24.09.2019, 09:58 #11Themenstarter
- Mitglied seit
- 02.08.2014
- Beiträge
- 12
AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.
Was ich nun geändert habe:
- VM läuft nun mit fest zugewiesenen 16 GiB RAM (ballooning deaktiviert)
- VM läuft nun mit der "host" CPU statt der "Default (kvm64)" CPU (siehe Doku). Dadurch kennt sie den Original Namen der CPU, alle Instruktionen etc. (kann aber nicht mehr so leicht migriert werden auf einen anderen Host, was hier aber keine Rolle spielt)
- Shutdown und Neustart, um die Änderungen wirksam werden zu lassen
Anbei:
- Alle Zeiten sind in UTC+0.
- Die Logs erstrecken sich über einen Zeitraum von 23.09. 20:48 Uhr - 24.09. 07:10 Uhr (UTC+0), also ein Zeitraum von ca 10.5 Stunden
- /var/log/syslog Einträge seit dem Reboot (UFW Einträge gelöscht), darin interessant:
Code:Sep 23 23:06:36 ubuntufolding kernel: [ 8301.533694] show_signal_msg: 9 callbacks suppressed Sep 23 23:06:36 ubuntufolding kernel: [ 8301.533696] FahCore_a7[1882]: segfault at 7f844459aca0 ip 000055e6ac226fa6 sp 00007f86567fa160 error 4 in FahCore_a7[55e6abef5000+10fa000] Sep 23 23:17:01 ubuntufolding CRON[1913]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly) Sep 24 00:17:01 ubuntufolding CRON[1945]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly) Sep 24 00:28:27 ubuntufolding snapd[1096]: storehelpers.go:436: cannot refresh snap "core": snap has no updates available Sep 24 00:28:27 ubuntufolding snapd[1096]: autorefresh.go:397: auto-refresh: all snaps are up-to-date Sep 24 01:17:01 ubuntufolding CRON[1997]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly) Sep 24 02:17:01 ubuntufolding CRON[2131]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly) Sep 24 02:51:05 ubuntufolding systemd[1]: Starting Message of the Day... Sep 24 02:51:05 ubuntufolding 50-motd-news[2141]: * Congrats to the Kubernetes community on 1.16 beta 1! Now available Sep 24 02:51:05 ubuntufolding 50-motd-news[2141]: in MicroK8s for evaluation and testing, with upgrades to RC and GA Sep 24 02:51:05 ubuntufolding 50-motd-news[2141]: snap info microk8s Sep 24 02:51:05 ubuntufolding systemd[1]: Started Message of the Day. Sep 24 03:17:01 ubuntufolding CRON[2199]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly) Sep 24 04:17:01 ubuntufolding CRON[2240]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly) Sep 24 05:17:01 ubuntufolding CRON[2255]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly) Sep 24 05:19:50 ubuntufolding systemd[1]: Starting Daily apt download activities... Sep 24 05:19:51 ubuntufolding systemd-resolved[870]: Server returned error NXDOMAIN, mitigating potential DNS violation DVE-2018-0001, retrying transaction with reduced feature level UDP. Sep 24 05:19:58 ubuntufolding systemd[1]: Started Daily apt download activities. Sep 24 05:35:24 ubuntufolding kernel: [31628.316211] FahCore_a7[2710]: segfault at 556cc1e007c0 ip 0000556ec011b5d2 sp 00007fff29b550c0 error 4 in FahCore_a7[556ebfdcc000+12bd000] Sep 24 05:47:42 ubuntufolding kernel: [32367.208011] FahCore_a7[2914]: segfault at 7fabfbe64870 ip 0000555e31d70615 sp 00007fac4f7fbc20 error 4 in FahCore_a7[555e31a21000+12bd000] Sep 24 05:55:44 ubuntufolding kernel: [32848.275877] FahCore_a7[3035]: segfault at 55affcdf0740 ip 000055b1fb60b5d2 sp 00007ffc787f90e0 error 4 in FahCore_a7[55b1fb2bc000+12bd000] Sep 24 06:17:01 ubuntufolding CRON[3163]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly) Sep 24 06:25:01 ubuntufolding CRON[3167]: (root) CMD (test -x /usr/sbin/anacron || ( cd / && run-parts --report /etc/cron.daily ))
- /var/lib/fahclient/log.txt Einträge seit dem Reboot
- 55x Einträge {ZAHL} particles communicated to PME rank {ZAHL} are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.
- 44x Einträge FahCore returned: INTERRUPTED (102 = 0x66)
- 5x Einträge FahCore returned: BAD_FRAME_CHECKSUM (112 = 0x70)
- 2x Einträge FahCore returned: WU_STALLED (127 = 0x7f)
- 1x Eintrag FahCore returned: BAD_WORK_UNIT
- Folgende Serie:
Code:01:41:38:WU00:FS00:0xa7:ERROR:------------------------------------------------------- 01:41:38:WU00:FS00:0xa7:ERROR:Program GROMACS, VERSION 5.0.4-20161122-4846b12ba-unknown 01:41:38:WU00:FS00:0xa7:ERROR:Source code file: /host/debian-stable-64bit-core-a7-avx-release/gromacs-core/build/gromacs/src/gromacs/mdlib/pme.c, line: 754 01:41:38:WU00:FS00:0xa7:ERROR: 01:41:38:WU00:FS00:0xa7:ERROR:Fatal error: 01:41:38:WU00:FS00:0xa7:ERROR:3429 particles communicated to PME rank 6 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x. 01:41:38:WU00:FS00:0xa7:ERROR:This usually means that your system is not well equilibrated. 01:41:38:WU00:FS00:0xa7:ERROR:For more information and tips for troubleshooting, please check the GROMACS 01:41:38:WU00:FS00:0xa7:ERROR:website at http://www.gromacs.org/Documentation/Errors 01:41:38:WU00:FS00:0xa7:ERROR:------------------------------------------------------- 01:41:38:WU00:FS00:0xa7:WARNING:Unexpected exit() call 01:41:38:WU00:FS00:0xa7:WARNING:Unexpected exit from science code 01:41:38:WU00:FS00:0xa7:Saving result file ../logfile_01.txt 01:41:38:WU00:FS00:0xa7:Saving result file frame97.trr 01:41:38:WU00:FS00:0xa7:Saving result file frame97.xtc 01:41:38:WU00:FS00:0xa7:Saving result file md.log 01:41:38:WU00:FS00:0xa7:Saving result file science.log 01:41:38:WU00:FS00:0xa7:Folding@home Core Shutdown: BAD_WORK_UNIT 01:41:38:WU00:FS00:0xa7:ERROR:Exception: Core instance does not exists. 01:41:38:WU00:FS00:0xa7:ERROR:Exception: Core instance does not exists. ...............insgesamt 15226 Wiederholungen von "01:41:38:WU00:FS00:0xa7:ERROR:Exception: Core instance does not exists."............... 01:41:38:WU00:FS00:0xa7:ERROR:Exception: Core instance does not exists. 01:41:38:WU00:FS00:0xa7:ERROR:Exception: Core instance does not exists. [93m01:41:38:WARNING:WU00:FS00:FahCore returned: BAD_WORK_UNIT (114 = 0x72)[0m 01:41:38:WU00:FS00:Sending unit results: id:00 state:SEND error:FAULTY project:13822 run:918 clone:2 gen:97 core:0xa7 unit:0x0000006b80fccb095c895d0b2b2a149f 01:41:38:WU00:FS00:Uploading 4.64MiB to 128.252.203.9 ...
Ich habe den Client damals einfach wie folgt installiert:
Code:wget https://download.foldingathome.org/releases/public/release/fahclient/debian-stable-64bit/v7.5/fahclient_7.5.1_amd64.deb sudo dpkg -i fahclient_7.5.1_amd64.deb
Ich habe fahcontrol jedenfalls nicht installiert, da ich X11 Weiterleitung etc. (GUI) vermeiden wollte. Brauche ich fahcontrol?
Mit welchen Argumenten etc. er aktuell läuft, sieht man im htop Screenshot:
Ich ändere nun mal die Datei /etc/fahclient/config.xml wie folgt:
Alt:
Code:<config><fold-anon v='true'/><gpu v='false'/><power v='full'/><passkey v='xxx'/><team v='70335'/><user v='cyril15'/><slot id='0' type='CPU'/></config>
Code:<config><fold-anon v='false'/><gpu v='false'/><power v='light'/><passkey v='xxx'/><team v='70335'/><user v='cyril15'/><slot id='0' type='CPU'/></config>
Und starte neu. Vielleicht liegt es ja tatsächlich an einer Überlastung? Dann müsste es mit der light Power Einstellung ja besser klappen.
htop sieht seit dem Reboot so aus:
Nun faltet er nur noch mit 3 statt 8 Threads. Ich bin gespannt.
-
- Bitte einloggen, um diese Anzeige auszublenden.
-
-
25.09.2019, 09:20 #12Themenstarter
- Mitglied seit
- 02.08.2014
- Beiträge
- 12
AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.
Trotz light Modus hören die Fehler nicht auf. Seit 10 Stunden 30 Minuten im light Einsatz:
- 27x \d+ particles communicated to PME rank \d+ are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.
- 2x FahCore returned: BAD_FRAME_CHECKSUM (112 = 0x70)
- 9x FahCore returned: INTERRUPTED (102 = 0x66)
- 1x FahCore returned: WU_STALLED (127 = 0x7f)
- 1x FahCore returned: UNKNOWN_ERROR (121 = 0x79)
- immerhin 1x FahCore returned: FINISHED_UNIT (100 = 0x64)
- /var/log/syslog zeigt diesmal keine Probleme
Was denkt ihr? RAM defekt? CPU defekt? Mainboard defekt? An Ubuntu 18 LTS wird's wohl kaum liegen.
Habe FAH nun deinstalliert, und führe Stresstests durch. Mal sehen ob dabei etwas zum Vorschein kommt.
Ansonsten probiere ich es auch noch mal ohne VM.
-
25.09.2019, 09:31 #13
AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.
Einen RAM Fehler sollte eigentlich der Host selber merken. Guck doch da mal im Kernel Log (dmesg).
-
25.09.2019, 09:56 #14Themenstarter
- Mitglied seit
- 02.08.2014
- Beiträge
- 12
-
27.09.2019, 11:04 #15Themenstarter
- Mitglied seit
- 02.08.2014
- Beiträge
- 12
AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.
Es sieht nicht gut aus. Ich schätze, ich komme dem Problem näher.
Für den Stresstest habe ich das Tool stress-ng verwendet und es insgesamt 2 Tage in der VM laufen lassen:
Code:stress-ng --vm 8 --vm-bytes 85% --vm-method all --verify -t 24h -v &>> ~/mem.txt; stress-ng --cpu 8 --cpu-method all --verify -t 24h &>> ~/cpu.txt
- Teste mit 8 Threads den Arbeitsspeicher unter Verwendung von maximal 85% der Gesamtspeichermenge (Werte darüber ergaben nämlich Out-Of-Memory Meldungen stress-ng-vm invoked oom-killer), alle möglichen Methoden, 24 Stunden lang, verifiziere das Ergebnis und schreibe Output in Datei mem.txt
- Danach teste mit 8 Threads die CPU, alle möglichen Methoden, 24 Stunden lang, verifiziere das Ergebnis und schreibe Output in Datei cpu.txt
Die Ergebnisse:
mem.txt:
Code:stress-ng: debug: [4378] 8 processors online, 8 processors configured stress-ng: info: [4378] dispatching hogs: 8 vm stress-ng: debug: [4378] cache allocate: default cache size: 16384K stress-ng: debug: [4378] starting stressors stress-ng: debug: [4379] stress-ng-vm: started [4379] (instance 0) stress-ng: debug: [4379] stress-ng-vm using method 'all' stress-ng: debug: [4380] stress-ng-vm: started [4380] (instance 1) stress-ng: debug: [4381] stress-ng-vm: started [4381] (instance 2) stress-ng: debug: [4380] stress-ng-vm using method 'all' stress-ng: debug: [4381] stress-ng-vm using method 'all' stress-ng: debug: [4382] stress-ng-vm: started [4382] (instance 3) stress-ng: debug: [4382] stress-ng-vm using method 'all' stress-ng: debug: [4383] stress-ng-vm: started [4383] (instance 4) stress-ng: debug: [4385] stress-ng-vm: started [4385] (instance 5) stress-ng: debug: [4378] 8 stressors spawned stress-ng: debug: [4383] stress-ng-vm using method 'all' stress-ng: debug: [4387] stress-ng-vm: started [4387] (instance 6) stress-ng: debug: [4389] stress-ng-vm: started [4389] (instance 7) stress-ng: debug: [4385] stress-ng-vm using method 'all' stress-ng: debug: [4387] stress-ng-vm using method 'all' stress-ng: debug: [4389] stress-ng-vm using method 'all' stress-ng: debug: [4389] stress-ng-vm: exited [4389] (instance 7) stress-ng: debug: [4382] stress-ng-vm: exited [4382] (instance 3) stress-ng: debug: [4385] stress-ng-vm: exited [4385] (instance 5) stress-ng: debug: [4387] stress-ng-vm: exited [4387] (instance 6) stress-ng: debug: [4383] stress-ng-vm: exited [4383] (instance 4) stress-ng: debug: [4381] stress-ng-vm: exited [4381] (instance 2) stress-ng: debug: [4379] stress-ng-vm: exited [4379] (instance 0) stress-ng: debug: [4378] process [4379] terminated stress-ng: debug: [4380] stress-ng-vm: exited [4380] (instance 1) stress-ng: debug: [4378] process [4380] terminated stress-ng: debug: [4378] process [4381] terminated stress-ng: debug: [4378] process [4382] terminated stress-ng: debug: [4378] process [4383] terminated stress-ng: debug: [4378] process [4385] terminated stress-ng: debug: [4378] process [4387] terminated stress-ng: debug: [4378] process [4389] terminated stress-ng: info: [4378] successful run completed in 86400.19s (1 day, 0.19 secs)
Code:stress-ng: info: [5502] dispatching hogs: 8 cpustress-ng: fail: [5510] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated stress-ng: fail: [5505] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated stress-ng: fail: [5507] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated stress-ng: fail: [5503] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated stress-ng: fail: [5505] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated stress-ng: fail: [5505] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated stress-ng: fail: [5510] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated stress-ng: fail: [5505] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated stress-ng: fail: [5503] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated stress-ng: fail: [5510] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated stress-ng: fail: [5510] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated stress-ng: fail: [5509] stress-ng-cpu: sqrt error detected on sqrt(3947656753) stress-ng: fail: [5505] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated info: 5 failures reached, aborting stress process stress-ng: info: [5502] unsuccessful run completed in 86400.02s (1 day, 0.02 secs)
Code:Sep 25 08:30:47 ubuntufolding stress-ng: invoked with 'stress-n' by user 1000 Sep 25 08:30:47 ubuntufolding stress-ng: system: 'ubuntufolding' Linux 4.15.0-64-generic #73-Ubuntu SMP Thu Sep 12 13:16:13 UTC 2019 x86_64 Sep 25 08:30:47 ubuntufolding stress-ng: memory (MB): total 16039.82, free 15779.63, shared 0.95, buffer 6.93, swap 0.00, free swap 0.00 ... (Memory Tests erfolgreich, startet nun CPU Tests)... Sep 26 08:30:47 ubuntufolding stress-ng: invoked with 'stress-n' by user 1000 Sep 26 08:30:47 ubuntufolding stress-ng: system: 'ubuntufolding' Linux 4.15.0-64-generic #73-Ubuntu SMP Thu Sep 12 13:16:13 UTC 2019 x86_64 Sep 26 08:30:47 ubuntufolding stress-ng: memory (MB): total 16039.82, free 15626.92, shared 1.06, buffer 45.79, swap 0.00, free swap 0.00 ... Sep 26 20:52:29 ubuntufolding kernel: [219374.466531] show_signal_msg: 9 callbacks suppressed Sep 26 20:52:29 ubuntufolding kernel: [219374.466534] stress-ng-cpu[5506]: segfault at 7f8007be8a10 ip 00007f80066f2d74 sp 00007ffee9abb800 error 4 in libm-2.27.so[7f800666c000+19d000] Sep 26 21:07:24 ubuntufolding kernel: [220269.655077] stress-ng-cpu[5508]: segfault at 7f864ef68580 ip 00007f8006682bae sp 00007ffee9abb6a8 error 4 in libm-2.27.so[7f800666c000+19d000] ... Sep 27 01:32:15 ubuntufolding kernel: [236160.360521] stress-ng-cpu[5507]: segfault at 7f800a330be0 ip 00007f80066f2d74 sp 00007ffee9abb710 error 4 in libm-2.27.so[7f800666c000+19d000] ...
- apt-get install edac-utils, und Ausgabe vorher und nachher:
Code:edac-util --report=simple mc0: Correctable errors: 0 mc0: Uncorrectable errors: 0 Total CE: 0 Total UE: 0
- Überwachung der CPU Temperatur mittels sensors; war nie höher als 61°C
- Das /var/log/syslog des Hosts zeigt keine Auffälligkeiten
Kurzum scheint das RAM in Ordnung, die CPU macht aber Probleme.
Nun gilt es herauszufinden, ob Hardware oder Software Schuld ist.
Ich könnte Folgendes versuchen:
- stress-ng Tests wiederholen, um Reproduzierbarkeit zu ermitteln
- Neue VM installieren, ebenfalls Ubuntu 18 LTS, dort stress-ng Tests wiederholen
- Neue VM installieren, zB Debian 10 oder Fedora, um dort stress-ng Tests oder Folding@Home Tests zu wiederholen
- Auf dem Host (Proxmox) stress-ng oder Folding@Home testen
- Auf dem Host mittels Ubuntu 18 LTS USB Stick in ein Live System booten und stress-ng Tests oder Folding@Home Tests wiederholen, d.h. ohne Virtualisierung und ohne Proxmox
- Andere CPU ausprobieren, und obige Tests wiederholen.
- Anderes Mainboard etc.
Ich habe momentan allerdings den Virtualisierer "Proxmox" im Verdacht und keine Lust und Zeit alle Tests sequentiell abzuarbeiten.
Habe in folgender Meldung Re: Regression in v4.14.94 by "x86,kvm: move qemu/guest FPU switching out to vcpu_run" — Linux Stable Kernel Updates ähnliches gefunden:
Stress-ng give one of these errors usually within 60 sec:
>
> stress-ng-cpu: Newton-Rapshon sqrt not accurate enough
> stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
-
- Bitte einloggen, um diese Anzeige auszublenden.
-
Ähnliche Themen
-
Wargame European Escalation - der Multiplayer samt Ranking-System und Community-Funktionen in bewegten Bildern
Von PCGH-Redaktion im Forum News-Kommentare zu StrategieAntworten: 6Letzter Beitrag: 12.02.2012, 18:38 -
[Community-Review] Der richtige VGA-Kühler für jede Karte
Von y33H@ im Forum LuftkühlungAntworten: 41Letzter Beitrag: 09.07.2008, 21:13 -
[Community-Review] Arctic Cooling Accelero S1 vs. Thermalright HR-03
Von y33H@ im Forum LuftkühlungAntworten: 30Letzter Beitrag: 04.07.2008, 20:30 -
[[Community-Review] Thermaltake V1 CPU-Kühler
Von patrock84 im Forum LuftkühlungAntworten: 11Letzter Beitrag: 17.01.2008, 21:28 -
ATI Tool Error
Von Imens0 im Forum Overclocking: GrafikkartenAntworten: 5Letzter Beitrag: 24.09.2007, 18:12