ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimen

cyril15

Schraubenverwechsler(in)
Moin! Bin durch die Faltwoche mal wieder motiviert worden, und falte nun seit einem Tag! :daumen:

Lasse auf zwei Rechnern falten. Eine Windows Kiste (CPU+GPU) und ein Linux Rechner (CPU only).

Bei Windows läuft alles glatt.

Habe beim Falten auf meinem Linux Rechner aber bereits 9x Probleme der folgenden Art bekommen (und das innerhalb von weniger als 24 Stunden):

Code:
05:30:39:WU00:FS00:0xa7:ERROR:-------------------------------------------------------05:30:39:WU00:FS00:0xa7:ERROR:Program GROMACS, VERSION 5.0.4-20161122-4846b12ba-unknown
05:30:39:WU00:FS00:0xa7:ERROR:Source code file: /host/debian-stable-64bit-core-a7-sse-release/gromacs-core/build/gromacs/src/gromacs/mdlib/pme.c, line: 754
05:30:39:WU00:FS00:0xa7:ERROR:
05:30:39:WU00:FS00:0xa7:ERROR:Fatal error:
05:30:39:WU00:FS00:0xa7:ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.
05:30:39:WU00:FS00:0xa7:ERROR:This usually means that your system is not well equilibrated.
05:30:39:WU00:FS00:0xa7:ERROR:For more information and tips for troubleshooting, please check the GROMACS
05:30:39:WU00:FS00:0xa7:ERROR:website at http://www.gromacs.org/Documentation/Errors
05:30:39:WU00:FS00:0xa7:ERROR:-------------------------------------------------------
05:30:44:WU00:FS00:FahCore returned: INTERRUPTED (102 = 0x66)
05:30:44:WU00:FS00:Starting
05:30:44:WU00:FS00:Removing old file './work/00/logfile_01-20190922-201147.txt'
05:30:44:WU00:FS00:Running FahCore: /usr/bin/FAHCoreWrapper /var/lib/fahclient/cores/cores.foldingathome.org/Linux/AMD64/Core_a7.fah/FahCore_a7 -dir 00 -suffix 01 -version 705 -lifeline 1207 -checkpoint 15 -np 8
05:30:44:WU00:FS00:Started FahCore on PID 1804
05:30:44:WU00:FS00:Core PID:1808
05:30:44:WU00:FS00:FahCore 0xa7 started
05:30:45:WU00:FS00:0xa7:*********************** Log Started 2019-09-23T05:30:44Z ***********************

Die Variationen in den Error Meldungen liegen hier:
ERROR:<ZAHL> particles communicated to PME rank <ZAHL> are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.​

System:


  • CPU: Intel Xeon E3-1260L v5, 4x 2.90GHz
  • Mainboard: ASRock Rack E3C236D4U
  • RAM: 4x 16 GB ECC DDR4 (Chips: Micron 18ASF2G72AZ-2G3B1)
  • alles @stock
  • Host: Proxmox 6 (5.0.21-1-pve #1 SMP PVE 5.0.21-2 (Wed, 28 Aug 2019 15:12:18 +0200) x86_64 GNU/Linux)
  • VM: Ubuntu 18.04.3 LTS (4.15.0-64-generic #73-Ubuntu SMP Thu Sep 12 13:16:13 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux)

Anbei Logs (im fah_logs.zip):
  • /var/lib/fahclient/log.txt
  • /var/lib/fahclient/logs/log-20190923-015403.txt

Außerdem kam es einmal zu Folgender Situation (/var/lib/fahclient/logs/log-20190923-015403.txt):

Code:
01:30:46:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast01:32:15:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
01:33:19:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
01:33:26:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
01:35:45:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
01:36:06:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
01:37:46:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
01:37:49:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
01:39:47:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
01:39:59:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
01:40:11:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
01:40:32:WARNING:WU00:FS00:FahCore returned: WU_STALLED (127 = 0x7f)
01:40:32:WU00:FS00:Starting
01:40:32:WU00:FS00:Removing old file './work/00/logfile_01-20190922-185734.txt'
01:40:32:WU00:FS00:Running FahCore: /usr/bin/FAHCoreWrapper /var/lib/fahclient/cores/cores.foldingathome.org/Linux/AMD64/Core_a7.fah/FahCore_a7 -dir 00 -suffix 01 -version 705 -lifeline 1787 -checkpoint 15 -np 8
01:40:32:WU00:FS00:Started FahCore on PID 2902
01:40:32:WU00:FS00:Core PID:2906
01:40:32:WU00:FS00:FahCore 0xa7 started
01:40:33:WU00:FS00:0xa7:*********************** Log Started 2019-09-23T01:40:32Z ***********************

Letzteres (
exception: std::bad_cast) ist wohl ein Programmierfehler im FahCore?

Ersteres - habt ihr so etwas schon mal bei euch gesehen? Insb. bei Linux?

Grüße aus der Oktoberfest Hauptstadt!

edit: Code Stellen mit Tags versehen
 

Anhänge

  • fah_logs.zip
    18,4 KB · Aufrufe: 40
Ein sehr komplexer GROMACS-Fehler, ist zumindest mir völlig neu. :what:

Unabhängig davon, ist Python installiert ?
Ggf. Übertaktungen rausnehmen.
Client neu installieren.

Abwarten, was die anderen schreiben... :hmm:
 
WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
Letzteres (exception: std::bad_cast) ist wohl ein Programmierfehler im FahCore?

Sehe ich nicht zwangsweise so. Ein bad cast ist letztlich ein unerwartetes/unplausibles Ergebnis, welches z.B. mittels einer Assertion abgefangen wurde. C++ ist nicht interpretiert, ohne extra Fehlerbehandlung crasht die Runtime, oder macht undefiniert weiter. Die Meldung hat also irgendwer bewusst eingebaut. Damit sollte der FAHClient sogar in einer Art Debug Modus laufen, oder aber ein Coder hat die Assertions global aktiviert (was kein Beinbruch wäre, im Normfall wäre die Ausgabe einfach stumm).

Ein unerwartetes Ergebnis kann aber vieles sein, u.A. Speicherfehler, eine falsche Berechnung durch Übertaktung, oder Temperatur Probleme, natürlich aber auch einen Programmierfehler.

Sagt der Kernel Log was genaueres? (dmesg)
 
Unabhängig davon, ist Python installiert ?
Ggf. Übertaktungen rausnehmen.
Client neu installieren.

Ja, kam wohl mit Ubuntu 18 oder dem FAH client:

python3 --version
Python 3.6.8


System ist nicht übertaktet. Lief als Webserver und für Plex ansonsten bisher seit knapp 3 Jahren einwandfrei, allerdings keine 24/7 Last.

Habe FAH installiert über:

wget https://download.foldingathome.org/...n-stable-64bit/v7.5/fahclient_7.5.1_amd64.deb
sudo dpkg -i fahclient_7.5.1_amd64.deb

edit: Könnte die VM zurücksetzen und noch mal neu installieren. Aber ich warte mal ab, ob sich der Fehler die kommenden Tage hält.
 
Zuletzt bearbeitet:
Ein unerwartetes Ergebnis kann aber vieles sein, u.A. Speicherfehler, eine falsche Berechnung durch Übertaktung, oder Temperatur Probleme, natürlich aber auch einen Programmierfehler.

Sagt der Kernel Log was genaueres? (dmesg)

Gestern Abend gab es etwas interessantes in /var/log/syslog:

Code:
Sep 22 18:57:33 ubuntufolding systemd[1]: Starting Daily apt download activities...
Sep 22 18:57:34 ubuntufolding systemd-resolved[958]: Server returned error NXDOMAIN, mitigating potential DNS violation DVE-2018-0001, retrying transaction with reduced feature level UDP.
Sep 22 18:57:40 ubuntufolding systemd[1]: Started Daily apt download activities.
Sep 22 19:17:01 ubuntufolding CRON[2275]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Sep 22 19:33:01 ubuntufolding CRON[2283]: (root) CMD (   test -x /etc/cron.daily/popularity-contest && /etc/cron.daily/popularity-contest --crond)
Sep 22 19:57:44 ubuntufolding kernel: [ 7148.285499] show_signal_msg: 9 callbacks suppressed
Sep 22 19:57:44 ubuntufolding kernel: [ 7148.285503] FahCore_a7[2315]: segfault at 7f47ac454330 ip 00005561266f2fa6 sp 00007f49ca15d160 error 4
Sep 22 20:03:31 ubuntufolding kernel: [ 7495.684175] FahCore_a7[2417]: segfault at 7f3c54454380 ip 0000558e57ce1fa6 sp 00007f3e78a97160 error 4 in FahCore_a7[558e579b0000+10fa000]
Sep 22 20:13:07 ubuntufolding kernel: [ 8071.606216] FahCore_a7[2546]: segfault at 7f0c2c454330 ip 000055712b6fafa6 sp 00007f0e3e7fa160 error 4 in FahCore_a7[55712b3c9000+10fa000]
Sep 22 20:14:57 ubuntufolding kernel: [ 8181.708253] FahCore_a7[2578]: segfault at 7f3f90454310 ip 00005614bb172fa6 sp 00007f41a0b6e160 error 4
Sep 22 20:17:01 ubuntufolding CRON[2618]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Sep 22 20:23:07 ubuntufolding kernel: [ 8670.854343] FahCore_a7[2690]: segfault at 55b3d2bbd670 ip 000055b5cfd48fa6 sp 00007fff0dc335f0 error 4
Sep 22 20:55:43 ubuntufolding kernel: [10627.057394] hrtimer: interrupt took 12731420 ns
Sep 22 21:17:01 ubuntufolding CRON[2760]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)

Sonst aber zu den Zeiten der Fehlermeldungen des FAH Clients keine Meldungen im Log.
 
Naja ein segfault ist ein 1a crash der Runtime, error 4 ist ein Speicherzugriffsfehler (es wird aus dem Userspace auf etwas versucht zuzugreifen, was nicht existiert). Letzteres kann auch die Meldung im Log sein, allerdings ist ein Segfault normaler weise das Ende einer Runtime, viel "Zeit" zum loggen bekommt sie dann nicht mehr (ggf. kann ein anderer Thread noch schnell was machen, aber auch das ist dann Zufall).
Stutzig macht mich auch der hrtimer. Dass es mal ein "bisschen" dauert, bis alle Soft Interrupts durch sind "ok", aber 12731420 ns sind schlappe 12 Sekunden. Das ist meiner Meinung nach doch ein bisschen viel. Die "Maschine" (ich las da was von VM) scheint deutlich am Limit zu fahren. Am swappen ist da in dem Moment aber nix, oder?
 
Client neu installieren./QUOTE]

Würde mich wundern. Ist ganz neu aufgesetzt, die VM. Die .bash_history sagt:

Code:
sudo apt-get update && sudo apt-get dist-upgrade && sudo apt-get autoremove
sudo reboot
sudo apt-get install qemu-guest-agent
sudo ufw status
sudo ufw allow 22/tcp
sudo ufw enable
sudo ufw allow 80/tcp
sudo ufw allow 443/tcp
sudo ufw status
sudo reboot
logout
htop
cd ~
mkdir fah
cd fah
wget [URL]https://download.foldingathome.org/releases/public/release/fahclient/debian-stable-64bit/v7.5/fahclient_7.5.1_amd64.deb[/URL]
wget [URL]https://download.foldingathome.org/releases/public/release/fahcontrol/debian-stable-64bit/v7.5/fahcontrol_7.5.1-1_all.deb[/URL]
wget [URL]https://download.foldingathome.org/releases/public/release/fahviewer/debian-stable-64bit/v7.5/fahviewer_7.5.1_amd64.deb[/URL]
rm fahcontrol_7.5.1-1_all.deb
sudo dpkg -i fahclient_7.5.1_amd64.deb
htop
ls -la
rm fahviewer_7.5.1_amd64.deb 
htop
logout
htop
cd /var/lib/fahclient/
ls -la
nano log.txt 
lsb_release 
lsb_release -a
uname -r
uname -a
logout

Da der Fehler weiterhin dauerhaft besteht und seit heute Vormittag 10 Uhr nun schon weitere 10 mal auftrat (siehe neues Log anbei), versuche ich irgendetwas zu ändern:

Proxmox kann der VM bei der Virtualisierung entweder die Default (kvm64) CPU weitergeben, oder die Original-Infos der Host CPU. Ich probiere nun letzteres.

Die Proxmox Doku sagt dazu:

In short, if you care about live migration and moving VMs between nodes, leave the kvm64 default. If you don’t care about live migration or have a homogeneous cluster where all nodes have the same CPU, set the CPU type to host, as in theory this will give your guests maximum performance.

Ich melde mich ob es was bringt.
 

Anhänge

  • log2.zip
    6,5 KB · Aufrufe: 42
oder Temperatur Probleme

Das sind die Werte vom Host, ausgelesen über sensors (aus dem Paket lm-sensors), nach einem Tag Folding@Home Dauerlast:

Code:
coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +63.0°C  (high = +84.0°C, crit = +100.0°C)
Core 0:        +61.0°C  (high = +84.0°C, crit = +100.0°C)
Core 1:        +62.0°C  (high = +84.0°C, crit = +100.0°C)
Core 2:        +60.0°C  (high = +84.0°C, crit = +100.0°C)
Core 3:        +63.0°C  (high = +84.0°C, crit = +100.0°C)


acpitz-acpi-0
Adapter: ACPI interface
temp1:        +27.8°C  (crit = +119.0°C)
temp2:        +29.8°C  (crit = +119.0°C)


power_meter-acpi-0
Adapter: ACPI interface
power1:        4.29 MW (interval = 4294967.29 s)


pch_skylake-virtual-0
Adapter: Virtual device
temp1:        +57.5°C


 
Naja ein segfault ist ein 1a crash der Runtime, error 4 ist ein Speicherzugriffsfehler (es wird aus dem Userspace auf etwas versucht zuzugreifen, was nicht existiert). Letzteres kann auch die Meldung im Log sein, allerdings ist ein Segfault normaler weise das Ende einer Runtime, viel "Zeit" zum loggen bekommt sie dann nicht mehr (ggf. kann ein anderer Thread noch schnell was machen, aber auch das ist dann Zufall).
Stutzig macht mich auch der hrtimer. Dass es mal ein "bisschen" dauert, bis alle Soft Interrupts durch sind "ok", aber 12731420 ns sind schlappe 12 Sekunden. Das ist meiner Meinung nach doch ein bisschen viel. Die "Maschine" (ich las da was von VM) scheint deutlich am Limit zu fahren. Am swappen ist da in dem Moment aber nix, oder?


  • Habe die VM mit 2 GiB min. und 16 GiB ballooning RAM definiert.
  • Momentan braucht sie eigentlich nur 536 MB.
  • Nein, die VM hat genug RAM, es ist nichts am Swappen, auch am Host nicht (der hatte bisher 34 GB frei, würde die VM alles nutzen wären noch ca. 18,5 GB frei).
  • Danke für deinen Tipp. Werde sie einfach mal auf fest zugewiesenen 16 GiB RAM laufen lassen (ballooning deaktivieren).

Die VM läuft - wie bei FAH üblich - mit Last auf allen Kernen. Ansonsten würde sich der Host normalerweise langweilen. Anbei 2 Screenshots, die die Auslastung des Hosts zeigen.

nixstats.png VMstopped.png
 
Was ich nun geändert habe:
  • VM läuft nun mit fest zugewiesenen 16 GiB RAM (ballooning deaktiviert)
  • VM läuft nun mit der "host" CPU statt der "Default (kvm64)" CPU (siehe Doku). Dadurch kennt sie den Original Namen der CPU, alle Instruktionen etc. (kann aber nicht mehr so leicht migriert werden auf einen anderen Host, was hier aber keine Rolle spielt)
  • Shutdown und Neustart, um die Änderungen wirksam werden zu lassen

Anbei:
  • Alle Zeiten sind in UTC+0.
  • Die Logs erstrecken sich über einen Zeitraum von 23.09. 20:48 Uhr - 24.09. 07:10 Uhr (UTC+0), also ein Zeitraum von ca 10.5 Stunden
  • /var/log/syslog Einträge seit dem Reboot (UFW Einträge gelöscht), darin interessant:
    Code:
    Sep 23 23:06:36 ubuntufolding kernel: [ 8301.533694] show_signal_msg: 9 callbacks suppressed
    Sep 23 23:06:36 ubuntufolding kernel: [ 8301.533696] FahCore_a7[1882]: segfault at 7f844459aca0 ip 000055e6ac226fa6 sp 00007f86567fa160 error 4 in FahCore_a7[55e6abef5000+10fa000]
    Sep 23 23:17:01 ubuntufolding CRON[1913]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
    Sep 24 00:17:01 ubuntufolding CRON[1945]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
    Sep 24 00:28:27 ubuntufolding snapd[1096]: storehelpers.go:436: cannot refresh snap "core": snap has no updates available
    Sep 24 00:28:27 ubuntufolding snapd[1096]: autorefresh.go:397: auto-refresh: all snaps are up-to-date
    Sep 24 01:17:01 ubuntufolding CRON[1997]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
    Sep 24 02:17:01 ubuntufolding CRON[2131]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
    Sep 24 02:51:05 ubuntufolding systemd[1]: Starting Message of the Day...
    Sep 24 02:51:05 ubuntufolding 50-motd-news[2141]:  * Congrats to the Kubernetes community on 1.16 beta 1! Now available
    Sep 24 02:51:05 ubuntufolding 50-motd-news[2141]:    in MicroK8s for evaluation and testing, with upgrades to RC and GA
    Sep 24 02:51:05 ubuntufolding 50-motd-news[2141]:      snap info microk8s
    Sep 24 02:51:05 ubuntufolding systemd[1]: Started Message of the Day.
    Sep 24 03:17:01 ubuntufolding CRON[2199]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
    Sep 24 04:17:01 ubuntufolding CRON[2240]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
    Sep 24 05:17:01 ubuntufolding CRON[2255]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
    Sep 24 05:19:50 ubuntufolding systemd[1]: Starting Daily apt download activities...
    Sep 24 05:19:51 ubuntufolding systemd-resolved[870]: Server returned error NXDOMAIN, mitigating potential DNS violation DVE-2018-0001, retrying transaction with reduced feature level UDP.
    Sep 24 05:19:58 ubuntufolding systemd[1]: Started Daily apt download activities.
    Sep 24 05:35:24 ubuntufolding kernel: [31628.316211] FahCore_a7[2710]: segfault at 556cc1e007c0 ip 0000556ec011b5d2 sp 00007fff29b550c0 error 4 in FahCore_a7[556ebfdcc000+12bd000]
    Sep 24 05:47:42 ubuntufolding kernel: [32367.208011] FahCore_a7[2914]: segfault at 7fabfbe64870 ip 0000555e31d70615 sp 00007fac4f7fbc20 error 4 in FahCore_a7[555e31a21000+12bd000]
    Sep 24 05:55:44 ubuntufolding kernel: [32848.275877] FahCore_a7[3035]: segfault at 55affcdf0740 ip 000055b1fb60b5d2 sp 00007ffc787f90e0 error 4 in FahCore_a7[55b1fb2bc000+12bd000]
    Sep 24 06:17:01 ubuntufolding CRON[3163]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
    Sep 24 06:25:01 ubuntufolding CRON[3167]: (root) CMD (test -x /usr/sbin/anacron || ( cd / && run-parts --report /etc/cron.daily ))
  • /var/lib/fahclient/log.txt Einträge seit dem Reboot
    • 55x Einträge {ZAHL} particles communicated to PME rank {ZAHL} are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.
    • 44x Einträge FahCore returned: INTERRUPTED (102 = 0x66)
    • 5x Einträge FahCore returned: BAD_FRAME_CHECKSUM (112 = 0x70)
    • 2x Einträge FahCore returned: WU_STALLED (127 = 0x7f)
    • 1x Eintrag FahCore returned: BAD_WORK_UNIT
    • Folgende Serie:
Code:
01:41:38:WU00:FS00:0xa7:ERROR:-------------------------------------------------------
01:41:38:WU00:FS00:0xa7:ERROR:Program GROMACS, VERSION 5.0.4-20161122-4846b12ba-unknown
01:41:38:WU00:FS00:0xa7:ERROR:Source code file: /host/debian-stable-64bit-core-a7-avx-release/gromacs-core/build/gromacs/src/gromacs/mdlib/pme.c, line: 754
01:41:38:WU00:FS00:0xa7:ERROR:
01:41:38:WU00:FS00:0xa7:ERROR:Fatal error:
01:41:38:WU00:FS00:0xa7:ERROR:3429 particles communicated to PME rank 6 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.
01:41:38:WU00:FS00:0xa7:ERROR:This usually means that your system is not well equilibrated.
01:41:38:WU00:FS00:0xa7:ERROR:For more information and tips for troubleshooting, please check the GROMACS
01:41:38:WU00:FS00:0xa7:ERROR:website at http://www.gromacs.org/Documentation/Errors
01:41:38:WU00:FS00:0xa7:ERROR:-------------------------------------------------------
01:41:38:WU00:FS00:0xa7:WARNING:Unexpected exit() call
01:41:38:WU00:FS00:0xa7:WARNING:Unexpected exit from science code
01:41:38:WU00:FS00:0xa7:Saving result file ../logfile_01.txt
01:41:38:WU00:FS00:0xa7:Saving result file frame97.trr
01:41:38:WU00:FS00:0xa7:Saving result file frame97.xtc
01:41:38:WU00:FS00:0xa7:Saving result file md.log
01:41:38:WU00:FS00:0xa7:Saving result file science.log
01:41:38:WU00:FS00:0xa7:Folding@home Core Shutdown: BAD_WORK_UNIT
01:41:38:WU00:FS00:0xa7:ERROR:Exception: Core instance does not exists.
01:41:38:WU00:FS00:0xa7:ERROR:Exception: Core instance does not exists.
...............insgesamt 15226 Wiederholungen von "01:41:38:WU00:FS00:0xa7:ERROR:Exception: Core instance does not exists."...............
01:41:38:WU00:FS00:0xa7:ERROR:Exception: Core instance does not exists.
01:41:38:WU00:FS00:0xa7:ERROR:Exception: Core instance does not exists.
[93m01:41:38:WARNING:WU00:FS00:FahCore returned: BAD_WORK_UNIT (114 = 0x72)[0m
01:41:38:WU00:FS00:Sending unit results: id:00 state:SEND error:FAULTY project:13822 run:918 clone:2 gen:97 core:0xa7 unit:0x0000006b80fccb095c895d0b2b2a149f
01:41:38:WU00:FS00:Uploading 4.64MiB to 128.252.203.9
...

Was ist da los? :what:

Ich habe den Client damals einfach wie folgt installiert:
Code:
wget https://download.foldingathome.org/releases/public/release/fahclient/debian-stable-64bit/v7.5/fahclient_7.5.1_amd64.deb
sudo dpkg -i fahclient_7.5.1_amd64.deb
Vielleicht war das nicht ganz richtig, wenn ich mir Manual installation (advanced) – Folding@home ansehe.
Ich habe fahcontrol jedenfalls nicht installiert, da ich X11 Weiterleitung etc. (GUI) vermeiden wollte. Brauche ich fahcontrol?

Mit welchen Argumenten etc. er aktuell läuft, sieht man im htop Screenshot:

htop.png

Ich ändere nun mal die Datei /etc/fahclient/config.xml wie folgt:

Alt:
Code:
<config><fold-anon v='true'/><gpu v='false'/><power v='full'/><passkey v='xxx'/><team v='70335'/><user v='cyril15'/><slot id='0' type='CPU'/></config>
Neu:
Code:
<config><fold-anon v='false'/><gpu v='false'/><power v='light'/><passkey v='xxx'/><team v='70335'/><user v='cyril15'/><slot id='0' type='CPU'/></config>


Und starte neu. Vielleicht liegt es ja tatsächlich an einer Überlastung? Dann müsste es mit der light Power Einstellung ja besser klappen.:huh::hail:

htop sieht seit dem Reboot so aus:
htop_neu.png

Nun faltet er nur noch mit 3 statt 8 Threads. Ich bin gespannt.
 

Anhänge

  • logs3.zip
    41,1 KB · Aufrufe: 39
light.png
Trotz [FONT=&quot]light[/FONT] Modus hören die Fehler nicht auf. Seit 10 Stunden 30 Minuten im light Einsatz:
  • 27x \d+ particles communicated to PME rank \d+ are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.
  • 2x FahCore returned: BAD_FRAME_CHECKSUM (112 = 0x70)
  • 9x FahCore returned: INTERRUPTED (102 = 0x66)
  • 1x FahCore returned: WU_STALLED (127 = 0x7f)
  • 1x FahCore returned: UNKNOWN_ERROR (121 = 0x79)
  • immerhin 1x FahCore returned: FINISHED_UNIT (100 = 0x64):banane:
  • /var/log/syslog zeigt diesmal keine Probleme

Was denkt ihr? RAM defekt? CPU defekt? Mainboard defekt? An Ubuntu 18 LTS wird's wohl kaum liegen.

Habe FAH nun deinstalliert, und führe Stresstests durch. Mal sehen ob dabei etwas zum Vorschein kommt.
Ansonsten probiere ich es auch noch mal ohne VM.
 

Anhänge

  • logs_24-25.9.zip
    8,1 KB · Aufrufe: 35
Es sieht nicht gut aus. Ich schätze, ich komme dem Problem näher.

Für den Stresstest habe ich das Tool stress-ng verwendet und es insgesamt 2 Tage in der VM laufen lassen:
Code:
stress-ng --vm 8 --vm-bytes 85% --vm-method all --verify -t 24h -v &>> ~/mem.txt; stress-ng --cpu 8 --cpu-method all --verify -t 24h &>> ~/cpu.txt

Das bedeutet:
  • Teste mit 8 Threads den Arbeitsspeicher unter Verwendung von maximal 85% der Gesamtspeichermenge (Werte darüber ergaben nämlich Out-Of-Memory Meldungen stress-ng-vm invoked oom-killer), alle möglichen Methoden, 24 Stunden lang, verifiziere das Ergebnis und schreibe Output in Datei mem.txt
  • Danach teste mit 8 Threads die CPU, alle möglichen Methoden, 24 Stunden lang, verifiziere das Ergebnis und schreibe Output in Datei cpu.txt

Die Ergebnisse:
mem.txt:
Code:
stress-ng: debug: [4378] 8 processors online, 8 processors configured
stress-ng: info:  [4378] dispatching hogs: 8 vm
stress-ng: debug: [4378] cache allocate: default cache size: 16384K
stress-ng: debug: [4378] starting stressors
stress-ng: debug: [4379] stress-ng-vm: started [4379] (instance 0)
stress-ng: debug: [4379] stress-ng-vm using method 'all'
stress-ng: debug: [4380] stress-ng-vm: started [4380] (instance 1)
stress-ng: debug: [4381] stress-ng-vm: started [4381] (instance 2)
stress-ng: debug: [4380] stress-ng-vm using method 'all'
stress-ng: debug: [4381] stress-ng-vm using method 'all'
stress-ng: debug: [4382] stress-ng-vm: started [4382] (instance 3)
stress-ng: debug: [4382] stress-ng-vm using method 'all'
stress-ng: debug: [4383] stress-ng-vm: started [4383] (instance 4)
stress-ng: debug: [4385] stress-ng-vm: started [4385] (instance 5)
stress-ng: debug: [4378] 8 stressors spawned
stress-ng: debug: [4383] stress-ng-vm using method 'all'
stress-ng: debug: [4387] stress-ng-vm: started [4387] (instance 6)
stress-ng: debug: [4389] stress-ng-vm: started [4389] (instance 7)
stress-ng: debug: [4385] stress-ng-vm using method 'all'
stress-ng: debug: [4387] stress-ng-vm using method 'all'
stress-ng: debug: [4389] stress-ng-vm using method 'all'
stress-ng: debug: [4389] stress-ng-vm: exited [4389] (instance 7)
stress-ng: debug: [4382] stress-ng-vm: exited [4382] (instance 3)
stress-ng: debug: [4385] stress-ng-vm: exited [4385] (instance 5)
stress-ng: debug: [4387] stress-ng-vm: exited [4387] (instance 6)
stress-ng: debug: [4383] stress-ng-vm: exited [4383] (instance 4)
stress-ng: debug: [4381] stress-ng-vm: exited [4381] (instance 2)
stress-ng: debug: [4379] stress-ng-vm: exited [4379] (instance 0)
stress-ng: debug: [4378] process [4379] terminated
stress-ng: debug: [4380] stress-ng-vm: exited [4380] (instance 1)
stress-ng: debug: [4378] process [4380] terminated
stress-ng: debug: [4378] process [4381] terminated
stress-ng: debug: [4378] process [4382] terminated
stress-ng: debug: [4378] process [4383] terminated
stress-ng: debug: [4378] process [4385] terminated
stress-ng: debug: [4378] process [4387] terminated
stress-ng: debug: [4378] process [4389] terminated
stress-ng: info:  [4378] successful run completed in 86400.19s (1 day, 0.19 secs)
cpu.txt:
Code:
stress-ng: info:  [5502] dispatching hogs: 8 cpustress-ng: fail:  [5510] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
stress-ng: fail:  [5505] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
stress-ng: fail:  [5507] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
stress-ng: fail:  [5503] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
stress-ng: fail:  [5505] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
stress-ng: fail:  [5505] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
stress-ng: fail:  [5510] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
stress-ng: fail:  [5505] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
stress-ng: fail:  [5503] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
stress-ng: fail:  [5510] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
stress-ng: fail:  [5510] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
stress-ng: fail:  [5509] stress-ng-cpu: sqrt error detected on sqrt(3947656753)
stress-ng: fail:  [5505] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
info: 5 failures reached, aborting stress process
stress-ng: info:  [5502] unsuccessful run completed in 86400.02s (1 day, 0.02 secs)

In /var/log/syslog der VM sieht man Folgendes (mehr vom syslog: anbei):
Code:
Sep 25 08:30:47 ubuntufolding stress-ng: invoked with 'stress-n' by user 1000
Sep 25 08:30:47 ubuntufolding stress-ng: system: 'ubuntufolding' Linux 4.15.0-64-generic #73-Ubuntu SMP Thu Sep 12 13:16:13 UTC 2019 x86_64
Sep 25 08:30:47 ubuntufolding stress-ng: memory (MB): total 16039.82, free 15779.63, shared 0.95, buffer 6.93, swap 0.00, free swap 0.00
... (Memory Tests erfolgreich, startet nun CPU Tests)...
Sep 26 08:30:47 ubuntufolding stress-ng: invoked with 'stress-n' by user 1000
Sep 26 08:30:47 ubuntufolding stress-ng: system: 'ubuntufolding' Linux 4.15.0-64-generic #73-Ubuntu SMP Thu Sep 12 13:16:13 UTC 2019 x86_64
Sep 26 08:30:47 ubuntufolding stress-ng: memory (MB): total 16039.82, free 15626.92, shared 1.06, buffer 45.79, swap 0.00, free swap 0.00
...
Sep 26 20:52:29 ubuntufolding kernel: [219374.466531] show_signal_msg: 9 callbacks suppressed
Sep 26 20:52:29 ubuntufolding kernel: [219374.466534] stress-ng-cpu[5506]: segfault at 7f8007be8a10 ip 00007f80066f2d74 sp 00007ffee9abb800 error 4 in libm-2.27.so[7f800666c000+19d000]
Sep 26 21:07:24 ubuntufolding kernel: [220269.655077] stress-ng-cpu[5508]: segfault at 7f864ef68580 ip 00007f8006682bae sp 00007ffee9abb6a8 error 4 in libm-2.27.so[7f800666c000+19d000]
...
Sep 27 01:32:15 ubuntufolding kernel: [236160.360521] stress-ng-cpu[5507]: segfault at 7f800a330be0 ip 00007f80066f2d74 sp 00007ffee9abb710 error 4 in libm-2.27.so[7f800666c000+19d000]
...

Außerdem habe ich auf dem Host folgendes gemacht:
  • apt-get install edac-utils, und Ausgabe vorher und nachher:
    Code:
    edac-util --report=simple
    mc0: Correctable errors:   0
    mc0: Uncorrectable errors: 0
    Total CE: 0
    Total UE: 0
  • Überwachung der CPU Temperatur mittels sensors; war nie höher als 61°C
  • Das /var/log/syslog des Hosts zeigt keine Auffälligkeiten

Kurzum scheint das RAM in Ordnung, die CPU macht aber Probleme.

Nun gilt es herauszufinden, ob Hardware oder Software Schuld ist.

Ich könnte Folgendes versuchen:
  1. stress-ng Tests wiederholen, um Reproduzierbarkeit zu ermitteln
  2. Neue VM installieren, ebenfalls Ubuntu 18 LTS, dort stress-ng Tests wiederholen
  3. Neue VM installieren, zB Debian 10 oder Fedora, um dort stress-ng Tests oder Folding@Home Tests zu wiederholen
  4. Auf dem Host (Proxmox) stress-ng oder Folding@Home testen
  5. Auf dem Host mittels Ubuntu 18 LTS USB Stick in ein Live System booten und stress-ng Tests oder Folding@Home Tests wiederholen, d.h. ohne Virtualisierung und ohne Proxmox
  6. Andere CPU ausprobieren, und obige Tests wiederholen.
  7. Anderes Mainboard etc.

Ich habe momentan allerdings den Virtualisierer "Proxmox" im Verdacht und keine Lust und Zeit alle Tests sequentiell abzuarbeiten.

Habe in folgender Meldung Re: Regression in v4.14.94 by "x86,kvm: move qemu/guest FPU switching out to vcpu_run" — Linux Stable Kernel Updates ähnliches gefunden:
Stress-ng give one of these errors usually within 60 sec:
>
> stress-ng-cpu: Newton-Rapshon sqrt not accurate enough
> stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
Werde daher sobald es geht mit Test Nr. 5 starten.
 

Anhänge

  • syslog20190925-27.zip
    1,8 KB · Aufrufe: 38
Zurück