Seite 2 von 2 12
  1. #11

    Mitglied seit
    02.08.2014
    Beiträge
    12

    AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.

    Was ich nun geändert habe:
    • VM läuft nun mit fest zugewiesenen 16 GiB RAM (ballooning deaktiviert)
    • VM läuft nun mit der "host" CPU statt der "Default (kvm64)" CPU (siehe Doku). Dadurch kennt sie den Original Namen der CPU, alle Instruktionen etc. (kann aber nicht mehr so leicht migriert werden auf einen anderen Host, was hier aber keine Rolle spielt)
    • Shutdown und Neustart, um die Änderungen wirksam werden zu lassen


    Anbei:
    • Alle Zeiten sind in UTC+0.
    • Die Logs erstrecken sich über einen Zeitraum von 23.09. 20:48 Uhr - 24.09. 07:10 Uhr (UTC+0), also ein Zeitraum von ca 10.5 Stunden
    • /var/log/syslog Einträge seit dem Reboot (UFW Einträge gelöscht), darin interessant:
      Code:
      Sep 23 23:06:36 ubuntufolding kernel: [ 8301.533694] show_signal_msg: 9 callbacks suppressed
      Sep 23 23:06:36 ubuntufolding kernel: [ 8301.533696] FahCore_a7[1882]: segfault at 7f844459aca0 ip 000055e6ac226fa6 sp 00007f86567fa160 error 4 in FahCore_a7[55e6abef5000+10fa000]
      Sep 23 23:17:01 ubuntufolding CRON[1913]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
      Sep 24 00:17:01 ubuntufolding CRON[1945]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
      Sep 24 00:28:27 ubuntufolding snapd[1096]: storehelpers.go:436: cannot refresh snap "core": snap has no updates available
      Sep 24 00:28:27 ubuntufolding snapd[1096]: autorefresh.go:397: auto-refresh: all snaps are up-to-date
      Sep 24 01:17:01 ubuntufolding CRON[1997]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
      Sep 24 02:17:01 ubuntufolding CRON[2131]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
      Sep 24 02:51:05 ubuntufolding systemd[1]: Starting Message of the Day...
      Sep 24 02:51:05 ubuntufolding 50-motd-news[2141]:  * Congrats to the Kubernetes community on 1.16 beta 1! Now available
      Sep 24 02:51:05 ubuntufolding 50-motd-news[2141]:    in MicroK8s for evaluation and testing, with upgrades to RC and GA
      Sep 24 02:51:05 ubuntufolding 50-motd-news[2141]:      snap info microk8s
      Sep 24 02:51:05 ubuntufolding systemd[1]: Started Message of the Day.
      Sep 24 03:17:01 ubuntufolding CRON[2199]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
      Sep 24 04:17:01 ubuntufolding CRON[2240]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
      Sep 24 05:17:01 ubuntufolding CRON[2255]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
      Sep 24 05:19:50 ubuntufolding systemd[1]: Starting Daily apt download activities...
      Sep 24 05:19:51 ubuntufolding systemd-resolved[870]: Server returned error NXDOMAIN, mitigating potential DNS violation DVE-2018-0001, retrying transaction with reduced feature level UDP.
      Sep 24 05:19:58 ubuntufolding systemd[1]: Started Daily apt download activities.
      Sep 24 05:35:24 ubuntufolding kernel: [31628.316211] FahCore_a7[2710]: segfault at 556cc1e007c0 ip 0000556ec011b5d2 sp 00007fff29b550c0 error 4 in FahCore_a7[556ebfdcc000+12bd000]
      Sep 24 05:47:42 ubuntufolding kernel: [32367.208011] FahCore_a7[2914]: segfault at 7fabfbe64870 ip 0000555e31d70615 sp 00007fac4f7fbc20 error 4 in FahCore_a7[555e31a21000+12bd000]
      Sep 24 05:55:44 ubuntufolding kernel: [32848.275877] FahCore_a7[3035]: segfault at 55affcdf0740 ip 000055b1fb60b5d2 sp 00007ffc787f90e0 error 4 in FahCore_a7[55b1fb2bc000+12bd000]
      Sep 24 06:17:01 ubuntufolding CRON[3163]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
      Sep 24 06:25:01 ubuntufolding CRON[3167]: (root) CMD (test -x /usr/sbin/anacron || ( cd / && run-parts --report /etc/cron.daily ))
    • /var/lib/fahclient/log.txt Einträge seit dem Reboot
      • 55x Einträge {ZAHL} particles communicated to PME rank {ZAHL} are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.
      • 44x Einträge FahCore returned: INTERRUPTED (102 = 0x66)
      • 5x Einträge FahCore returned: BAD_FRAME_CHECKSUM (112 = 0x70)
      • 2x Einträge FahCore returned: WU_STALLED (127 = 0x7f)
      • 1x Eintrag FahCore returned: BAD_WORK_UNIT
      • Folgende Serie:

    Code:
    01:41:38:WU00:FS00:0xa7:ERROR:-------------------------------------------------------
    01:41:38:WU00:FS00:0xa7:ERROR:Program GROMACS, VERSION 5.0.4-20161122-4846b12ba-unknown
    01:41:38:WU00:FS00:0xa7:ERROR:Source code file: /host/debian-stable-64bit-core-a7-avx-release/gromacs-core/build/gromacs/src/gromacs/mdlib/pme.c, line: 754
    01:41:38:WU00:FS00:0xa7:ERROR:
    01:41:38:WU00:FS00:0xa7:ERROR:Fatal error:
    01:41:38:WU00:FS00:0xa7:ERROR:3429 particles communicated to PME rank 6 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.
    01:41:38:WU00:FS00:0xa7:ERROR:This usually means that your system is not well equilibrated.
    01:41:38:WU00:FS00:0xa7:ERROR:For more information and tips for troubleshooting, please check the GROMACS
    01:41:38:WU00:FS00:0xa7:ERROR:website at http://www.gromacs.org/Documentation/Errors
    01:41:38:WU00:FS00:0xa7:ERROR:-------------------------------------------------------
    01:41:38:WU00:FS00:0xa7:WARNING:Unexpected exit() call
    01:41:38:WU00:FS00:0xa7:WARNING:Unexpected exit from science code
    01:41:38:WU00:FS00:0xa7:Saving result file ../logfile_01.txt
    01:41:38:WU00:FS00:0xa7:Saving result file frame97.trr
    01:41:38:WU00:FS00:0xa7:Saving result file frame97.xtc
    01:41:38:WU00:FS00:0xa7:Saving result file md.log
    01:41:38:WU00:FS00:0xa7:Saving result file science.log
    01:41:38:WU00:FS00:0xa7:Folding@home Core Shutdown: BAD_WORK_UNIT
    01:41:38:WU00:FS00:0xa7:ERROR:Exception: Core instance does not exists.
    01:41:38:WU00:FS00:0xa7:ERROR:Exception: Core instance does not exists.
    ...............insgesamt 15226 Wiederholungen von "01:41:38:WU00:FS00:0xa7:ERROR:Exception: Core instance does not exists."...............
    01:41:38:WU00:FS00:0xa7:ERROR:Exception: Core instance does not exists.
    01:41:38:WU00:FS00:0xa7:ERROR:Exception: Core instance does not exists.
    [93m01:41:38:WARNING:WU00:FS00:FahCore returned: BAD_WORK_UNIT (114 = 0x72)[0m
    01:41:38:WU00:FS00:Sending unit results: id:00 state:SEND error:FAULTY project:13822 run:918 clone:2 gen:97 core:0xa7 unit:0x0000006b80fccb095c895d0b2b2a149f
    01:41:38:WU00:FS00:Uploading 4.64MiB to 128.252.203.9
    ...
    Was ist da los?

    Ich habe den Client damals einfach wie folgt installiert:
    Code:
    wget https://download.foldingathome.org/releases/public/release/fahclient/debian-stable-64bit/v7.5/fahclient_7.5.1_amd64.deb
    sudo dpkg -i fahclient_7.5.1_amd64.deb
    Vielleicht war das nicht ganz richtig, wenn ich mir Manual installation (advanced) – Folding@home ansehe.
    Ich habe fahcontrol jedenfalls nicht installiert, da ich X11 Weiterleitung etc. (GUI) vermeiden wollte. Brauche ich fahcontrol?

    Mit welchen Argumenten etc. er aktuell läuft, sieht man im htop Screenshot:

    Klicken Sie auf die Grafik für eine größere Ansicht 

Name:	htop.png 
Hits:	6 
Größe:	184,6 KB 
ID:	1060123

    Ich ändere nun mal die Datei /etc/fahclient/config.xml wie folgt:

    Alt:
    Code:
    <config><fold-anon v='true'/><gpu v='false'/><power v='full'/><passkey v='xxx'/><team v='70335'/><user v='cyril15'/><slot id='0' type='CPU'/></config>
    Neu:
    Code:
    <config><fold-anon v='false'/><gpu v='false'/><power v='light'/><passkey v='xxx'/><team v='70335'/><user v='cyril15'/><slot id='0' type='CPU'/></config>

    Und starte neu. Vielleicht liegt es ja tatsächlich an einer Überlastung? Dann müsste es mit der light Power Einstellung ja besser klappen.

    htop sieht seit dem Reboot so aus:
    Klicken Sie auf die Grafik für eine größere Ansicht 

Name:	htop_neu.png 
Hits:	11 
Größe:	175,7 KB 
ID:	1060124

    Nun faltet er nur noch mit 3 statt 8 Threads. Ich bin gespannt.
    Angehängte Dateien Angehängte Dateien

    • Bitte einloggen, um diese Anzeige auszublenden.
  2. #12

    Mitglied seit
    02.08.2014
    Beiträge
    12

    AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.

    Klicken Sie auf die Grafik für eine größere Ansicht 

Name:	light.png 
Hits:	7 
Größe:	69,3 KB 
ID:	1060290
    Trotz light Modus hören die Fehler nicht auf. Seit 10 Stunden 30 Minuten im light Einsatz:
    • 27x \d+ particles communicated to PME rank \d+ are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.
    • 2x FahCore returned: BAD_FRAME_CHECKSUM (112 = 0x70)
    • 9x FahCore returned: INTERRUPTED (102 = 0x66)
    • 1x FahCore returned: WU_STALLED (127 = 0x7f)
    • 1x FahCore returned: UNKNOWN_ERROR (121 = 0x79)
    • immerhin 1x FahCore returned: FINISHED_UNIT (100 = 0x64)
    • /var/log/syslog zeigt diesmal keine Probleme


    Was denkt ihr? RAM defekt? CPU defekt? Mainboard defekt? An Ubuntu 18 LTS wird's wohl kaum liegen.

    Habe FAH nun deinstalliert, und führe Stresstests durch. Mal sehen ob dabei etwas zum Vorschein kommt.
    Ansonsten probiere ich es auch noch mal ohne VM.
    Angehängte Dateien Angehängte Dateien

  3. #13
    Avatar von nonamez78
    Mitglied seit
    23.12.2015
    Liest
    PCGH.de (Abo) & Heft (Abo)
    Beiträge
    625

    AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.

    Einen RAM Fehler sollte eigentlich der Host selber merken. Guck doch da mal im Kernel Log (dmesg).

    user@keymap:us-us, no umlauts anywhere ^^

  4. #14

    Mitglied seit
    02.08.2014
    Beiträge
    12

    AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.

    Zitat Zitat von nonamez78 Beitrag anzeigen
    Einen RAM Fehler sollte eigentlich der Host selber merken. Guck doch da mal im Kernel Log (dmesg).
    Keinerlei Auffälligkeiten leider.
    Angehängte Dateien Angehängte Dateien

  5. #15

    Mitglied seit
    02.08.2014
    Beiträge
    12

    AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.

    Es sieht nicht gut aus. Ich schätze, ich komme dem Problem näher.

    Für den Stresstest habe ich das Tool stress-ng verwendet und es insgesamt 2 Tage in der VM laufen lassen:
    Code:
    stress-ng --vm 8 --vm-bytes 85% --vm-method all --verify -t 24h -v &>> ~/mem.txt; stress-ng --cpu 8 --cpu-method all --verify -t 24h &>> ~/cpu.txt
    Das bedeutet:
    • Teste mit 8 Threads den Arbeitsspeicher unter Verwendung von maximal 85% der Gesamtspeichermenge (Werte darüber ergaben nämlich Out-Of-Memory Meldungen stress-ng-vm invoked oom-killer), alle möglichen Methoden, 24 Stunden lang, verifiziere das Ergebnis und schreibe Output in Datei mem.txt
    • Danach teste mit 8 Threads die CPU, alle möglichen Methoden, 24 Stunden lang, verifiziere das Ergebnis und schreibe Output in Datei cpu.txt


    Die Ergebnisse:
    mem.txt:
    Code:
    stress-ng: debug: [4378] 8 processors online, 8 processors configured
    stress-ng: info:  [4378] dispatching hogs: 8 vm
    stress-ng: debug: [4378] cache allocate: default cache size: 16384K
    stress-ng: debug: [4378] starting stressors
    stress-ng: debug: [4379] stress-ng-vm: started [4379] (instance 0)
    stress-ng: debug: [4379] stress-ng-vm using method 'all'
    stress-ng: debug: [4380] stress-ng-vm: started [4380] (instance 1)
    stress-ng: debug: [4381] stress-ng-vm: started [4381] (instance 2)
    stress-ng: debug: [4380] stress-ng-vm using method 'all'
    stress-ng: debug: [4381] stress-ng-vm using method 'all'
    stress-ng: debug: [4382] stress-ng-vm: started [4382] (instance 3)
    stress-ng: debug: [4382] stress-ng-vm using method 'all'
    stress-ng: debug: [4383] stress-ng-vm: started [4383] (instance 4)
    stress-ng: debug: [4385] stress-ng-vm: started [4385] (instance 5)
    stress-ng: debug: [4378] 8 stressors spawned
    stress-ng: debug: [4383] stress-ng-vm using method 'all'
    stress-ng: debug: [4387] stress-ng-vm: started [4387] (instance 6)
    stress-ng: debug: [4389] stress-ng-vm: started [4389] (instance 7)
    stress-ng: debug: [4385] stress-ng-vm using method 'all'
    stress-ng: debug: [4387] stress-ng-vm using method 'all'
    stress-ng: debug: [4389] stress-ng-vm using method 'all'
    stress-ng: debug: [4389] stress-ng-vm: exited [4389] (instance 7)
    stress-ng: debug: [4382] stress-ng-vm: exited [4382] (instance 3)
    stress-ng: debug: [4385] stress-ng-vm: exited [4385] (instance 5)
    stress-ng: debug: [4387] stress-ng-vm: exited [4387] (instance 6)
    stress-ng: debug: [4383] stress-ng-vm: exited [4383] (instance 4)
    stress-ng: debug: [4381] stress-ng-vm: exited [4381] (instance 2)
    stress-ng: debug: [4379] stress-ng-vm: exited [4379] (instance 0)
    stress-ng: debug: [4378] process [4379] terminated
    stress-ng: debug: [4380] stress-ng-vm: exited [4380] (instance 1)
    stress-ng: debug: [4378] process [4380] terminated
    stress-ng: debug: [4378] process [4381] terminated
    stress-ng: debug: [4378] process [4382] terminated
    stress-ng: debug: [4378] process [4383] terminated
    stress-ng: debug: [4378] process [4385] terminated
    stress-ng: debug: [4378] process [4387] terminated
    stress-ng: debug: [4378] process [4389] terminated
    stress-ng: info:  [4378] successful run completed in 86400.19s (1 day, 0.19 secs)
    cpu.txt:
    Code:
    stress-ng: info:  [5502] dispatching hogs: 8 cpustress-ng: fail:  [5510] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
    stress-ng: fail:  [5505] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
    stress-ng: fail:  [5507] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
    stress-ng: fail:  [5503] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
    stress-ng: fail:  [5505] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
    stress-ng: fail:  [5505] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
    stress-ng: fail:  [5510] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
    stress-ng: fail:  [5505] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
    stress-ng: fail:  [5503] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
    stress-ng: fail:  [5510] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
    stress-ng: fail:  [5510] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
    stress-ng: fail:  [5509] stress-ng-cpu: sqrt error detected on sqrt(3947656753)
    stress-ng: fail:  [5505] stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
    info: 5 failures reached, aborting stress process
    stress-ng: info:  [5502] unsuccessful run completed in 86400.02s (1 day, 0.02 secs)
    In /var/log/syslog der VM sieht man Folgendes (mehr vom syslog: anbei):
    Code:
    Sep 25 08:30:47 ubuntufolding stress-ng: invoked with 'stress-n' by user 1000
    Sep 25 08:30:47 ubuntufolding stress-ng: system: 'ubuntufolding' Linux 4.15.0-64-generic #73-Ubuntu SMP Thu Sep 12 13:16:13 UTC 2019 x86_64
    Sep 25 08:30:47 ubuntufolding stress-ng: memory (MB): total 16039.82, free 15779.63, shared 0.95, buffer 6.93, swap 0.00, free swap 0.00
    ... (Memory Tests erfolgreich, startet nun CPU Tests)...
    Sep 26 08:30:47 ubuntufolding stress-ng: invoked with 'stress-n' by user 1000
    Sep 26 08:30:47 ubuntufolding stress-ng: system: 'ubuntufolding' Linux 4.15.0-64-generic #73-Ubuntu SMP Thu Sep 12 13:16:13 UTC 2019 x86_64
    Sep 26 08:30:47 ubuntufolding stress-ng: memory (MB): total 16039.82, free 15626.92, shared 1.06, buffer 45.79, swap 0.00, free swap 0.00
    ...
    Sep 26 20:52:29 ubuntufolding kernel: [219374.466531] show_signal_msg: 9 callbacks suppressed
    Sep 26 20:52:29 ubuntufolding kernel: [219374.466534] stress-ng-cpu[5506]: segfault at 7f8007be8a10 ip 00007f80066f2d74 sp 00007ffee9abb800 error 4 in libm-2.27.so[7f800666c000+19d000]
    Sep 26 21:07:24 ubuntufolding kernel: [220269.655077] stress-ng-cpu[5508]: segfault at 7f864ef68580 ip 00007f8006682bae sp 00007ffee9abb6a8 error 4 in libm-2.27.so[7f800666c000+19d000]
    ...
    Sep 27 01:32:15 ubuntufolding kernel: [236160.360521] stress-ng-cpu[5507]: segfault at 7f800a330be0 ip 00007f80066f2d74 sp 00007ffee9abb710 error 4 in libm-2.27.so[7f800666c000+19d000]
    ...
    Außerdem habe ich auf dem Host folgendes gemacht:
    • apt-get install edac-utils, und Ausgabe vorher und nachher:
      Code:
      edac-util --report=simple
      mc0: Correctable errors:   0
      mc0: Uncorrectable errors: 0
      Total CE: 0
      Total UE: 0
    • Überwachung der CPU Temperatur mittels sensors; war nie höher als 61°C
    • Das /var/log/syslog des Hosts zeigt keine Auffälligkeiten


    Kurzum scheint das RAM in Ordnung, die CPU macht aber Probleme.

    Nun gilt es herauszufinden, ob Hardware oder Software Schuld ist.

    Ich könnte Folgendes versuchen:
    1. stress-ng Tests wiederholen, um Reproduzierbarkeit zu ermitteln
    2. Neue VM installieren, ebenfalls Ubuntu 18 LTS, dort stress-ng Tests wiederholen
    3. Neue VM installieren, zB Debian 10 oder Fedora, um dort stress-ng Tests oder Folding@Home Tests zu wiederholen
    4. Auf dem Host (Proxmox) stress-ng oder Folding@Home testen
    5. Auf dem Host mittels Ubuntu 18 LTS USB Stick in ein Live System booten und stress-ng Tests oder Folding@Home Tests wiederholen, d.h. ohne Virtualisierung und ohne Proxmox
    6. Andere CPU ausprobieren, und obige Tests wiederholen.
    7. Anderes Mainboard etc.


    Ich habe momentan allerdings den Virtualisierer "Proxmox" im Verdacht und keine Lust und Zeit alle Tests sequentiell abzuarbeiten.

    Habe in folgender Meldung Re: Regression in v4.14.94 by "x86,kvm: move qemu/guest FPU switching out to vcpu_run" — Linux Stable Kernel Updates ähnliches gefunden:
    Stress-ng give one of these errors usually within 60 sec:
    >
    > stress-ng-cpu: Newton-Rapshon sqrt not accurate enough
    > stress-ng-cpu: prime error detected, number of primes between 0 and 1000000 miscalculated
    Werde daher sobald es geht mit Test Nr. 5 starten.
    Angehängte Dateien Angehängte Dateien

    • Bitte einloggen, um diese Anzeige auszublenden.
Seite 2 von 2 12

Ähnliche Themen

  1. Antworten: 6
    Letzter Beitrag: 12.02.2012, 18:38
  2. Antworten: 41
    Letzter Beitrag: 09.07.2008, 21:13
  3. Antworten: 30
    Letzter Beitrag: 04.07.2008, 20:30
  4. [[Community-Review] Thermaltake V1 CPU-Kühler
    Von patrock84 im Forum Luftkühlung
    Antworten: 11
    Letzter Beitrag: 17.01.2008, 21:28
  5. ATI Tool Error
    Von Imens0 im Forum Overclocking: Grafikkarten
    Antworten: 5
    Letzter Beitrag: 24.09.2007, 18:12

Stichworte

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •