Seite 1 von 2 12
  1. #1

    Mitglied seit
    02.08.2014
    Beiträge
    12

    Ausrufezeichen ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.

    Moin! Bin durch die Faltwoche mal wieder motiviert worden, und falte nun seit einem Tag!

    Lasse auf zwei Rechnern falten. Eine Windows Kiste (CPU+GPU) und ein Linux Rechner (CPU only).

    Bei Windows läuft alles glatt.

    Habe beim Falten auf meinem Linux Rechner aber bereits 9x Probleme der folgenden Art bekommen (und das innerhalb von weniger als 24 Stunden):

    Code:
    05:30:39:WU00:FS00:0xa7:ERROR:-------------------------------------------------------05:30:39:WU00:FS00:0xa7:ERROR:Program GROMACS, VERSION 5.0.4-20161122-4846b12ba-unknown
    05:30:39:WU00:FS00:0xa7:ERROR:Source code file: /host/debian-stable-64bit-core-a7-sse-release/gromacs-core/build/gromacs/src/gromacs/mdlib/pme.c, line: 754
    05:30:39:WU00:FS00:0xa7:ERROR:
    05:30:39:WU00:FS00:0xa7:ERROR:Fatal error:
    05:30:39:WU00:FS00:0xa7:ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.
    05:30:39:WU00:FS00:0xa7:ERROR:This usually means that your system is not well equilibrated.
    05:30:39:WU00:FS00:0xa7:ERROR:For more information and tips for troubleshooting, please check the GROMACS
    05:30:39:WU00:FS00:0xa7:ERROR:website at http://www.gromacs.org/Documentation/Errors
    05:30:39:WU00:FS00:0xa7:ERROR:-------------------------------------------------------
    05:30:44:WU00:FS00:FahCore returned: INTERRUPTED (102 = 0x66)
    05:30:44:WU00:FS00:Starting
    05:30:44:WU00:FS00:Removing old file './work/00/logfile_01-20190922-201147.txt'
    05:30:44:WU00:FS00:Running FahCore: /usr/bin/FAHCoreWrapper /var/lib/fahclient/cores/cores.foldingathome.org/Linux/AMD64/Core_a7.fah/FahCore_a7 -dir 00 -suffix 01 -version 705 -lifeline 1207 -checkpoint 15 -np 8
    05:30:44:WU00:FS00:Started FahCore on PID 1804
    05:30:44:WU00:FS00:Core PID:1808
    05:30:44:WU00:FS00:FahCore 0xa7 started
    05:30:45:WU00:FS00:0xa7:*********************** Log Started 2019-09-23T05:30:44Z ***********************
    Die Variationen in den Error Meldungen liegen hier:
    ERROR:<ZAHL> particles communicated to PME rank <ZAHL> are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.

    System:


    • CPU: Intel Xeon E3-1260L v5, 4x 2.90GHz
    • Mainboard: ASRock Rack E3C236D4U
    • RAM: 4x 16 GB ECC DDR4 (Chips: Micron 18ASF2G72AZ-2G3B1)
    • alles @stock
    • Host: Proxmox 6 (5.0.21-1-pve #1 SMP PVE 5.0.21-2 (Wed, 28 Aug 2019 15:12:18 +0200) x86_64 GNU/Linux)
    • VM: Ubuntu 18.04.3 LTS (4.15.0-64-generic #73-Ubuntu SMP Thu Sep 12 13:16:13 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux)


    Anbei Logs (im fah_logs.zip):
    • /var/lib/fahclient/log.txt
    • /var/lib/fahclient/logs/log-20190923-015403.txt


    Außerdem kam es einmal zu Folgender Situation (/var/lib/fahclient/logs/log-20190923-015403.txt):

    Code:
    01:30:46:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast01:32:15:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
    01:33:19:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
    01:33:26:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
    01:35:45:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
    01:36:06:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
    01:37:46:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
    01:37:49:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
    01:39:47:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
    01:39:59:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
    01:40:11:WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
    01:40:32:WARNING:WU00:FS00:FahCore returned: WU_STALLED (127 = 0x7f)
    01:40:32:WU00:FS00:Starting
    01:40:32:WU00:FS00:Removing old file './work/00/logfile_01-20190922-185734.txt'
    01:40:32:WU00:FS00:Running FahCore: /usr/bin/FAHCoreWrapper /var/lib/fahclient/cores/cores.foldingathome.org/Linux/AMD64/Core_a7.fah/FahCore_a7 -dir 00 -suffix 01 -version 705 -lifeline 1787 -checkpoint 15 -np 8
    01:40:32:WU00:FS00:Started FahCore on PID 2902
    01:40:32:WU00:FS00:Core PID:2906
    01:40:32:WU00:FS00:FahCore 0xa7 started
    01:40:33:WU00:FS00:0xa7:*********************** Log Started 2019-09-23T01:40:32Z ***********************

    Letzteres (
    exception: std::bad_cast) ist wohl ein Programmierfehler im FahCore?

    Ersteres - habt ihr so etwas schon mal bei euch gesehen? Insb. bei Linux?

    Grüße aus der Oktoberfest Hauptstadt!

    edit: Code Stellen mit Tags versehen
    Angehängte Dateien Angehängte Dateien

    • Bitte einloggen, um diese Anzeige auszublenden.
  2. #2
    Avatar von binär-11110110111
    Mitglied seit
    17.10.2009
    Liest
    PCGH.de & Heft (Abo)
    Ort
    Xanten
    Beiträge
    899

    AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.

    Ein sehr komplexer GROMACS-Fehler, ist zumindest mir völlig neu.

    Unabhängig davon, ist Python installiert ?
    Ggf. Übertaktungen rausnehmen.
    Client neu installieren.

    Abwarten, was die anderen schreiben...

  3. #3
    Avatar von nonamez78
    Mitglied seit
    23.12.2015
    Liest
    PCGH.de (Abo) & Heft (Abo)
    Beiträge
    625

    AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.

    WU00:FS00:0xa7:ERROR:std::exception: std::bad_cast
    Zitat Zitat von cyril15 Beitrag anzeigen
    Letzteres (exception: std::bad_cast) ist wohl ein Programmierfehler im FahCore?
    Sehe ich nicht zwangsweise so. Ein bad cast ist letztlich ein unerwartetes/unplausibles Ergebnis, welches z.B. mittels einer Assertion abgefangen wurde. C++ ist nicht interpretiert, ohne extra Fehlerbehandlung crasht die Runtime, oder macht undefiniert weiter. Die Meldung hat also irgendwer bewusst eingebaut. Damit sollte der FAHClient sogar in einer Art Debug Modus laufen, oder aber ein Coder hat die Assertions global aktiviert (was kein Beinbruch wäre, im Normfall wäre die Ausgabe einfach stumm).

    Ein unerwartetes Ergebnis kann aber vieles sein, u.A. Speicherfehler, eine falsche Berechnung durch Übertaktung, oder Temperatur Probleme, natürlich aber auch einen Programmierfehler.

    Sagt der Kernel Log was genaueres? (dmesg)

    user@keymap:us-us, no umlauts anywhere ^^

  4. #4
    Avatar von Bumblebee
    Mitglied seit
    04.09.2007
    Ort
    wo die Touristen gerne wohnen
    Beiträge
    11.235

    AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.

    Kann ich leider gar nix mit anfangen - sorry

    Core i7 2600K @ 4500MHz/ @ WaKü // ASUS P8P67-M Pro 4GB Corsair PC-3 667MHz @ 800 // 2x GTX 560Ti @ 900/1000/1800
    Server I 2 x Xeon X5675 @ 3340 MHz @WaKü / EVGA SR2 /II\ Server II 2 x Opteron 6272 @2100 MHz@LuKü / ASUS KGPE-D16


  5. #5

    Mitglied seit
    02.08.2014
    Beiträge
    12

    AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.

    Zitat Zitat von binär-11110110111 Beitrag anzeigen
    Unabhängig davon, ist Python installiert ?
    Ggf. Übertaktungen rausnehmen.
    Client neu installieren.
    Ja, kam wohl mit Ubuntu 18 oder dem FAH client:

    python3 --version
    Python 3.6.8


    System ist nicht übertaktet. Lief als Webserver und für Plex ansonsten bisher seit knapp 3 Jahren einwandfrei, allerdings keine 24/7 Last.

    Habe FAH installiert über:

    wget https://download.foldingathome.org/r....5.1_amd64.deb
    sudo dpkg -i fahclient_7.5.1_amd64.deb

    edit: Könnte die VM zurücksetzen und noch mal neu installieren. Aber ich warte mal ab, ob sich der Fehler die kommenden Tage hält.
    Geändert von cyril15 (23.09.2019 um 21:24 Uhr) Grund: Anmerkung hinten hinzugefügt

  6. #6

    Mitglied seit
    02.08.2014
    Beiträge
    12

    AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.

    Zitat Zitat von nonamez78 Beitrag anzeigen
    Ein unerwartetes Ergebnis kann aber vieles sein, u.A. Speicherfehler, eine falsche Berechnung durch Übertaktung, oder Temperatur Probleme, natürlich aber auch einen Programmierfehler.

    Sagt der Kernel Log was genaueres? (dmesg)
    Gestern Abend gab es etwas interessantes in /var/log/syslog:

    Code:
    Sep 22 18:57:33 ubuntufolding systemd[1]: Starting Daily apt download activities...
    Sep 22 18:57:34 ubuntufolding systemd-resolved[958]: Server returned error NXDOMAIN, mitigating potential DNS violation DVE-2018-0001, retrying transaction with reduced feature level UDP.
    Sep 22 18:57:40 ubuntufolding systemd[1]: Started Daily apt download activities.
    Sep 22 19:17:01 ubuntufolding CRON[2275]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
    Sep 22 19:33:01 ubuntufolding CRON[2283]: (root) CMD (   test -x /etc/cron.daily/popularity-contest && /etc/cron.daily/popularity-contest --crond)
    Sep 22 19:57:44 ubuntufolding kernel: [ 7148.285499] show_signal_msg: 9 callbacks suppressed
    Sep 22 19:57:44 ubuntufolding kernel: [ 7148.285503] FahCore_a7[2315]: segfault at 7f47ac454330 ip 00005561266f2fa6 sp 00007f49ca15d160 error 4
    Sep 22 20:03:31 ubuntufolding kernel: [ 7495.684175] FahCore_a7[2417]: segfault at 7f3c54454380 ip 0000558e57ce1fa6 sp 00007f3e78a97160 error 4 in FahCore_a7[558e579b0000+10fa000]
    Sep 22 20:13:07 ubuntufolding kernel: [ 8071.606216] FahCore_a7[2546]: segfault at 7f0c2c454330 ip 000055712b6fafa6 sp 00007f0e3e7fa160 error 4 in FahCore_a7[55712b3c9000+10fa000]
    Sep 22 20:14:57 ubuntufolding kernel: [ 8181.708253] FahCore_a7[2578]: segfault at 7f3f90454310 ip 00005614bb172fa6 sp 00007f41a0b6e160 error 4
    Sep 22 20:17:01 ubuntufolding CRON[2618]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
    Sep 22 20:23:07 ubuntufolding kernel: [ 8670.854343] FahCore_a7[2690]: segfault at 55b3d2bbd670 ip 000055b5cfd48fa6 sp 00007fff0dc335f0 error 4
    Sep 22 20:55:43 ubuntufolding kernel: [10627.057394] hrtimer: interrupt took 12731420 ns
    Sep 22 21:17:01 ubuntufolding CRON[2760]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
    Sonst aber zu den Zeiten der Fehlermeldungen des FAH Clients keine Meldungen im Log.

  7. #7
    Avatar von nonamez78
    Mitglied seit
    23.12.2015
    Liest
    PCGH.de (Abo) & Heft (Abo)
    Beiträge
    625

    AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.

    Naja ein segfault ist ein 1a crash der Runtime, error 4 ist ein Speicherzugriffsfehler (es wird aus dem Userspace auf etwas versucht zuzugreifen, was nicht existiert). Letzteres kann auch die Meldung im Log sein, allerdings ist ein Segfault normaler weise das Ende einer Runtime, viel "Zeit" zum loggen bekommt sie dann nicht mehr (ggf. kann ein anderer Thread noch schnell was machen, aber auch das ist dann Zufall).
    Stutzig macht mich auch der hrtimer. Dass es mal ein "bisschen" dauert, bis alle Soft Interrupts durch sind "ok", aber 12731420 ns sind schlappe 12 Sekunden. Das ist meiner Meinung nach doch ein bisschen viel. Die "Maschine" (ich las da was von VM) scheint deutlich am Limit zu fahren. Am swappen ist da in dem Moment aber nix, oder?

    user@keymap:us-us, no umlauts anywhere ^^

  8. #8

    Mitglied seit
    02.08.2014
    Beiträge
    12

    AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.

    [QUOTE=binär-11110110111;10029749]
    Client neu installieren./QUOTE]

    Würde mich wundern. Ist ganz neu aufgesetzt, die VM. Die .bash_history sagt:

    Code:
    sudo apt-get update && sudo apt-get dist-upgrade && sudo apt-get autoremove
    sudo reboot
    sudo apt-get install qemu-guest-agent
    sudo ufw status
    sudo ufw allow 22/tcp
    sudo ufw enable
    sudo ufw allow 80/tcp
    sudo ufw allow 443/tcp
    sudo ufw status
    sudo reboot
    logout
    htop
    cd ~
    mkdir fah
    cd fah
    wget https://download.foldingathome.org/r....5.1_amd64.deb
    wget https://download.foldingathome.org/r....5.1-1_all.deb
    wget https://download.foldingathome.org/r....5.1_amd64.deb
    rm fahcontrol_7.5.1-1_all.deb
    sudo dpkg -i fahclient_7.5.1_amd64.deb
    htop
    ls -la
    rm fahviewer_7.5.1_amd64.deb 
    htop
    logout
    htop
    cd /var/lib/fahclient/
    ls -la
    nano log.txt 
    lsb_release 
    lsb_release -a
    uname -r
    uname -a
    logout
    Da der Fehler weiterhin dauerhaft besteht und seit heute Vormittag 10 Uhr nun schon weitere 10 mal auftrat (siehe neues Log anbei), versuche ich irgendetwas zu ändern:

    Proxmox kann der VM bei der Virtualisierung entweder die Default (kvm64) CPU weitergeben, oder die Original-Infos der Host CPU. Ich probiere nun letzteres.

    Die Proxmox Doku sagt dazu:

    In short, if you care about live migration and moving VMs between nodes, leave the kvm64 default. If you don’t care about live migration or have a homogeneous cluster where all nodes have the same CPU, set the CPU type to host, as in theory this will give your guests maximum performance.
    Ich melde mich ob es was bringt.
    Angehängte Dateien Angehängte Dateien

  9. #9

    Mitglied seit
    02.08.2014
    Beiträge
    12

    AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.

    Zitat Zitat von nonamez78 Beitrag anzeigen
    oder Temperatur Probleme
    Das sind die Werte vom Host, ausgelesen über sensors (aus dem Paket lm-sensors), nach einem Tag Folding@Home Dauerlast:

    Code:
    coretemp-isa-0000
    Adapter: ISA adapter
    Package id 0:  +63.0°C  (high = +84.0°C, crit = +100.0°C)
    Core 0:        +61.0°C  (high = +84.0°C, crit = +100.0°C)
    Core 1:        +62.0°C  (high = +84.0°C, crit = +100.0°C)
    Core 2:        +60.0°C  (high = +84.0°C, crit = +100.0°C)
    Core 3:        +63.0°C  (high = +84.0°C, crit = +100.0°C)
    
    
    acpitz-acpi-0
    Adapter: ACPI interface
    temp1:        +27.8°C  (crit = +119.0°C)
    temp2:        +29.8°C  (crit = +119.0°C)
    
    
    power_meter-acpi-0
    Adapter: ACPI interface
    power1:        4.29 MW (interval = 4294967.29 s)
    
    
    pch_skylake-virtual-0
    Adapter: Virtual device
    temp1:        +57.5°C


    • Bitte einloggen, um diese Anzeige auszublenden.
  10. #10

    Mitglied seit
    02.08.2014
    Beiträge
    12

    AW: ERROR:857 particles communicated to PME rank 3 are more than 2/3 times the cut-off out of the domain decomposition cell of their charge group in dimension x.

    Zitat Zitat von nonamez78 Beitrag anzeigen
    Naja ein segfault ist ein 1a crash der Runtime, error 4 ist ein Speicherzugriffsfehler (es wird aus dem Userspace auf etwas versucht zuzugreifen, was nicht existiert). Letzteres kann auch die Meldung im Log sein, allerdings ist ein Segfault normaler weise das Ende einer Runtime, viel "Zeit" zum loggen bekommt sie dann nicht mehr (ggf. kann ein anderer Thread noch schnell was machen, aber auch das ist dann Zufall).
    Stutzig macht mich auch der hrtimer. Dass es mal ein "bisschen" dauert, bis alle Soft Interrupts durch sind "ok", aber 12731420 ns sind schlappe 12 Sekunden. Das ist meiner Meinung nach doch ein bisschen viel. Die "Maschine" (ich las da was von VM) scheint deutlich am Limit zu fahren. Am swappen ist da in dem Moment aber nix, oder?

    • Habe die VM mit 2 GiB min. und 16 GiB ballooning RAM definiert.
    • Momentan braucht sie eigentlich nur 536 MB.
    • Nein, die VM hat genug RAM, es ist nichts am Swappen, auch am Host nicht (der hatte bisher 34 GB frei, würde die VM alles nutzen wären noch ca. 18,5 GB frei).
    • Danke für deinen Tipp. Werde sie einfach mal auf fest zugewiesenen 16 GiB RAM laufen lassen (ballooning deaktivieren).


    Die VM läuft - wie bei FAH üblich - mit Last auf allen Kernen. Ansonsten würde sich der Host normalerweise langweilen. Anbei 2 Screenshots, die die Auslastung des Hosts zeigen.

    Klicken Sie auf die Grafik für eine größere Ansicht 

Name:	nixstats.png 
Hits:	12 
Größe:	155,3 KB 
ID:	1060072 Klicken Sie auf die Grafik für eine größere Ansicht 

Name:	VMstopped.png 
Hits:	9 
Größe:	87,1 KB 
ID:	1060073

Seite 1 von 2 12

Ähnliche Themen

  1. Antworten: 6
    Letzter Beitrag: 12.02.2012, 18:38
  2. Antworten: 41
    Letzter Beitrag: 09.07.2008, 21:13
  3. Antworten: 30
    Letzter Beitrag: 04.07.2008, 20:30
  4. [[Community-Review] Thermaltake V1 CPU-Kühler
    Von patrock84 im Forum Luftkühlung
    Antworten: 11
    Letzter Beitrag: 17.01.2008, 21:28
  5. ATI Tool Error
    Von Imens0 im Forum Overclocking: Grafikkarten
    Antworten: 5
    Letzter Beitrag: 24.09.2007, 18:12

Stichworte

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •