pfSense/OPNsense - MultiWAN - Backup GW stürzt ab || Update: Problem eingegrenzt

Speeedymauss

Software-Overclocker(in)
pfSense/OPNsense - MultiWAN - Backup GW stürzt ab || Update: Problem eingegrenzt

Hallo zusammen,
vlt. erreiche ich ja hier jemanden, der auch etwas mit pfSense/OPNsense und MuliWAN anfangen kann. Ich habe bei meiner Konfiguration ein sehr merkwürdiges Verhalten von meinem Backup-Gateway.

Zunächst der Aufbau:

Ich habe mehrere private LANs, die hängen an der pfSense (Standalone Server mit 6 NICs) und dahinter kommen zwei Netzwerke zu den beiden Routern (FB6490 Unitymedia 400/20 und FB7430 Telekom 50/10).

Ich habe beide Gateways in eine Gateway-Gruppe gepackt und das Unitymedia GW als Tier 1 und das Telekom GW als Tier 2 konfiguriert. Umgeschaltet wird, wenn ein GW als "Down" erkannt wird. Also wenn keine Internetverbindung mehr über ein GW möglich ist. Es wird kein Load-Balancing betrieben, nur eine reine Failover-Konfiguration.
Routing und FW Einstellungen sind kein Problem.

Das eigentliche Problem:
Wenn ich über die Leitung starken Traffic habe (Speedtest, Download einer großen Datei) dann stützt die Telekom Fritzbox ab. Es geht kein Traffic von der FW zu der Fritzbox und Trotzdem geht der Router in die Knie.
Ich habe das ganze dann auch mal andersrum konfiguriert (Unitymedia als Backup und Telekom Primär), da tritt das Phänomen nicht ein.

Ich habe die Konfiguration auch mit pfSense und OPNsense probiert, bei beiden das selbe. Ebenfalls auch, wenn ich nur das Unitymedia GW in der GW Gruppe habe und den Traffic über die GW Gruppe leiten lasse, also einem Szenario indem die FB der Telekom gar nichts machen sollte...

Wir haben bereits mit zwei Leuten gerätselt, warum das so sein könnte und wir haben keine Idee mehr. Hat hier vlt noch jemand eine?
 
Zuletzt bearbeitet:
AW: pfSense/OPNsense - MultiWAN - Backup GW stürzt ab

Ich bin inzwischen etwas weiter und wollte euch die neuen Erkenntnisse nicht vorenthalten.

Nach etwa 5 Tagen (teilweise zu zweit) und diversen Versuchen, Paketanalysen, Austausch von Soft und Hardware konnten wir das Problem eingrenzen:

Es liegt wohl tatsächlich an dem Switch an dem die Firewall und die Router angeschlossen sind. So wie es aussieht funktioniert die VLAN Konfiguration nicht so wie sie konfiguriert ist. Laut Konfig ist alles i.o. die Umsetzung passt aber nicht so ganz. Es kam so vor, dass scheinbar die Frames dupliziert worden sind und auch bei der Backup-Fritzbox gelandet sind. Bei hoher Last waren das sehr viele Frames die fälschlicher Weise bei der Telekom Fitzbox gelandet sind und nicht zuordbar waren. Dies hat wohl dazu geführt, dass die FB einfach überlastet war und sich abgeschaltet hat. Quasi ein ungewollter DDOS auf die Box :D

Jetzt muss ich erst mal herausfinden, warum der Switch nicht so arbeitet wie er soll. Da es sich dabei um einen Quanta LB4M handelt, ist das ganze nicht so einfach da es von diesem Gerät keine einheitliche Dokumentation gibt...

Aber das wollte ich soweit mal hier lassen und zumindest etwas Aufklären ;)
 
AW: pfSense/OPNsense - MultiWAN - Backup GW stürzt ab

Ich bin inzwischen etwas weiter und wollte euch die neuen Erkenntnisse nicht vorenthalten.
.
.
.


Jetzt muss ich erst mal herausfinden, warum der Switch nicht so arbeitet wie er soll. Da es sich dabei um einen Quanta LB4M handelt, ist das ganze nicht so einfach da es von diesem Gerät keine einheitliche Dokumentation gibt...

Aber das wollte ich soweit mal hier lassen und zumindest etwas Aufklären ;)

Könntest du mal die Config des Switches hier posten?
In der Regel sind die Configs aller Switches sehr gut zu lesen, vieleicht kann man dort einen Fehler entdecken.

BTW: Wenn du einen Switch zum Testen haben möchtest, hätte ggf. noch einen da zum verschenken. (20x 100mbit, 4x Gbit, wenn ich mich recht erinnere).
 
AW: pfSense/OPNsense - MultiWAN - Backup GW stürzt ab || Update: Problem eingegrenzt

Klar, ist zwar nicht mehr die ganz richtige vom Test aber das hier ist die aktuelle:

Code:
(Routing) #show running-config
!Current Configuration:
!
!System Description "FASTPATH Routing"
!System Software Version "5.13.12.14"
!System Up Time          "16 days 3 hrs 48 mins 8 secs"
!Additional Packages     FASTPATH QOS,FASTPATH Multicast
!Current SNTP Synchronized Time: Not Synchronized
!
network parms 10.0.0.2 255.255.255.0 10.0.0.1
vlan database
vlan 100-101,200-201,300
vlan name 100 "Unitymedia"
vlan name 101 "Telekom"
vlan name 200 "Datacenter"
vlan name 201 "DC_Management"
vlan name 300 "Home"
exit
ip ssh server enable
configure
!
ip domain list fritz.box,^▒
ip name server 192.168.178.1
ip routing
ip route 0.0.0.0 0.0.0.0 192.168.178.1


lineconfig
exit
spanning-tree configuration name "00-26-9E-1E-A5-12"
port-channel ESXi1
port-channel load-balance 6 3/1
port-channel ESXi2
port-channel load-balance 6 3/2
interface 0/18
addport 3/2
exit
interface 0/19
addport 3/2
exit
interface 0/20
addport 3/2
exit
port-channel FreeNAS
port-channel load-balance 6 3/3
interface 0/21
addport 3/3
exit
interface 0/22
addport 3/3
exit
interface 0/23
addport 3/3
exit
interface 0/24
addport 3/3
exit
interface 0/1
no shutdown
spanning-tree edgeport
vlan participation include 100
exit
interface 0/2
no shutdown
spanning-tree edgeport
vlan pvid 101
vlan participation include 101
exit
interface 0/7
vlan participation exclude 100
exit
interface 0/8
no shutdown
vlan pvid 100
vlan participation include 100
exit
interface 0/9
no shutdown
spanning-tree edgeport
vlan pvid 101
vlan participation include 101
exit
interface 0/10
no shutdown
spanning-tree edgeport
vlan pvid 200
vlan participation include 200
exit
interface 0/11
no shutdown
spanning-tree edgeport
vlan pvid 201
vlan participation include 201
exit
interface 0/12
no shutdown
spanning-tree edgeport
vlan pvid 300
vlan participation include 300
exit
interface 0/13
vlan pvid 200
vlan participation include 200
exit
interface 0/14
no shutdown
vlan pvid 200
vlan participation include 200
exit
interface 0/15
vlan pvid 200
vlan participation include 200
exit
interface 0/16
no shutdown
vlan pvid 300
vlan participation exclude 200
vlan participation include 300
exit
interface 0/17
no shutdown
vlan pvid 200
vlan participation include 100-101,200-201,300
vlan tagging 100,200-201
exit
interface 0/18
no shutdown
vlan pvid 200
vlan participation include 100,200-201
vlan tagging 100,200-201
lacp actor admin key 55
exit
interface 0/19
no shutdown
vlan pvid 200
vlan participation include 100,200-201
vlan tagging 100,200-201
lacp actor admin key 55
exit
interface 0/20
no shutdown
vlan pvid 200
vlan participation include 100,200-201
vlan tagging 100,200-201
lacp actor admin key 55
exit
interface 0/21
no shutdown
lacp actor admin key 56
exit
interface 0/22
no shutdown
lacp actor admin key 56
exit
interface 0/23
no shutdown
lacp actor admin key 56
exit
interface 0/24
no shutdown
lacp actor admin key 56
exit
interface 0/25
no shutdown
vlan pvid 101
vlan participation exclude 100,201,300
vlan participation include 101
exit
interface 0/26
no shutdown
vlan pvid 100
vlan participation exclude 101,201
vlan participation include 100
exit
interface 0/27
no shutdown
vlan participation exclude 201
exit
interface 0/28
no shutdown
vlan participation exclude 201
exit
interface 0/29
no shutdown
vlan pvid 201
vlan participation include 201
exit
interface 0/30
no shutdown
vlan pvid 201
vlan participation include 201
exit
interface 0/39
no shutdown
vlan pvid 100
vlan participation include 100
exit
interface 0/48
no shutdown
spanning-tree edgeport
vlan pvid 300
vlan participation include 300
exit
interface 3/1
no shutdown
vlan pvid 200
vlan participation include 200
lacp collector max-delay 0
exit
interface 3/2
no shutdown
vlan pvid 200
vlan participation include 100-101,200-201,300
lacp collector max-delay 0
exit
interface 3/3
no shutdown
vlan pvid 200
vlan participation include 100-101,200-201,300
lacp collector max-delay 0
exit
router rip
exit
router ospf
exit
exit

Die Unitymedia FB ist an Port 1 und die Telekom FB an Port 2

Portbelegung und VLANs:
LB4M Belegung.png

Es kann noch sein, dass da teilweise unvollständige Konfigurationen von anderen Tests zwischen sind...


Und danke fürs Angebot für den Switch, ich könnte mir aber auch selbst welche von der Arbeit (oder anderen Quellen) mitbringen zum testen :)
 
AW: pfSense/OPNsense - MultiWAN - Backup GW stürzt ab || Update: Problem eingegrenzt

Hallo,
ich habe mir mal die Config durchgelesen.
Kurz Vorab: Ich kann mich natürlich aufgrund des fremden Switches beim lesen der Config vertan haben, aber alles was ich geschrieben habe, habe ich nach besten gewissen gemacht.

Was mich etwas stutzig macht, ist das pfSense im Grunde das Netzwerk verwaltet, aber aufgaben vom Switch übernommen werden.

Code:
ip domain list fritz.box
ip name server 192.168.178.1
ip routing
ip route 0.0.0.0 0.0.0.0 192.168.178.1
Also ein Layer3 Switch wo das Routing aktiv ist.

Bitte, sofern der Switch nicht das Routing unter den VLANs übernehmen soll -> Deaktiveren.

Code:
spanning-tree configuration name "00-26-9E-1E-A5-12"
....
spanning-tree edgeport
SpannungTree wird nicht benötigt in der Konfiguration -> Bitte alles entfernen.
Laut Konfiguration ist es aktiv.

Code:
port-channel load-balance x x/x
Bitte das Load Balancing entfernen und beim ESXi die Netzwerkkonfiguration aktualisieren.

Load Balancing falsch konfiguriert kann so manch andere Dienste beeinflussen und stören.

Code:
lacp collector max-delay 0
Wird vermutlich durch die Load Balance Konfiguration mit geschrieben

Code:
router rip
exit
router ospf
exit
Hoffentlich steht das nur ohne Bedeutung in der Config.
Bitte einmal überprüfen ob davon was aktiv ist, wenn ja -> Deaktivieren.


Aufgrund deines Belegungsplanes, sehe ich den Umfang deines Netzwerkes.
Ich persönlich würde dir zu einem HP Switch raten.
Gerade für ESXi, kann man diesen auf aller einfachste Art und weiste konfigurieren das man Störungsfrei bleibt.


Für ESXi würde ich dir auch ein Port-Trunking empfehlen für eine höhere Netzwerkbandbreite.
 
Zuletzt bearbeitet:
AW: pfSense/OPNsense - MultiWAN - Backup GW stürzt ab || Update: Problem eingegrenzt

Prinzipiell hast du das meiste schon ganz richtig verstanden :D Ich geb mal noch meine Absichten zu den Funktionen dazu:

Das Routing ist noch aktiv, macht aber nichts, vor der Firewall wurde auf dem Switch geroutet weil ich mal ein L3 Image für den ausprobieren wollte.


Der ganze Spanning-Tree Kam ist von Anfang an als Default drauf. Wenn ich die Konfig komplett ausgegeben hätte, also das auch die Default-Werte der Konfig genannt werden, würde man sehen, dass da jede Menge STP drin ist, das alles rauszunehmen wäre quatsch, da STP im Betrieb halt auch nicht stört, außerdem sind ja noch mehr Switche im Netzwerk aktiv, könnte also auch gar nicht so unsinnig sein...


Portchannel ist bei dem Switch quasi die LACP Konfiguration. Man kann auf dem Switch nicht explizit LACP konfigurieren, das wird über diese Portchannel mit Load-Balancing geregelt (wenn man den vorhandenen Dokus und Forenbeiträgen glauben kann...) Daher ist das da weil ich zu den ESXi Hosts und dem Freenas LACP laufen lasse...beim FreeNAS geht das auch ohne Probleme, die ESXi sind da nicht so einfach mit. Das ist auch etwas was ich an dem Switch sehr bescheiden finde...von da kommt halt dann automatisch auch dies lacp collector Einstellung...


OSPF und RIP laufen standardmäßig, da das aber woanders nicht läuft sollte sich da nichts beeinflussen, habs nur nicht ausgestellt.




Ich würde halt schon gerne diesen Switch irgendwie wieder ans richtig ans Laufen bekommen, wäre halt schade drum wenn man den ausmustern muss. Falls ich es nicht hinbekommen sollte wird wahrscheinlich ein Cisco 3560G den Platz einnehmen. Ich mag die HPs nicht so sehr und bin selber mehr in der Cisco Welt unterwegs...ist halt persönliche Präferenz


Das mit dem Trunking habe ich auf dem Switch schon konfiguriert:
Code:
vlan participation include 100,200-201
vlan tagging 100,200-201
das ist die Art auf dem Switch mit der Firmware die Trunks zu konfigurieren...ist doof geschrieben. Den ersten ESXi gibts übrigens gar nicht mehr, der Plan ist nicht mehr der aktuellste...




Mal davon ab verstehe ich halt nicht, warum auf dem Port 0/2 der im VLAN 101 ist auch alle anderen Pakete dupliziert landen...das ist ja das Problem...
 
AW: pfSense/OPNsense - MultiWAN - Backup GW stürzt ab || Update: Problem eingegrenzt

Prinzipiell hast du das meiste schon ganz richtig verstanden :D Ich geb mal noch meine Absichten zu den Funktionen dazu:

Das Routing ist noch aktiv, macht aber nichts, vor der Firewall wurde auf dem Switch geroutet weil ich mal ein L3 Image für den ausprobieren wollte.


Der ganze Spanning-Tree Kam ist von Anfang an als Default drauf. Wenn ich die Konfig komplett ausgegeben hätte, also das auch die Default-Werte der Konfig genannt werden, würde man sehen, dass da jede Menge STP drin ist, das alles rauszunehmen wäre quatsch, da STP im Betrieb halt auch nicht stört, außerdem sind ja noch mehr Switche im Netzwerk aktiv, könnte also auch gar nicht so unsinnig sein...


Portchannel ist bei dem Switch quasi die LACP Konfiguration. Man kann auf dem Switch nicht explizit LACP konfigurieren, das wird über diese Portchannel mit Load-Balancing geregelt (wenn man den vorhandenen Dokus und Forenbeiträgen glauben kann...) Daher ist das da weil ich zu den ESXi Hosts und dem Freenas LACP laufen lasse...beim FreeNAS geht das auch ohne Probleme, die ESXi sind da nicht so einfach mit. Das ist auch etwas was ich an dem Switch sehr bescheiden finde...von da kommt halt dann automatisch auch dies lacp collector Einstellung...


OSPF und RIP laufen standardmäßig, da das aber woanders nicht läuft sollte sich da nichts beeinflussen, habs nur nicht ausgestellt.




Ich würde halt schon gerne diesen Switch irgendwie wieder ans richtig ans Laufen bekommen, wäre halt schade drum wenn man den ausmustern muss. Falls ich es nicht hinbekommen sollte wird wahrscheinlich ein Cisco 3560G den Platz einnehmen. Ich mag die HPs nicht so sehr und bin selber mehr in der Cisco Welt unterwegs...ist halt persönliche Präferenz


Das mit dem Trunking habe ich auf dem Switch schon konfiguriert:
Code:
vlan participation include 100,200-201
vlan tagging 100,200-201
das ist die Art auf dem Switch mit der Firmware die Trunks zu konfigurieren...ist doof geschrieben. Den ersten ESXi gibts übrigens gar nicht mehr, der Plan ist nicht mehr der aktuellste...




Mal davon ab verstehe ich halt nicht, warum auf dem Port 0/2 der im VLAN 101 ist auch alle anderen Pakete dupliziert landen...das ist ja das Problem...

Sorry wenn ich das mal so sage, aber schmeiße den Mist denn du nicht brauchst raus.
Fehlersuche geht nämlich etwas anders.
Alles raus, dann testen und stück für stück die Konfiguration wieder aufbauen und testen.
 
AW: pfSense/OPNsense - MultiWAN - Backup GW stürzt ab || Update: Problem eingegrenzt

Hi,

ich habe sowas ähnliches auch gerade zusammengebastelt. 2 Leitungen, 2 Fritzboxen, 2 OPNsense als HA-Cluster, dahinter dann ESX ähnliche Systeme und das Restnetzwerk.

Sehe ich das richtig das du die WAN und die LAN Seite alles auf dem einen Switch liegen hast?
Warum? Normalerweise trennt man das vom internen Netz schon aus Sicherheitsgründen. Ggf. verpasse den Firewalls ein paar Netzwerkkarten zusätzlich und schliese das direkt an.

Anbei mein Aufbau. Der trennt sauber WAN und LAN . Und es kein Switch mehr zwischen den Fritzboxen und den Firewalls den man mit irgendwas flooden könnte. Habe allerdings auch nie den Wunsch gehabt das mal unter Vollast zu testen.

Zur Config der OPNsense: Das ist nach einer Anleitung aus dem Forum und ein paar Blicken in die Doku zusammengebaut.
Am auffällgsten war, dass es kein als DEFAULT erklärtes Gateway gibt. Es läuft alles über Rules.

Grundaufbau.png

Gruß
Andreas
 
Zuletzt bearbeitet:
AW: pfSense/OPNsense - MultiWAN - Backup GW stürzt ab || Update: Problem eingegrenzt

Ja ich habe momentan alles auf einem Switch, weil ich in den Transfer-Netzen noch aktive Rechner habe. Ich bin gerade dabei das ganze System umzubauen. Ursprünglich wurden halt zwei Netze parallel betrieben die so aufgebaut waren und solange ich noch die Probleme mit der Firewall hatte, konnte ich noch keine Rechner oder Server umziehen. Der Aufbau ist noch nicht final sondern quasi ein Zwischenschritt. Da ich jetzt die ganze Zeit auf Fortbildungen bin kann ich da auch momentan nicht dran weiter machen.

Aber du hast schon recht, dass man LAN und WAN Trennen sollte. Wird auch noch passieren ;)
 
Zurück