AW: Telekom hat Deutschlandweit Probleme mit Fest- und Mobilnetzt
Sowas kann immer mal passieren. Cisco hatte mal ein nicht so ganz gelungenes Update freigegeben. Hat weltweit zu Problemen geführt. Man steckt nicht drinne. Was ich selbst mal miterlebt habe: Ein Loadbalancer verteilt den Traffic auf rund 100 Webserver. Ist natürlich ein Single Point of Failure. Darum lieber absichern. Die High Availability Lösung hieß: Zwei von den Dingern dahinstellen, über eine dedizierte Leitung direkt verbinden. Sobald das aktive Gerät über diese Leitung kein Heartbeat mehr gibt, übernimmt der zweite. Was passiert? Nr. 1 loadbalanced nicht mehr, gibt aber trotzdem noch einen Heartbeat raus. Ein Admin ist schnell dahin gerannt (!), hat das Heartbeatkabel rausgerissen, schon übernahm der zweite. Cisco und Konsorten stellen sich zwar immer als "HighTech", "Leading" usw. dar, aber man denkt doch immer wieder mal "Einmal mit Profis". Dazu kommt der Faktor Mensch: ein Core-Router (kann irgendeine Kiste sein, muss nicht mal so besonders teuer sein, steht aber an einer entscheidenden Stelle Deines Netzwerks) hatte bei uns redundante Netzteil. Fällt eins aus, reicht das zweite auch noch. Bei einem kleinen, nicht vollständigen Stromausfall im Rechenzentrum haben wir festgestellt: es ist nicht so extrem sinnvoll, wenn beide Netzteile an Leitungen hängen, die auf der selben Sicherung hängen. Und schon war ein Zweig unseres Netzwerkes erstmal tot.
Du kannst machen, was Du willst, Du kannst planen was Du willst, Du kannst Dir ohne Ende externe Spezialisten reinholen, die Deinen Kram analysieren. Die schönsten Böcke findest Du nur, wenn die Kacke am Dampfen ist.