News Crowdstrike-Desaster: Ein Eingabeparameter zu viel war schuld an den riesigen Ausfällen

PCGH-Redaktion

Kommentar-System
Teammitglied
Die Ursachenforschung nach dem "größten IT-Ausfall aller Zeiten" scheint abgeschlossen. Das Unternehmen Crowdstrike erklärt, wie es zum GAU kommen konnte: Ein einziger Eingabeparameter löste das weltweite Chaos aus.

Was sagt die PCGH-X-Community zu Crowdstrike-Desaster: Ein Eingabeparameter zu viel war schuld an den riesigen Ausfällen

Bitte beachten: Thema dieses Kommentar-Threads ist der Inhalt der Meldung. Kritik und allgemeine Fragen zu Online-Artikeln von PC Games Hardware werden hier gemäß der Forenregeln ohne Nachfrage entfernt, sie sind im Feedback-Thread besser aufgehoben.
 
Erinnert mich an den Civilization bug (Urban Legend) in dem man Gandhi, einem sehr friedvollen NPC mit der Aggressivität 0 so freundlich gekommen ist, dass es zu einem Integer overflow kam und er die Aggressivität 255 angenommen hat. Einfach vermeidbar und einfach nur schlecht.
 
Zuletzt bearbeitet:
tja...wer sich Schlangenöl aus dem Gardner Quadranten andrehen lässt, ist eh doomed.. kein Mitleid, außer die Admins die den Mist der CISO´s dieser Welt ausbügeln mussten. Lesson learned wird wohl auch ausfallen..
 
Variablen-Überlauf und ungeprüfter Roll-Out bei einem IT-Sicherheitsunternehmen?
Das finde ich ähnlich peinlich wie ein Flugzeugbauer, dem nicht verschraubte Teile vom Himmel fallen.
Grundsätzlich korrekt. Aber genau das zeigt, dass wir alle Menschen sind, die Fehler machen. Egal wie groß oder klein der Fehler sein mag, er kann folgenschwer sein.

Bei mir im Unternehmen hatte ich das vor ein paar Wochen ebenfalls. Eine Vertragsübersicht, die Unternehmensweit alle Fachbereiche betrifft, lief nicht mehr richtig. Entsprechend konnten die Bereiche rund 6 Stunden nicht mehr arbeiten. Der Fehler war, dass wir lediglich auf einer Testumgebung - wie sonst auch - getestet haben. Eine Umgebung, die bei 99 % der Fälle
ausreichend ist, aber für den Fall damals eben nicht. Nun testen wir - auch wenn dies nicht gewünscht wird - immer auf einer Produktionskopie, wenn es diese Vertragsübersicht betrifft.

Ich hab mich damals richtig scheiße gefühlt, weil ich das fachlich freigeben habe - das ganze ging auch entsprechend bis zum Vorstand, der "not amused" war. Ich möchte nicht wissen, wie sich die Personen bei Crowdstrike gefühlt haben müssen, wenn auf einmal weltweit solche Probleme entstehen.
 
Alleine der Overflow beim Array-Zugriff ohne entsprechendes Fehlerhandling bzw. Längenprüfung sowie in den Unit Tests nur den positiven Fall abzudecken, ist ja schon peinlich genug, aber die Channel Files mit einem Regex inkl. Wildcards einzulesen, statt einen vernünftigen Parser zu schreiben, setzt dem Ganzen noch die Krone auf. Außerdem sind wohl automatisierte Integration Tests und Staged Rollouts für CrowdStrike Fremdwörter.

Wie kann man bitte bei einem Boot-Treiber im Kernel so dermaßen nachlässig entwickeln? Zumal es ja nicht der erste solche Vorfall war. Vor einigen Monaten gab es mit Probleme mit der Linux-Version von CrowdStrike, die bei einigen Distributionen auch den Kernel weggeschossen hat. Sicher, anderes Entwickler-Team, aber bei gescheiter Kommunikation und verantwortungsvollen POs, sollte man eigentlich davon ausgehen, dass nach solchen Problemen auch die verwandten Produkte auf entsprechende Fehler überprüft werden.
 
Zurück