Betroffene Services:

  • Netzwerk
  • Routing

Störung Router 1, 2 und 9 im Rechenzentrum Frankfurt

Beginn Wednesday 4th September 2019, zuletzt aktualisiert

Resolved — Das Problem wurde vollständig behoben. Es sind alle Core-Router vom Datacenter wieder online und damit die Störung behoben. Die Firmware hatte einen Bug innerhalb der Redundanzfunktion. Dies führte dazu das die Router Pakete fehlerhaft transportiert hatten, was dann wiederum nach und nach zu einem Totalausfall führte. Auslöser von dieser Kettenreaktion war ein Hardwaredefekt eines Routers, der ebenfalls inzwischen ausgetauscht wurde. Die Router sind aber über eine Redundanzschaltung vekettet, die im Falle eines Router-Schadens dafür sorgen soll das der Ersatzrouter automatisch die Arbeit übernimmt. Da aber genau in dieser Funktion ein Firmware-Bug enthalten war, übernahm der Ersatzrouter nicht vollständig und viel auch aus. Da alle Router miteinander verknüpft sind, fielen nach und nach alle Router in diesen Firmware-Bug und waren dann nicht mehr erreichbar. Die Lösung hat mehr Zeit benötigt, da der Router-Hersteller hierzu erst den Bug finden und ein entsprechendes Update bereit stellen musste. Nach der Installation der Firmware wurde die Redundanzfunktion geprüft, diese funktioniert wieder fehlerfrei.

Posted

Investigating — Das Firmware-Update war erfolgreich. Die erste Hälfte vom Netzwerk ist bereits wieder erreichbar. Derzeit werden die weiteren Router nach und nach gestartet, so dass der restliche Netzwerkbereich auch nach und nach wieder erreichbar wird. Sobald alles wieder erreichbar ist, wird der Datacenterbetreiber zusammen mit dem Router-Hersteller eine ausführliche Analyse durchführen.

Posted

Investigating — Der Router-Hersteller konnte einen Bug finden, der zu größeren Routing-Fehlern führt wenn die Redundanzschaltung aktiv ist. Es werden derzeit alle Router heruntergefahren, anschließend nach und nach eine neue vom Hersteller angepasste Firmware eingespielt und anschließend die Router nach und nach wieder im Netzwerk hochgefahren. Auch jetzt lässt sich noch keine Entstörzeit einschätzen, da dass Ergebnis dieses Firmware-Wechsels unbekannt ist.

Posted

Investigating — Das Problem scheint größer als zuerst erwartet. Auch im Router 4, 5 und 6 wurden Probleme gefunden. Die Ursache scheint ein Firmware-Bug innerhalb der Router zu sein. Der Datacenter-Betreiber steht nun im Kontakt mit den Herstellern der Core-Router und arbeitet nun mit diesem Zusammen an einer Lösung. Eine genaue Entstörzeit kann derzeit leider noch nicht genannt werden.

Posted

Investigating — Aktuell liegt eine Störung am Router 1, 2 und 9 im Rechenzentrum Frankfurt vor. Der Datacenter-Betreiber arbeitet bereits mit Hochdruck an dem Problem und rechnen damit, das dieses in der nächsten Stunde behoben ist.

Posted