Betroffene Services:

  • Reseller-Cluster

Cluster04 offline - Kurzschluss in zuständiger USV

Beginn Wednesday 20th November 2019, zuletzt aktualisiert

Monitoring — So eben hat der Wiederherstellungsprozess der betroffenen Datenbanken die 50% Fertigstellung erreicht. Die hälfte der betroffenen Datenbanken stehen somit wieder bereit und sind in Funktion.

Posted

Identified — Leider hat sich unsere Vermutung bestätigt. Durch die große Anzahl an beschädigten Raids sind ca. 35% aller MySql Datenbanken irreparabel beschädigt. Wir haben so eben die Wiederherstellung der betroffenen Datenbanken mit dem Backup vom 19.11.2019 gestartet. Aufgrund der großen Datenmenge wird die Wiederherstellung leider einige Zeit benötigen.

Posted

Identified — Der Cluster ist wieder hochgefahren. Leider haben zwei Raid-Controller und einige daran angeschlossene SSDs der MySql Server durch den Kurzschluss einen Überspannungsschaden erlitten. Alle anderen Dienste des Clusters sind wieder erreichbar, es ist nur noch MySql gestört. Wir sind bereits dabei die defekten Bauteile zu tauschen. Da mehrere Raids im SQL-Cluster betroffen sind gehen wir derzeit davon aus das wir nach der Hardware-Reparatur leider die letzten Backups der SQL Server einspielen müssen. Genaues können wir aber erst sagen, wenn die Reparatur abgeschlossen und die betroffenen SQL Systeme wieder hochgefahren sind.

Posted

Monitoring — Die defekte USV Anlage wurde nun vom Elektriker ausgetauscht und die Stromversorgung wieder aktiviert. Wir werden nun die einzelnen Teile vom Cluster04 nach und nach wieder hochfahren. Aufgrund des harten Ausfalls werden die Speicher-Server allerdings eine Dateisystemprüfung durchführen, was den Startvorgang verzögern wird. Im Regelfall benötigt eine solche Dateisystemprüfung ca. 60 Minuten. Sollte der Cluster04 durch den Kurzschluss im Stromnetz keinen Hardwareschaden erlitten haben, dann gehen wir davon aus das die Systeme in der nächsten Stunde wieder erreichbar sein werden. Genaues können wir aber erst sagen, wenn alle Serverteile gestartet und getestet sind.

Posted

Investigating — Die USV Anlage, welche den Serverbereich des Cluster04 versorgte, hatte einen massiven Kurzschluss durch einen Geräte-Defekt innerhalb der USV verursacht. Durch den Kurzschluss war eine automatisierte Umschaltung auf die Redundanz-USV nicht möglich. Der Elektriker ist bereits vor Ort und klemmt die defekte USV aus dem Verbund heraus und wird anschließend die Stromversorgung wieder starten.

Posted