Betroffene Services:

  • XEN VPS

Störung Hostsystem v6

Beginn Tuesday 25th June 2019, zuletzt aktualisiert

Resolved — Wir konnten inzwischen alle betroffenen HDDs tauschen und damit die I/O Leistung des Systems wiederherstellen. Da nun aber noch der SSD Cache Rebuild fertig durchlaufen muss, ist die I/O Performance noch nicht auf voller Leistung, aber bereits bei rund 80% und damit für einen normalen Betrieb wieder mehr als ausreichend. Der Cache Rebuild läuft nun im Hintergrund weiter durch. Mit jedem fertigen Prozent vom Rebuild steigt die I/O Performance weiter. Wir gehen davon aus das die volle Performance in kürze wieder zur Verfügung stehen wird.

Posted

Investigating — Leider ist der Rebuild vom Cache bei knapp 87% mit einem Timeout abgebrochen. Obwohl die anderen Festplatten relativ neu sind, es sich um unterschiedliche Enterprise-Platten verschiedener Hersteller handelt, haben die Platten durch den Cache-Schaden scheinbar auch einen Fehler bekommen. SMART-Tests liefern keinerlei Festplattenfehler zurück. Dennoch liefern einige Festplatten jetzt nur noch einen Throughput von knapp 4 MB/s. Bei Beginn des Rebuilds lagen diese Festplatten noch erheblich höher bei normalen Werten. Wir sind daher aktuell dabei die HDDs nacheinander zu tauschen. Leider ist pro HDD ein Raid-Rebuild Prozess von 10 Stunden vorgesehen, da die Quell-Festplatten so langsam sind. Wir tauschen immer die HDDs mit der schlechtesten Throughput Performance als erstes.

Posted

Monitoring — Beim Neuaufbau des zweiten Cache-Teils meldete der Raid-Controller an zwei Festplatten SMART Fehler. Diese sind zwar noch nicht kritisch, dennoch werden wir auch diese beiden Festplatten nun direkt mit tauschen. Ein späterer Tausch hätte nur eine erneute Cache-Neubildung zur Folge. Da der Cache Neuaufbau gerade mal 4% erreicht hat, nehmen wir den Tausch direkt vor. Warum gleichzeitig so viele SSDs und nun auch zwei HDDs einen Defekt hatten, konnten wir nicht nachvollziehen. Vor allem handelt es sich um unterschiedliche SSDs von zwei unterschiedlichen Herstellern.

Posted

Monitoring — Wir haben inzwischen alle Cache SSDs getauscht und die erste Hälfte vom Cache neu aufgebaut. Nun muss sich allerdings noch der zweite Teil vom Cache neu aufbauen. Insgesamt ist die Disk I/O Last bereits etwas abgesunken, aber durch den Cache Neuaufbau noch immer sehr hoch. Bitte führen Sie keine unnötigen Neustarts Ihrer virtuellen Server durch. Ein Neustart benötigt durch den hohen I/O Wait eine sehr lange Zeit und die Performance wird dadurch nicht verbessert.

Posted

Investigating — Bisher gab es keine Besserung der I/O Wait. Wir arbeiten weiterhin mit Hochdruck daran, die Festplatten auszutauschen.

Posted

Identified — Aktuell besteht bei Hostsystem v6 ein Problem mit dem SSD Cache. Wir lassen den SSD Cache aktuell tauschen. Aufgrund des defekten Caches ist aktuell der Systemload des Nodes sehr hoch.

Posted

Investigating — Aktuell ist der I/O Wait auf dem Hostsystem v6 extrem hoch, was vermutlich auf ein defekten SSD Cache Device zurückzuführen ist. Unsere Techniker werden in Kürze die defekten SSDs tauschen.

Posted