Informationen zum teilweisen Ausfall vom 6. Mai 2024
  • 16 May 2024
  • 5 Minutes to read
  • Contributors
  • Dark
    Light

Informationen zum teilweisen Ausfall vom 6. Mai 2024

  • Dark
    Light

Article summary

Laufende Aktualisierung

Dieser Artikel behandelt ein aktuelles Thema und wir laufend aktualisiert.
Weitere Informationen finden Sie auf der Statusseite
Letztes Update 2024-05-16 15:17 Uhr

Was ist passiert?

Am Samstag, 04. Mai 2024 wechselte eine Mailbox Datenbank unseres Hosted Exchange Services in den Status "Degraded". Sofort haben wir eine Evakuierung der betreffenden Mailboxen eingeleitet. Aufgrund der hohen Datenmengen dauert dieser Prozess aber mehrere Tage.

Am Montagabend wurde die betroffene Datenbank "dismounted" und konnte nicht mehr online gebracht werden, da sie sich im Status "Dirty Shutdown" befindet. Betroffene Mailboxen können keine Verbindung mehr zu Exchange aufbauen und somit keine E-Mails senden oder empfangen.

Wie viele Postfächer sind betroffen?

Initial waren ca. 10% der Exchange Konten betroffen.

Wie haben wir reagiert?

Als die Alarmierung für die fehlerhafte Datenbank am Samstag angeschlagen hat, haben wir sofort damit begonnen die betroffenen Mailboxen auf eine andere Datenbank umzuziehen. Dieser Prozess geht normalerweise problemlos voran, leider wurde die betroffene Datenbank am Montag unerwartet gestoppt.
Unser Engineering Team arbeitet seither Non-Stop an der Lösung des Problems. Mehrere Resets und das Rückspielen der Transaction Logs der betroffenen DB haben bedauerlicherweise keinen Erfolg gebracht. Parallel dazu versuchen wir mittels einer Dial Tone Recovery die betroffenen Mailboxen wieder online zu bringen. Ebenso wurde ein Prio A Case bei Microsoft eröffnet.

Was sind die Auswirkungen auf betroffene Postfächer?

Betroffene Postfächer können sich nicht mit Exchange verbinden und deshalb keine E-Mails senden & empfangen. Aktuell wird eine sogenannte Dial Tone Recovery durchgeführt, dabei kommen die Postfächer auf einer leeren Datenbank wieder online, somit können Mails versendet und empfangen werden, die bisherigen Daten sind aber nicht ersichtlich. In einem weiteren Schritt werden wir die alten Daten wieder in die Postfächer restoren.

Wie lange wird dieser Prozess gehen?

Der Restore Prozess wird mehrere Tage in Anspruch nehmen.
Weitere Informationen finden Sie auch auf unserer Statusseite:
https://www.serverbase-status.net/issues/6638e96110bdfb04978704c1

Wie kann ich meine Mails lesen?

Wir empfehlen, sollte Ihre Mailbox betroffen sein, via https://cas.hostedsolution.ch auf das Webmail zuzugreifen.

Sie können auch weiterhin Ihr Outlook nutzen, beim Starten von Outlook erhalten Sie folgende Meldung, bitte wählen Sie "temporäres Postfach verwenden":
image.png

Wie geht es weiter?

Wir arbeiten mit Hochdruck am Restore der Daten, bitte sehen Sie von anrufen an unseren Support ab, damit wir die personellen Ressourcen für den Restore der Daten einsetzen können.

Meine Mailbox ist leer (nur neue Mails vorhanden)

Ihre Mailbox ist leer (keine Kalender und Kontakte) und es sind nur neue Mails vorhanden? Sollte dies ab 09. Mai 2024 15:00 der Fall sein, kontaktieren Sie bitte unseren Support, damit wir die Situation prüfen können. Ab 09. Mai 2024 um 15:00 wurden alle Imports gestartet, abgeschlossen sind diese um ca. 10. Mai 06:00 Uhr.

Weiterhin Popup Meldung "Temporäres Postfach"

Altes Profile nicht löschen

Löschen Sie das alte Profil erst, wenn Sie sicher sind, dass alle Daten vorhanden sind! Sie können mehrere Profile parallel konfigurieren.

Sollten Sie weiterhin die Meldung mit dem temporären Postfach erhalten, erstellen Sie bitte ein neues Outlook Profile:

  1. Starten Sie Outlook mit gedrückter "Shift Taste":

  2. Wählen Sie "Optionen"
    image.png

  3. Wählen Sie "Neu":
    image.png

  4. Geben Sie einen Profilnamen an.
    image.png

  5. Geben Sie Ihre E-Mail Adresse ein:
    image.png

  6. Exchange wählen:
    image.png

  7. image.png

  8. image.png

  9. Ihr neues Outlook Profil ist nun ready:
    image.png

  10. Wählen Sie als "Als Standard festlegen" und OK:
    image.png

Informationen zum Ausfall

Ausgangslage: Unsere Hosted Exchange Systeme sind redundant ausgelegt, jede Datenbank wird mit einem Aktiv-Passiv Setup betrieben, sollte ein Node ausfallen, läuft die Datenbank auf dem Back Node weiter.

Die Hosted Exchange Mailboxen sind auf mehrere Datenbanken und mehrere Server aufgeteilt, aktuell betreiben wir ca. 500 Mailboxen pro Datenbank mit einer durchschnittlichen Grösse von 3-5 TB pro Datenbank.

Was ist passiert?

Am 04.05.2024 um 14:12 Uhr hat unser Monitoring System unseren Pikett Dienst aufgeboten mit der Information, dass eine Hosted Exchange Datenbank nicht mehr redundant und somit im Status "degraded" ist.

Um 14:35 Uhr wurde die Situation analysiert, ein "Resume" des Syncs wurde vom System nicht angenommen. Normalerweise wird in so einem Fall eine "Update" Operation durchgeführt, d.h. die gesamte Datenbank wird vom Aktiven Node nochmal zum Passiven Node kopiert. Dieser Vorgang dauert im Normalfall 24h+.

Nach 6 Stunden hat dieser Transfer mit einem Fehler abgebrochen. Daraufhin wurde entschieden, die "Update" Operation auf einen anderen passiven Server zu versuchen. Dies war ebenfalls erfolglos.

Der nächste Ansatz um ca. 21:16Uhr war, die Mailboxen aus der Datenbank in eine neue Datenbank zu verschieben. Somit wurde eine neue Datenbank erstellt und die Mailbox Verschiebung wurde gestartet. Die Verschiebung von so vielen Mailboxen mit entsprechender Grösse dauert ca. 5-6 Tage.

Wichtig: Bisher waren die Mailboxen zu 100% funktionsfähig und unsere Kunden haben keinen Impact bemerkt. Die Datenbank auf dem Aktiven Node lief weiterhin problemlos, die Datenbank war jedoch nicht mehr redundant.

Am 06.05.2024 um 16:19 Uhr hat unser Monitoring alarmiert, dass die betroffene Datenbank "DOWN" und nicht mehr im Status "mounted" ist.

Zu diesem Zeitpunkt waren 190 der ca. 500 betroffenen Mailboxen bereits in eine neue Datenbank verschoben, ca. 310 Mailboxen konnten aktuell nicht mehr auf Daten zugreifen.

Erste Versuche, die Datenbank wieder zu mounten waren erfolglos, detailliertere Analysen ergaben, dass das Datenbankfile wegen eines I/O Fehler korrupt sei und im Status "Dirty Shutdown" war.

Um 16:45 Uhr wurde mit Repair Tools versucht, die Datenbank mit "Soft Repair" wieder in einen brauchbaren Status zu bringen. Da das Datenbank File eine Grösse von über 3TB hat, benötigt jede "Repair" Operation mehrere Stunden, bis ein Ergebnis vorliegt.

Der Soft Recovery blieb bedauerlicherweise erfolglos und es wurde schlussendlich entschieden, ein Hard Recovery auszuführen.

Die Techniker haben die ganze Nacht versucht, die betroffene Datenbank zu reparieren, es wurden zudem Spezialisten von Microsoft zugezogen, welche ebenfalls nicht zum gewünschten Erfolg beitragen konnten.

Am 07.05.2024 um ca. 09:00 wurde entschieden, dass die betroffenen Mailboxen auf eine neue Datenbank verschoben werden und ohne Inhalt bereitgestellt werden. Ziel dahinter war, den Mailfluss für die betroffenen Mailboxen wieder sicherzustellen, damit die Kunden wieder Mails empfangen und versenden können. In einem zweiten Schritt sollen anschliessend "alte" Nachrichten wieder eingelesen werden.

Am 07.05.2024 vormittags wurde begonnen, mit Spezialtools das korrupte Datenbankfile auszulesen und die enthaltenen Daten zu exportieren.

Am 10.05.2024 um 09:15 waren die meisten Mailboxen wieder importiert und wir sind seither daran Probleme der betroffenen User individuell zu beheben, welche durch den Ausfall entstanden sind.

Betroffen von diesem Ausfall waren 7% unserer Hosted Exchange Kunden, bei welchen wir uns in aller Form für die entstandenen Umstände entschuldigen möchten!

Wie verhindern wir das in Zukunft

Unser Hosted Exchange Angebot gibt es seit den Anfangszeiten von ServerBase AG, sprich seit über 14 Jahren, ein solches Problem trat bisher noch nie auf.

Trotzdem haben wir wieder eine "Leason learned", wir arbeiten aktuell daran, die Redundanz weiter zu erhöhen und jede Datenbank 3-fach abzusichern. Zudem arbeiten wir daran, die Backup Sequenz auf 12 Stunden zu reduzieren. Aufgrund der enormen Datenmenge, die unser Hosted Exchange verwaltet, benötigen diese Schritte Zeit und Anpassungen an der Architektur.