Diese Woche war ausserordentlich. Ein Serverausfall während dem Lohnlauf hat unsere Kunden und uns herausgefordert - und beide Seiten haben die Situation erfolgreich gemeistert.
Zuerst ein grosses Kompliment an meine Kunden: Ich schätze und ehre euch für die positiven Rückmeldungen, euer Verständnis und Mittragen. Das ist nicht selbstverständlich!
Was war passiert?
Schon seit einigen Tagen war unser Server, welcher sämtliche Datenbanken unserer Branchenlösung pcjob.net hält, auf wackligen Beinen. Obschon er noch lief und alle Anwender arbeiten konnten, war ein Anmelden über Remotedesktop nicht möglich. Also plante ich ein Wartungsfenster ein, um den Server neu zu starten und zu kontrollieren, notabene am Abend des 2. Aprils, also mitten während des Lohnlaufes, welcher im Personalverleih in den ersten 5 Tagen des Monats läuft.
Ein Fehler, wie ich rückblickend eingestehen muss. Der Server bootete nicht mehr und der Support von unserem Hostingprovider wurde eingeschaltet. Um 01:00 Uhr ging ich selber schlafen (um für den nächsten Tag gerüstet zu sein), um 02:37 antwortete der Support, der Server sei noch nicht wieder bereit. Nachdem ich früh aufgestanden war, hoffte ich noch vergeblich, der Server sei nun bereit. Ich versorgte den Support mit den notwendigen Kennwort für den Server und harrte der Dinge, die da kommen sollten. Gleichzeitig informierte ich unsere Kunden, dass der Server und somit pcjob.net nicht zur Verfügung stehen.
Der restliche Tag bestand aus harren, Kunden informieren, beim Support nachhaken und hoffen, dass der Server möglichst bald wieder verfügbar wäre. Vergeblich. Um 17:09 Uhr erhielt ich die Meldung, dass der Server nicht mehr reparierbar sei und neu installiert werden müsse.
Parallel baute ich durch den Tag unseren Entwicklungsserver zu einem Ersatzsystem um. Upgrade SQL Server, Hochladen und Bereitstellen der Backups, Rechte bereitstellen, etc.
Der Clou: All dies geschah aus dem Spital. Denn an diesem Tag (und die ganze Nacht) begleitete ich meine Tochter zu ihrer Knieoperation. Sehr viel Spannbreite ...
Um 18:38 erhielt ich die Information, dass die Neuinstallation des Servers abgeschlossen sei und die Daten noch vorhanden. Also entschied ich mich, diesen zu reaktivieren und alles bereitzustellen. Also auch hier Installation SQL Server, sämtliche Rechte und Einstellungen, Datenbanken anhängen, kontrollieren etc.
Während meine Tochter also doch noch zu Schlaf kam, arbeitete ich mich bis um halb drei Uhr morgens durch die verschiedenen Tasks, welche notwendig waren, pcjob.net wieder vollständig verfügbar zu machen. Danach noch die Infomail an meine Kunden und dann für ein paar kurze Stunden ab ins Bett.
Am Donnerstag Morgen hatte ich noch einige wenige Korrekturen an den Berechtigungen nachzutragen, dann war pcjob.net für alle Kunden wieder verfügbar. Und meine Tochter wurde noch geröngt und gegen 10 Uhr wurden wir entlassen
Datenverlust?
Neben dem unerfreulichen unproduktiven Mittwoch, wo keiner meiner Kunden die Löhne für die Temporärangestellten machen konnte, stellt sich natürlich die Frage nach einem Datenverlust. Unsere Backup Strategie hat sich grösstenteils bewährt, darf aber noch optimiert werden. Bislang haben wir nur Kenntnis von einer einzigen Kundin, welche einen Arbeitsverlust von ca. 1.5h hat, die Zeit nach 18 Uhr (letzte Sicherung) bis zum Serverabsturz. Die nächste Sicherung wäre um 20 Uhr gelaufen, aber da war der Server schon tot.
Lehren?
Es hat uns erwischt und das Ärgerliche daran ist, dass der Ausfall kurz vor dem Ausbau unserer Infrastruktur passierte. Wir haben bereits 2 neue Server bereitgestellt und sind daran, diese einzurichten, um ein direktes Notfallssystem aktivieren zu können, aber es war noch nicht fertig. Das ist sehr bedauerlich.
Aktuell sind wir daran, die Lehren und Anpassungen an unsere Prozesse auszuarbeiten, soviel ist bisher klar:
- Die Backupstrategie war soweit erfolgreich, abgesehen von diesen 1.5 Arbeitsstunden
- Fazit: Wartungsarbeiten werden wir künftig erst nach einer erneuten Sicherung starten. Das verhindert dann auch den letzten Rest von Datenverlusten.
- Die Zusammenarbeit mit unserem Provider muss diskutiert werden. Die Antwortzeiten waren unbefriedigend und wir wissen noch nicht, was gemacht wurde (lediglich eine Rechnung über 5h haben wir erhalten). Während der Notfallsupport in der Nacht umgehend reagierte, war es während dem Tag sehr mühsam.
- Der Aufbau der neuen Infrastruktur muss so rasch wie möglich erledigt werden. Wir haben 4 Server zur Verfügung und können so eine gegenseitige Replizierung bereitstellen, welche die Ausfallzeit bei einem Totalsausfall auf 1h reduzieren sollte (Zeit für die Bestimmung des Fehlers).
- Wartungsarbeiten vor einer Abwesenheit sind keine gute Idee
- Ob der Neustart während dem Lohnlauf bei einem bereits "angeschlagenen" Server eine gute Idee war ist schwierig zu beurteilen. Ebensogut hätte sich der Server auch von alleine verabschieden können. Dazu fehlen uns noch die Informationen, was unser Provider allenfalls entdeckt hat.
- Hope the best, plan the worst!
- Migrationsarbeiten (in diesem Fall das neue Berechtigungssystem, welches wir im März ausgearbeitet haben), sollten bis zur letzen Zeile in einem Skript bereitgestellt sein.
Und unsere Kunden?
Ich bin begeistert von unseren Anwendern. Trotz dem unglücklichen Zustand, ausgerechnet während dem Lohnlauf einen solchen Ausfall zu haben, gelangte bis jetzt kein böses Wort zu mir (und ich bin überzeugt, im einen oder anderen Büro sind sicherlich einige heftige Worte gefallen.) Aber viele ganz liebe Zeilen haben ich erhalten:
- Danke für Deinen Einsatz.
- Vielen Dank für euren enormen Einsatz.
- Oh je, dieser Aufwand, aber wenn es schlussendlich klappt… (als Feedback auf den ausführlichen Newsletter)
- Besten Dank für deinen Einsatz, läuft. Hoffe die OP deiner Tochter ist auch gut verlaufen und das alles gut ist?
- Viel Erfolg bei der Bewältigung des Systemausfalls und beste Grüsse (nach Eingabe eines Supportauftrages während dem Ausfall)
- War ja sicherlich eine sehr intensive Woche für dich. Ich hoffe bei deiner Tochter ist die OP gut verlaufen und Sie wird bald wieder herumhüpfen.
Wünsche dir einen schönen Nachmittag und ein geruhsames Wochenende. (Heute Freitag erhalten)
- Zum Glück! Vielen Dank für deinen nächtlichen Einsatz!