Wie sieht ein idealer Disaster-Recovery-Test aus?
Wenn ein unerwartetes Ereignis einen Datenverlust verursacht, ist es für jedes Unternehmen von höchster Bedeutung, sich auf ein vollständiges und validiertes Backup der Daten sowie Systeme als seine „Lebensversicherung“ verlassen zu können. Solche Ereignisse sind nicht nur auf bösartige Angriffe von aussen, wie z.B. Ransomware, zurückzuführen. Dabei kann es sich auch um einen Software- / Update-Fehler, eine natürliche Katastrophe oder einen simplen Benutzerfehler handeln, welche einen Datenverlust verursachen. Von einem vollständigen Backup kann jedoch erst gesprochen werden, wenn dieses innerhalb der vorher definierten Retention Policy der jeweiligen Daten bzw. Systeme geprüft wird. In diesem Artikel möchte ich den idealen Disaster-Recovery-Test erläutern und aufzeigen, worauf es ankommt, damit im Ernstfall sichergestellt werden kann, dass die geschäftskritischen Dienste in einem angemessenen Zeitraum den Betrieb wieder aufnehmen können und somit der entstehende Schaden möglichst gering gehalten werden kann.
1.2. Backup-Konzept
Ein wesentlicher und womöglich der wichtigste Bestandteil eines erfolgreichen Disaster-Recovery ist ein vollständiges Backup-Konzept. Darin muss definiert werden, was der maximal tolerierbare Datenverlust (RPO) ist, sowie die maximale Zeit (RTO), in welcher eine Applikation oder ein System ausfallen kann, bevor ein signifikanter Schaden entsteht. Anhand dieser Werte sollte das Backup entsprechend konfiguriert und durchgeführt werden. Üblicherweise empfiehlt es sich, ein Backup nach dem GFS (Grandfather-Father-Son / Daily, Weekly, Monthly) Modell aufzubauen.
Ein weiterer wichtiger Schritt ist, eine Klassifizierung der vorhandenen Daten sowie der betriebenen Informatik-Systeme durchzuführen. Hierbei sollte berücksichtigt werden, welche Daten öfters und welche weniger oft geändert werden. Daten, welche sich oft ändern, sollten entsprechend auch öfters gesichert werden. Zusätzlich ist zu beachten, dass Datenbanken und Applikationen konsistent gesichert werden müssen. Dies ist eine Voraussetzung für eine erfolgreiche Wiederherstellung der entsprechenden Daten. Hierbei empfehlen wir, falls die Anforderungen an die Applikation nicht bekannt sind, diese beim Hersteller in Erfahrung zu bringen.
1.3. Disaster-Recovery-Szenarien
Wie bereits darauf hingewiesen, bestehen Gefahren und Risiken eines Systemausfalls nicht ausschliesslich durch Einwirkung böswilliger Akteure, wie zum Beispiel bei einem Angriff durch eine Ransomware. Ein umfassender Disaster-Recovery-Prozess beinhaltet das Testen verschiedener potenzieller Szenarien, welche einen Ausfall der IT-Infrastruktur zur Folge haben könnten. Dadurch kann gewährleistet werden, dass im Falle eines ernsthaften Vorfalls sowohl die IT-Infrastruktur als auch die Systemadministratoren bestmöglich vorbereitet sind und effektiv reagieren können.
Anbei eine Liste mit Beispielen für Situationen, in welchen ein Disaster-Recovery erforderlich sein könnte.
-
Hardwarefehler: Die Wiederherstellung ausgefallener Hardware sollte ein wesentlicher Bestandteil jedes Disaster-Recovery-Prozesses sein. Hardwareausfälle können von verschiedenen Komponenten ausgehen, wobei einer der häufigsten Fälle ein Ausfall einer defekten Festplatte oder eines Storage-Systems ist. Bei diesem Test müssen Sie in der Lage sein, Ihre Daten, Applikationen sowie Dienste in einer angemessenen Zeit wiederherzustellen oder diese auf eine Backup-Plattform zu verschieben. Diese Plattform kann sich lokal oder in der Cloud befinden.
-
Betriebssystem- und Anwendungsfehler: Testen Sie, wie gut Ihr Disaster-Recovery-Prozess auf den Ausfall des Betriebssystems oder einer Anwendung reagiert. Dies kann durch das gezielte Herunterfahren einer Anwendung oder das Simulieren eines Betriebssystemfehlers erfolgen. Stellen Sie sicher, dass Sie zum Beispiel in der Lage sind, ein fehlerhaftes Applikations- oder Betriebssystem-Update möglichst automatisiert zurückziehen können. Bevorzugt werden natürlich solche Updates erst in einer Testumgebung geprüft, bevor diese auf das produktive System angewendet werden. Hierfür empfehlen wir ein entsprechendes Patchmanagement-Konzept zu erstellen.
-
Angriffsszenarien: Simulieren Sie verschiedene Angriffsszenarien, wie z.B. einen Ausfall aufgrund einer Ransomware. Prüfen Sie, was für potenzielle Auswirkungen ein solcher Angriff auf die IT-Infrastruktur haben könnte, welche Abwehrmechanismen bereits vorhanden sind und wo es noch Potenzial für eine Erhöhung der Sicherheit gibt. Ein zentraler Aspekt einer solchen Simulation sind die gewonnenen Erkenntnisse über vorhandene Sicherheitslücken sowie die Dauer, bis der Normalbetrieb wiederhergestellt werden kann.
-
Netzwerkausfall: Simulieren Sie einen vollständigen Netzwerkausfall, indem Sie die Verbindung zu Ihrem Netzwerk oder zu wichtigen Diensten unterbrechen. Überprüfen Sie, ob Sie den Betrieb auf alternative Netzwerke oder Kommunikationskanäle umleiten können, wie zum Beispiel über eine Backup Anbindung via 5G.
-
Datenwiederherstellungstests: Stellen Sie sicher, dass Sie Ihre Daten aus den vorhandenen Backup-Jobs wiederherstellen können. Testen Sie verschiedene Szenarien, z. B. die Wiederherstellung von einzelnen Dateien, kompletten Applikationen oder virtuellen Maschinen, und prüfen Sie die Daten auf Funktion und Vollständigkeit.
-
Geografische Failover-Tests: Wenn Ihre Firma über mehrere Standorte verfügt, testen Sie das Failover zwischen diesen Standorten. Bei solch einem Test geht es darum, sicherzustellen, dass kein single point of failure vorhanden ist, welcher Auswirkungen auf die komplette Firmenstruktur aufweist, und dass die Verfügbarkeit der betriebskritischen Dienste gewährleistet werden kann.
-
Datenbankausfall: Testen Sie den Wiederherstellungsprozess einer kompletten Datenbank. Wird eine Datenbank beispielsweise stündlich gesichert, sollte geprüft werden, ob die Datenbank auf den entsprechenden Wiederherstellungspunkt in einem konsistenten Zustand zurückgesetzt werden kann. Allenfalls muss hierfür ein verantwortlicher Administrator der Applikation beigezogen werden, um die Daten verifizieren zu können.
-
Stromausfall: Unterbrechen Sie gezielt die Stromversorgung für Ihren Serverraum oder einzelne Server. Überprüfen Sie, ob Ihre Notstromversorgung (wie USV oder Generatoren) erwartungsgemäss funktioniert und wie schnell Sie auf alternative Energiequellen umschalten können. Dies beinhaltet ebenfalls den Test der Alarmierung inkl. der Pikettorganisation, damit sichergestellt werden kann, dass auch ausserhalb der Bürozeiten auf einen Systemausfall reagiert werden kann und die nötigen Schritte eingeleitet werden können.
1.4. Durchführung
Die Durchführung solcher Tests ist zeit- und ressourcenintensiv und muss sorgfältig geplant werden. Je nach Disaster-Recovery-Test müssen unterschiedliche Personen in den Prozess involviert werden. Das reicht von Systemadministratoren und Applikationsverantwortlichen, Hersteller Support oder Dienstleistern bis allenfalls zu GL-Personal. Zudem werden technische Ressourcen benötigt, um Daten oder ganze Server-Systeme in einer isolierten Umgebung wiederherstellen zu können. Damit sichergestellt werden kann, dass der produktive Betrieb der IT-Infrastruktur nicht beeinträchtigt wird.
Ein wesentlicher Punkt dabei ist, dass es sich hierbei um einen kontinuierlichen Vorgang handelt. Es sollten jährlich solche Tests durchgeführt werden. Dabei geht es darum, bereits vorhandene Wiederherstellungsprozesse zu prüfen oder für kritische Systeme einen neuen Wiederherstellungsprozess zu erstellen und dessen Ereignisse und Ergebnisse ausführlich zu dokumentieren. Hierbei gilt der Grundsatz, dass eine IT-Fachperson anhand dieser Dokumentation in der Lage sein soll, die Wiederherstellung des jeweiligen Systems durchzuführen.
Ein verlässliches Mittel für einen Disaster-Recovery-Test sind sogenannte „Tabletop exercises“. Solche Übungen bieten eine Möglichkeit, die Geschäftskontinuität und die Wiederherstellungsprozesse zu prüfen oder in einem ersten Schritt zu erstellen, ohne den produktiven Betrieb der Systeme zu beeinträchtigen. Anhand der gewonnenen Erkenntnisse können dann die einzelnen Prozesse auf die verschiedenen Szenarien angepasst werden. Der Vorteil solcher „Tabletop exercises“ ist, dass wesentlich weniger Zeit und somit weniger Kosten und Ressourcen dafür aufgewendet werden müssen. Folglich besteht die Möglichkeit, jährlich mehrere solcher Szenarien zu simulieren.
Die gesammelten Daten aus diesen Übungen bilden dann die Grundlage für einen realen Disaster-Recovery-Test.
1.5. Fazit
Es ist von höchster Bedeutung, dass jedes Unternehmen in der digitalisierten Welt von heute über einen effektiven Disaster-Recovery-Plan verfügt, um bei einem Zwischenfall den Betrieb aufrecht zu halten und den möglichen Schaden bestmöglich einzugrenzen.
Dabei ist wichtig zu verstehen, dass es sich hier um einen fortlaufenden Prozess handelt. Solche Disaster -Recovery-Tests müssen jährlich durchgeführt werden, um den vorhandenen Prozess stetig weiterzuentwickeln und sicherzustellen, dass die vorhandenen Protokolle funktionieren.
Informationen zum Autor: Sebastian Werner
Durch meine langjährige IT-Erfahrung insbesondere mit Firewalls wurde mir die stetig steigende Bedeutung der IT-Sicherheit bewusst. Mitte 2022 habe ich dann entschieden, dass ich mein Wissen aktiv dafür einsetzen will, Unternehmen den Weg zu einem langfristigen und guten IT-Sicherheitsniveau zu weisen. Seit Anfang 2023 bin ich nun Teil des Teams und es freut mich meinen Teil zu einer Schweiz ohne Schäden durch Cyberattacken beitragen zu können.