IT-Notfallplanung – A fool with a tool is still a fool.

Oder warum es keine Programme zur IT-Notfallplanung gibt?

FeuerwehrImmer wieder erreichen mich Anfragen, mit welcher Software wir eigentlich IT-Notfallpläne erstellen.

Heutzutage gibt es ja für alles Nützliche und Unnütze eine APP. Warum also nicht auch eine für IT-Notfallplanung? Ich möchte IT-Notfallplanung an Hand einem parallelen uns allen bekannten und gängigen Beispiels aus einem anderen Bereich erklären.

Wenn es brennt, kommt die Feuerwehr und löscht den Brand! „So einfach ist das!“ Wenn wir Daten verloren haben, kommt die IT und sichert diese wieder zurück. „So einfach ist das?“ Zumindest aus der Sicht eines IT Laiens, also gilt eher „So einfach sollte es sein!“ – Leider ist es oft gar nicht so einfach oder gar nicht möglich.

Warum ist das eigentlich so? Was macht die Feuerwehr anders und damit erfolgreich?

In der folgenden Tabelle sind die notwendigen Aktivitäten (Notfallplanung) für eine funktionierende Notfallbearbeitung aufgelistet. Im Vergleich sind die am häufigsten fehlenden Pendands auf der IT-Seite in rot markiert.

Feuerwehr
IT
Vorbereitung (Notfallplanung)
Beschaffung Feuerwehrauto (Tool) Beschaffung Backupsoftware (Tool/APP)
Inbetriebnhame des Feuerwehrautos Installation der Backupsoftware
Festlegen für welche Anwendungsfälle das Feuerwehrauto zum Einsatz kommt Definieren einer Backup-Policy „Unterschriebenes Dokument“. Welche Daten, werden wann, in welchem Rhythmus, wohin gesichert und wie lange aufgehoben.
Schulung- und Einweisung der Feuerwehrmänner in die Bedienung des Feuerwehrautos. Die Bedienung der Backupsoftware kennt meistens nur der IT-Mitarbeiter der die Software beim Kunden installiert hat. Zwar gibt es ein Grundverständnis für die Backupsoftware, aber die spezifische Installation ist meistens komplex und nicht in dem Maße dokumentiert und trainiert, so dass ein nicht eingewiesener Mitarbeiter, die Ausführung übernehmen könnte.
Festlegen welche routinemäßigen Prüfungen und Wartungsarbeiten am Einsatzfahrzeug durchgeführt werden müssen. Erstellung eines regelmäßigen Wartungsplans. Dazu gehören die proaktive Kontrolle des Systems und der Logdateien, einspielen von Updates, Kontrolle des Zeitraums des Backupfensters, Kontrolle des Datenwachstums, Kontrolle der Sicherung durch das Durchführen einer Rücksicherung. Hier sind vor allem 2 Punkte zu beachten: RTO (Recovery Time Objective), d.h. wie lange dauert es die Daten zurück zu sichern. RPO (Recovery Point Objective), d.h. wie als sind die Daten die ich zurück sichern will.
Festlegen der Verantwortlichkeiten für die Bedienung und Wartung des Einsatzfahrzeuges Schriftlich festlegen der Verantwortlichen für die Datensicherung. -> Gehört in die Backup Policy.
Festlegen eine Einsatzplanes bzw. Bereitschaftsplanes mit jeweiliger Vertretung Festlegen eine Einsatzplanes bzw. Bereitschaftsplanes mit jeweiliger Vertretung
Regelmäßiges Durchführen von Übungseinsätzen. Löschen eines nicht brennenden Hauses mit dem Einsatzfahrzeug. Fehlfunktionen werden protokolliert, gemeldet und behoben, damit Sie für den Ernstfall zur Verfügung stehen Regelmäßige Durchführung und Protokollierung einer Rücksicherung. Melden und Beheben von Störungen.
Durchführung Notfall
Notruf geht an einer 24/7 besetzen zentralen Meldestelle ein. -110 Notruf geht bei einem Servicetechniker oder dem Geschäftsführer ein. Eine direkte Erreichbarkeit ist in den seltensten Fällen gesichert.
Das Einsatzkommando wird sofort informiert und beginnt mit dem Einsatz. Der nächstmögliche verfügbare Techniker wird versucht zu erreichen.
Die Reaktionszeit des Einsatzkommandos ist bei der Berufsfeuerwehr schnell, da die dafür vorgesehenen Mitarbeiter auf den Einsatz warten und keine andere Arbeiten ausführen. Gibt es in der IT m. E. nicht!
Die Reaktionszeit des Einsatzkommandos ist bei der Freiwilligen Feuerwehr nicht ganz so schnell, da die dafür vorgesehenen Mitarbeiter ihre normalen Tätigkeiten ausführen und diese dann zunächst unterbrechen. Über die Anzahl der verfügbaren Mitarbeiter wird eine Grundverfügbarkeit erwartet. Schnell einen geeigneten Mitarbeiter zu finden ist an dieser stelle oft eine Herausforderung. Denn die Mitarbeiter sind wahrscheinlich bereits an anderen kritischen Baustellen unterwegs, krank im Urlaub etc.
Das Einsatzkommando fährt zum Brandherd und beginnt mit den Löscharbeiten. Jeder Handgriff sitzt, das Einsatzfahrzeug funktioniert der Brand kann gelöscht werden. Die Reaktionszeit wird meistens noch eingehalten. D.h. Reagieren geht, Agieren meistens nicht, denn die notwendigen Daten wurden gar nicht gesichert, die Sicherung läuft seit geraumer Zeit nicht mehr, die Daten sind hierdurch veraltet und selbst wenn, funktioniert die Rücksicherung gar nicht, weil diese nie oder schon sehr lange nicht mehr getestet wurde.
Mehr zum Thema:
Was ist OpenERP?

Fazit: In der IT wird ein Backup-Produkt beschafft und installiert. Das Tool ist zwar vorhanden, die notwendigen Maßnahmen (Notfallplanung) für einen erfolgreichen Betrieb und somit auch einer erfolgreichen Wiederherstellung im Fall der Fälle werden nicht durchgeführt.

Würde die Feuerwehr gleichermaßen agieren, käme man zwar mit dem Feuerwehrauto etwas verspätet zur Brandstelle, dann würde man aber feststellen, dass man kein Wasser dabei hat oder die Drehleiter gar nicht ausgefahren werden kann, da der entsprechende Motor defekt ist.
Vorausgesetzt man weiß überhaupt wie so eine komplexe Maschine bedient werden will.

So, nun genug mit der Schwarzmalerei, wir kennen das alles zu genüge aus unserem Tagesgeschäft. Lassen Sie uns nach einer Lösung suchen! Dazu möchte ich zunächst die Ursachen aufzeigen.

Ursachen:
  • Die notwendigen Maßnahmen zur Notfallplanung sind weder dem Kunden, der internen IT oder dem IT-Dienstleister bekannt. Was man nicht kennt, vermisst man auch nicht!
  • Die Umsetzung der Maßnahmen zur Notfallplanung stellen einen zusätzlichen Zeit- und Kostenfaktor da, dessen Sinnhaftigkeit sich zum Installationszeitpunkt nicht erschließt. Man kauft ja ein Backup und kein Restore.
  • Die Verantwortlichkeiten sind nicht geklärt. Wer ist in der Verantwortung, wenn ein Schaden auf Grund einer nicht möglichen Rücksicherung entsteht? Der Kunde wird sich gerne an den Dienstleister wenden, denn der hat ja die Installation durchgeführt und ist somit auch verantwortlich das diese funktioniert! Ich nehme es vorweg, das stimmt so nicht!
  • Regelmäßige Wartung und Monitoring wird nicht durchgeführt. Das Backup läuft ja! Und so lange man kein Restore benötigt, fällt es ja auch nicht auf, formulieren wir es positiv, das das Backup „nicht“ mehr funktioniert. Warum also Zeit und Geld investieren.
Lösung:
  • Machen Sie sich mit den notwendigen Maßnahmen vertraut. Greifen Sie an dieser Stelle auf Fachleute zurück, die wissen welche Aufgaben und Prozesse umzusetzen sind. Als theoretische Grundlage bietet sich die BSI 100-4, die ISO 22301, oder die VdS 3473 an. Kunde, IT und Dienstleister müssen zumindest diese Thematik kennen.
  • Ein Backup ohne die notwendigen Prozesse kann man m. E. auch gleich ganz lassen, denn es funktioniert ja sowieso nicht wenn man es braucht. Daher gehören die Prozesse als ein fester Bestanteil dazu. Wer die Prozesse nicht selbst abbilden kann oder will, kann diese auch extern dazukaufen und somit für ein nachweißlich funktionierendes Backup sorgen. Die Betriebsprozesse gehören in jedes Angebot zum Thema Backup. Wenn ein Kunde die notwendigen Prozesse nicht etablieren möchte, muss er sich an dieser Stelle des Risikos bewusst sein. Die Risikoakzeptanz wird als Aktennotiz dokumentiert.
  • Bevor die Datensicherung entwickelt und installiert wird, wird eine Backup Policy erstellt. In dieser Policy werden die Verantwortlichkeiten definiert und welche Daten, wann, wie oft, wohin gesichert und aufgehoben werden. Die Backup Policy wird vom Verantwortlichen unterschrieben. Die Backup Policy ist für alle weiteren Schritte das zentrale Dokument aus dem die Anforderungen hervorgehen.
  • Führen Sie regelmäßig, einmal pro Monat einen Rücksicherungstest durch. Protokollieren Sie die Ergebnisse und stellen diese Informationen dem Verantwortlichen zur Verfügung. Das Protokoll ist zu unterschreiben und dokumentiert den aktuellen Funktionszustand. Diese Art von Prüfungen werden idealerweise von einem unabhängigen Dritten durchgeführt und sind als auch als externes Servicepaket erhältlich.
Mehr zum Thema:
Was ist POP?

Für die Lösung, hier exemplarisch eine funktionierende Datensicherung im Rahmen einer Notfallplanung, muss man wissen welche einzelnen Maßnahmen und auch Kontrollen umgesetzt werden können. Das erledigt leider kein Tool. Notfallplanung und Backupsoftware dürfen also nicht verwechselt werden. Das eine ist das Tool, das andere das Wissen wie man es richtig bedient, bzw. den Prozess dazu etabliert.

Und das ist alles nicht so aufwendig wie es vielleicht scheint!

PS: Mein Lieblingszitat an dieser Stelle:
„Wir brauchen eine neue Backupsoftware, unser Backup funktioniert nicht richtig“