Liebe Leserinnen, liebe Leser,

in unserem letzten Beitrag haben wir uns mit der Installation und Inbetriebnahme eines Netzwerks, also mit der Stunde 9 in unserem Uhrenmodell (s. das Poster im ersten Beitrag), befasst. Für den Fall der Fälle sollte man in Bezug auf den Betrieb des Netzwerks auch auf unvorhersehbare Ausfälle, die durch äußere Einwirkungen und Gefährdungen entstehen können, vorbereitet sein.Entsprechend sollte ein geeignetes Notfallmanagement ausgearbeitet werden, welches Handlungsanweisungen für die „Rettung“ und Wiederherstellung des Netzwerkbetriebs ermöglicht. Stellen Sie sich folgende Situation vor: In Ihrem Unternehmen, bei dem Sie für das Netzwerk verantwortlich sind, fällt der Strom aus. Welche Schritte sind nun einzuleiten, um etwa einen Minimalbetrieb der essentiellen Netzwerkkomponenten über eine unterbrechungsfreie Stromversorgung zu gewährleisten? Was ist zu tun, nachdem der Strom wieder zur Verfügung steht, um ein reibungsloses Wiederanlaufen aller Netzwerkkomponenten zu ermöglichen? Dieser Beitrag soll Ihnen dabei helfen, auf diese und weitere Fragen im Bereich des Notfallmanagements eine Antwort zu finden. Dabei gehen wir auf folgende Fragen ein:

  • Welche Ziele und Bestandteile sollte ein Notfallmanagement definieren?
  • Wie soll das Notfallmanagement als kontinuierlicher Prozess organisiert werden, damit man den stabilen Betrieb eines Netzwerks möglichst aufrechterhalten kann?
  • Welche Struktur sollte ein Notfallhandbuch haben und welche Angaben sollte es enthalten, um das Netzwerk in einem Notfall „retten“ und dessen Betrieb wiederherstellen zu können?

Bedeutung des Notfallmanagements

Die zunehmende Bedeutung der Netzwerke für Unternehmen und andere Institutionen sowie deren steigende Komplexität führen dazu, dass unerwünschte Ereignisse wie bspw. Ausfälle von wichtigen Systemkomponenten, bösartige Angriffe (Schadprogramme), Feuer, extreme Wetterereignisse, Überschwemmungen oder Terrorismus große, existenzbedrohende Auswirkungen verursachen können. Aus diesem Grund sollten diese Ereignisse als Notfälle betrachtet werden und ein der Gefährdung entsprechendes Notfallmanagement ist somit unabdingbar.

Das Notfallmanagement während des Netzwerkbetriebs ist ein Managementprozess mit dem Ziel, die infolge von verschiedenen Notfällen entstandenen, das Überleben eines Unternehmens, einer Institution, gefährdenden Risiken frühzeitig zu erkennen, Maßnahmen dagegen zu planen und diese erfolgreich umzusetzen. Das wesentliche Ziel des Notfallmanagements ist somit, zu gewährleisten, dass wichtige Netzwerkdienste während der kritischen Zeit nach einem Notfall mit eingeschränktem Netzwerkbetrieb möglichst nur gering beeinträchtigt werden, damit keine großen negativen Auswirkungen auf die Existenz des Unternehmens, bzw. der Institution, entstehen.

Notfallmanagement – Ziele und Bestandteile

auch die Existenz des Unternehmens und folglich seine Geschäftsprozesse abhängig sind. Ein Netzwerk wird mit dem Ziel aufgebaut, verschiedene Netzwerkdienste zu erbringen, damit man bestimmte IT-Services, die eine wichtige Grundlage für die Geschäftsprozesse bilden, einrichten kann.

In jedem Unternehmen, wie auch in jeder anderen Institution, ist daher ein Konzept für das Notfallmanagement nötig. Damit eventuelle Notfälle möglichst geringe Schäden verursachen, sind einige Vorsorgemaßnahmen im Voraus zu ergreifen wie auch ein Bewältigungsplan (Wiederherstellungsplan, Recovery Plan) zu erarbeiten, um nach dem Auftreten eines Notfalls den Netzwerkbetrieb möglichst ununterbrochen fortsetzen zu können. In diesem Zusammenhang spricht man von Kontinuitätsmanagement (Continuity Management). Hierbei kann man das entsprechende Kontinuitätsmanagement auf drei Levels – Business, IT-Services und Netzwerk – realisieren, um einen Notfallplan zu entwickeln. Jeder Notfallplan muss einen Notfallbewältigungsplan (Disaster Recovery Plan), auch als Notfallbewältigungskonzept bezeichnet, beinhalten, damit man nach verschiedenen Notfällen, falls das Netzwerk nicht mehr funktioniert und IT-Services sowie Geschäftsprozesse lahmgelegt sind, die richtigen Maßnahmen zur Bewältigung des Notfalls ergreifen kann, um entstandene Schäden möglichst schnell beseitigen zu können.

Da Netzwerkdienste und IT-Services als Grundlage für Geschäftsprozesse dienen, sollte ein Business Continuity Management (BCM) die Vorgehensweise nach dem Auftreten eines Notfalls im Netzwerk bestimmen. Unter BCM versteht man im Allgemeinen die Entwicklung von Strategien, Plänen und Handlungen für verschiedene Notfälle, um Geschäftsprozesse, deren Unterbrechung ernsthafte Schäden oder vernichtende Verluste verursachen würden, aufrechtzuerhalten und gegebenenfalls nach deren Unterbrechung ihre Wiederherstellung (Recovery) zu ermöglichen. Zu den Aufgaben eines BCM gehört u.a. die Entwicklung der Notfallpläne, um zu ermöglichen, sowohl IT-Services als auch die Netzwerkdienste nach verschiedenen Notfällen aufrechtzuerhalten bzw. wiederherzustellen.

Ein Notfallplan ist ein Katalog bestehend aus diversen Handlungsanweisungen und Maßnahmen, die man vor/bei/nach Notfällen umgehend ergreifen muss. Hierzu gehört auch ein Notfallvorsorgekonzept, das die Vorsorgemaßnahmen spezifiziert, die man im Voraus ergreifen sollte, damit eventuelle Notfälle möglichst nur geringe Schäden verursachen. Jeder Notfallplan sollte auch ein Notfallbewältigungskonzept enthalten, welches die Vorgehensweise bei der Wiederherstellung des Netzwerkbetriebs und von IT-Services beschreibt. In jedem Notfallplan sollten somit nicht nur die Pläne zur Aufrechterhaltung der Betriebsbereitschaft des Netzwerks enthalten sein, sondern auch Pläne zur Aufrechterhaltung der Betriebsbereitschaft von wichtigen IT-Services. Im Einzelnen handelt es sich um die folgenden Pläne:

  • IT Contingency Plan zur Aufrechterhaltung der Betriebsbereitschaft von wichtigen IT-Services vor/bei/nach verschiedenen Notfällen,
  • IT Disaster Recovery Plan zur Wiederherstellung von wichtigen IT-Services nach einem Katastrophenfall oder ähnlichen Ereignissen,
  • Network Contingency Plan zur Aufrechterhaltung des Netzwerkbetriebs vor/bei/nach verschiedenen Notfällen.
  • Network Disaster Recovery Plan zur Wiederherstellung des Netzwerkbetriebs nach einem Katastrophenfall oder ähnlichen Ereignissen. Somit handelt es sich hier um einen Notfallbewältigungsplan (Notfallwiederherstellungsplan), der alle Maßnahmen spezifiziert und beschreibt, die nach einem Notfall im Netzwerk ergriffen werden müssen, damit der ursprüngliche Netzwerkbetrieb schnellstmöglich wiederhergestellt werden kann.

Um den Netzwerkbetrieb möglichst vor negativen Auswirkungen infolge von eventuellen Notfällen zu schützen, damit diese keine bedeutende, negative Relevanz auf die wirtschaftliche Existenz des Unternehmens, bzw. einer Institution, haben können, müssen im Notfallplan – in Form eines Notfallvorsorgekonzepts – entsprechende Schutzvorkehrungen spezifiziert werden.

Dem Notfallmanagement sind mehrere Standards und Richtlinien gewidmet. Insbesondere sei verwiesen auf:

  • BSI-Standard 100-4: Notfallmanagement
  • ISO-Standards: 2700x, x = 1, 2, 3, 4, 5, 6 und 7
  • ITIL IT Service Continuity Management

Notfallmanagement als kontinuierlicher Prozess

Das Notfallmanagement ist ein komplexer und kontinuierlicher Prozess, um einen solchen organisieren, durchführen und verbessern zu können, ist eine strukturierte, gut durchdachte Vorgehensweise notwendig. Wie Abbildung 8.6-2 in unserem Fachbuch illustriert, lässt sich diese Vorgehensweise als PDCA-Zyklus anschaulich darstellen.

Abb. 8.6-2 im Fachbuch - Badach, A., Rieger, S.: Netzwerkprojekte, Hanser

Die hier gezeigten, einzelnen Phasen lassen sich wie folgt kurz charakterisieren:

  • Initiierung: Mit dem Notfallmanagement kann man ohne gründliche Vorbereitung nicht beginnen. Daher ist eine als Initiierung bezeichnete Vorbereitungsphase nötig. In dieser Phase werden zuerst verschiedene Rahmenbedingungen geklärt, einige Leitlinien erstellt und organisatorische Voraussetzungen geschaffen.
  • Planung: Nach der Initiierung des Notfallmanagements erfolgt dessen Planung. Diese Phase beginnt mit der Ermittlung des Schutzbedarfs für das Netzwerk bei verschiedenen Notfällen. Hierfür muss die sog. Business Impact Analyse (BIA) „lückenlos“ durchgeführt werden, um u.a. feststellen zu können:
  • Von welchen Software-/Hardware-Netzwerkkomponenten sind die IT-Services stark abhängig?
  • Welche IT-Services gelten als Voraussetzung für den reibungslosen Ablauf wichtiger Geschäftsprozesse?

Die BIA-Ergebnisse können in Form von zwei Abhängigkeitsmatrizen präzise dargestellt werden – und zwar als: Netzwerkkomponenten-IT-Services-Abhängigkeitsmatrix und IT-Services-Geschäftsprozess-Abhängigkeitsmatrix. Netzwerkkomponenten, von denen kritische Geschäftsprozesse stark abhängig sind, gelten als potenzielle Notfallschwachstellen.

Um möglichst alle Notfallschwachstellen ermitteln zu können, müssen hierzu insbesondere die folgenden Bereiche – im Hinblick auf ihre Wirksamkeit (Funktionalität), Robustheit und Resilienz bei verschiedenen Notfällen – überprüft werden:

  • die Klimatisierung für Netzwerkkomponenten und Endsysteme (Server),
  • der Brandschutz in IT-Bereich(en),
  • die Stromversorgung (u.a. unterbrechungsfreie Stromversorgung)

Anmerkung: Unter Resilienz und Robustheit werden die folgenden Fähigkeiten eines Systems verstanden: Resilienz besagt, dass ein System unterschiedliche auftretende Störungen kompensieren kann. Dies ermöglicht, dessen einwandfreien Betriebszustand schnell wiederherzustellen. Als Robustheit bezeichnet man die Fähigkeit eines Systems, den in seinem Umfeld auftretenden Veränderungen standzuhalten, ohne sich hierfür anpassen zu müssen.

Nachdem alle potenziellen Notfallschwachstellen erfasst sind und die Analyse von eventuell möglichen Schäden durchgeführt wurde, sollte man anschließend möglichst für jede Schwachstelle zwei Arten von Maßnahmen konzipieren – und zwar:

  • die Vorsorgemaßnahmen, um die entsprechende Notfallschwachstelle gegen einen Notfall (z.B. Brand) robust zu machen und, um dadurch negative Auswirkungen (Schaden) infolge des Notfalls zu reduzieren.
  • die Wiederherstellungsmaßnahmen, dass man die entsprechende Netzwerkkomponente – die vorher als potenzielle Notfallschwachstelle galt – nach einem Notfall möglichst problemlos wiederherstellen bzw. gegebenenfalls auch ersetzen kann.

Die Ergebnisse der Planungsphase sind u.a. die folgenden zwei wesentlichen Bestandteile des Notfallkonzepts: ein Notfallvorsorgekonzept (auch Notfallvorsorgeplan genannt) und ein Notfallwiederherstellungsplan (Disaster Recovery Plan).

  • Umsetzung: In dieser Phase wird festgelegt, wie die Umsetzung des geplanten Notfallvorsorgekonzepts durchgeführt, begleitet und überwacht werden soll/kann. Da für die Umsetzung des Notfallvorsorgekonzepts oft nur beschränkte Möglichkeiten (Budget, Personal) vorhanden sind, ist daher das Ziel dieser Phase, eine möglichst wirksame und wirtschaftliche Umsetzung des geplanten Notfallvorsorgekonzepts zu erreichen. Die hierbei gewonnenen Erkenntnisse sollen im Notfallkonzept dokumentiert werden.
  • Überprüfung: Das geplante und bereits umgesetzte Notfallvorsorgekonzept muss unbedingt überwacht werden, damit man dessen Wirkung, Effizienz und Aktualität sicherstellen kann. Aus diesem Grund muss das Notfallvorsorgekonzept regelmäßig auf dessen Wirksamkeit hin „getestet“ und eventuell in Übungen überprüft werden. Insbesondere lässt sich erst durch die Übungen feststellen, wie weit die Dokumentation des Notfallvorsorgekonzepts in Form des Notfallhandbuchs – vor allem der Alarmierungsplan – nutzbar ist und, ob die Notfallkoordinatoren die ihnen zugeteilten Aufgaben auch wahrnehmen können.
  • Anpassung/Aktualisierung: Alle relevanten Veränderungen im Netzwerk – insbesondere dessen Erweiterungen – führen dazu, dass nicht nur das Notfallkonzept mit dem Notfallvorsorgeplan und dem Notfallwiederherstellungsplan immer an Veränderungen im Netzwerk angepasst/aktualisiert werden sollte, sondern auch das Notfallmanagement als Prozess selbst regelmäßig auf dessen Wirksamkeit und Effizienz hin überprüft werden muss. Damit man die Effektivität des Notfallmanagements und des umgesetzten Notfallkonzepts aufrechterhalten kann, sollte es kontinuierlich überwacht, gesteuert und aktualisiert werden. Hierfür wird oft ein spezielles Auditing durchgeführt.

Eine große Bedeutung beim Notfallmanagement hat die Dokumentation des Notfallkonzepts – und insbesondere der Teil Notfallhandbuch.

Notfallhandbuch – Struktur und typische Angaben

Wie die hier gezeigte Abbildung 8.6-2 aus unserem Fachbuch zum Ausdruck bringt, bildet das Notfallhandbuch mit allen zur Notfall­bewältigung benötigten Plänen, Organisationsstrukturen, Angaben sowie erforderlichen Maßnahmen, die nach Eintritt eines Notfalles zur Wiederherstellung des normalen Netzwerkbetriebs ergriffen werden müssen, den wesentlichen Teil der Dokumentation des Notfallkonzepts. Abbildung 8.6-3 zeigt ein Beispiel für die Struktur des Notfallhandbuchs. Für Näheres sei auf das entsprechende Kapitel unseres Fachbuchs Netzwerkprojekte verwiesen.

Abb. 8.6-3 im Fachbuch - Badach, A., Rieger, S.: Netzwerkprojekte, Hanser

Die einzelnen Teile des Notfallhandbuchs enthalten folgende Angaben, die aussagekräftig und für die jeweilige Zielgruppe verständlich sein müssen:

  • Einleitung: Hier kann die Struktur des Notfallhandbuches kurz erläutert werden.
  • Verfügbarkeitsanforderungen: Verschiedene Störungen und Notfälle müssen nach ihrer Bedrohungsstufe – d.h. nach ihren negativen Auswirkungen – differenziert werden. Im Notfallhandbuch muss ersichtlich sein, welche Systeme und Daten besonders geschäftskritisch sind.

Wie bereits erwähnt wurde, werden die Verfügbarkeitsanforderungen während der Planungsphase (s. Abb. 8.6-2) mithilfe der Business Impact Analyse ermittelt und in Form der Abhängigkeitsmatrizen Netzwerkkomponenten-IT-Services- und IT-Services-Ge­schäfts­prozess dargestellt. Auf der Grundlage von Verfügbarkeitsanforderungen kann die Gefährdung durch einen auftretenden Notfall einer Eskalationsstufe zugeordnet werden.

  • Notfalleinschätzung: Auf der Basis von Verfügbarkeitsanforderungen kann die Eskalationsstufe des Notfalls abgeschätzt werden. Die Notfallart (z.B. Brandfall, Stromausfall) und die Eskalationsstufe bestimmen dann den Alarmierungsplan und folglich auch die weitere Vorgehensweise.
  • Verantwortlichkeiten und Alarmierungspläne: Im Notfallhandbuch muss spezifiziert werden, wer für was während des Notfalls verantwortlich ist. Hierfür muss ein Notfallkoordinator benannt werden, damit er eine rechtzeitige Einleitung von Notfallmaßnahmen initiieren kann. Der Notfallkoordinator steuert dann rund um die Notfallbewältigung alle Aktivitäten des Notfallteams, zu dem u.a. die Netzwerkadministratoren gehören. Um die Bewältigung verschiedener Notfallarten zu koordinieren, sind entsprechende Alarmierungspläne nötig – darunter auch Notfallnummerverzeichnisse.
  • Regeln für Mitarbeiter: Die Bewältigung jedes Notfalls betrifft – ohne Ausnahme – alle Mitarbeiter, sodass sie durch eine entsprechende Schulung im Hinblick auf das Verhalten und ihre Verantwortlichkeiten in einem Notfall informiert und sensibilisiert werden sollten. Die Regeln mit Anweisungen für das Verhalten von Mitarbeiter bei verschiedenen Notfällen sollten in Form von Leitlinien verfasst und bekannt gemacht werden. Jeder Einzelne sollte dann durch sein verantwortungsbewusstes Verhalten im Notfall dazu beitragen, Schäden möglichst zu vermeiden.
  • Wiederherstellungsplan/-pläne: Die für die Wiederherstellung des normalen Netzwerkbetriebs bzw. in einigen Fällen eingeschränkten Betriebs notwendigen Maßnahmen und Informationen bilden einen Wiederherstellungsplan (Recovery Plan). In der Regel benötigt man mehrere Wiederherstellungspläne, die den verschiedenen Notfallarten und Eskalationsstufen angepasst sind. Die zur Wiederherstellung des Netzwerkbetriebs benötigten Schritte müssen ebenso im Wiederherstellungsplan aufgezeigt werden.

Im Notfallhandbuch sollten aber auch die zur Wiederherstellung des Netzwerkbetriebs benötigten Informationen enthalten sein – und insbesondere: ein Ersatzbeschaffungsplan für das schnellstmöglichste Ersetzen von beschädigten Netzwerkkomponenten, notfallrelevante Dokumentation der Datensicherung, notfallrelevante Dokumentation der Konfigurationsparameter, Liste der notwendigen Passwörter, Angaben über Installationssoftware (Auflistung, Standort der Aufbewahrung) etc.

  • Notfallmaßnahmen für wichtige Server: Damit man wichtige Server – wie etwa einige Datenserver, Server für Internetdienste (insbesondere Webserver, Mailserver, VoIP-Server/Proxy), alle Server des IP-Kommunikationssystems (u.a. DNS-, DHCP-, RADIUS-Server) – möglichst schnell ersetzen kann, sollte das Notfallhandbuch Notfallmaßnahmen spezifizieren, die man bei der Installation dieser Server ergreifen muss. Diese Notfallmaßnahmen können auch als Bestandteil des Wiederherstellungsplans angesehen werden.

 

Liebe Leserinnen, liebe Leser, in diesem Beitrag haben wir Ihnen Ansätze für die Realisierung eines Notfallmanagements im Bereich eines Netzwerkprojekts in fundierter Form erläutert. Wir hoffen, dass unser Beitrag einige Ideen für Sie vermittelt hat, damit Sie in Ausnahme- bzw. Notfällen zumindest den Minimalbetrieb Ihres Netzwerks nachhaltig sicherstellen und schnell wieder in den Regelbetrieb überführen können. In unserem nächsten und letzten Beitrag werden wird uns dem reibungslosen Netzwerkbetrieb noch einmal aus dem Blickwinkel der dafür erforderlichen Aufgaben und Dokumentationen zuwenden.

Ihre Autoren

Anatol Badach und Sebastian Rieger