Technische Resilienz von IT-Systemen
Was uns die Ausfälle der Grosskonzerne über den Stand der IT sagt
Von einer Änderung zum Blackout
Manchmal lassen sich Ausfälle nicht vermeiden. Eine kleine Änderung in einem riesigen und komplexen System kann zu einem Ausfall führen, von dem eine Milliarde Menschen stundenlang betroffen sind. Die jüngsten Ereignisse (z. B. der Ausfall von Facebook), von denen die meisten Leser dieses Artikels betroffen waren, haben dies gezeigt. In den letzten Jahren ist in der Ingenieurwelt eine neue Disziplin entstanden, die sich mit dem Thema der technischen Resilienz befasst und Störungen auf vielversprechende Weise angeht.
Was bedeutet technische Resilienz?
Einer der Hauptgründe für die Erforschung technischer Resilienz ist die Annahme, dass Ausfälle und störende Ereignisse auftreten werden. Resilienzansätze zielen darauf ab, die negativen Folgen solcher Ereignisse maximal zu reduzieren. Denn wie das Beispiel Facebook zeigt: hinter Ausfällen stecken nicht nur kleine Unannehmlichkeiten, sondern nicht wieder gutzumachende Reputationsschäden und nachhaltige finanzielle Einbussen.
Die Phasen der Resilienz
Die Hauptkategorien von Aktivitäten im Rahmen der Resilienz umfassen die Phasen:
- Bereitschaft
- Prävention
- Schutz
- Reaktion
- Wiederherstellung
Diese Phasen sind konzeptionell in einer zyklischen Weise angeordnet, die mit dazwischenliegenden Lernaktionen wiederholt angewendet wird.
Wie hätte Resilienz das Facebook-Blackout verhindern können?
Die jüngsten Ausfälle haben uns dazu veranlasst, darüber nachzudenken, was wir hätten tun können, um die Folgen dieser Ereignisse zu mildern – oder gänzlich zu vermeiden.
Eine der wichtigsten zeitaufwändigen Aktivitäten bei solchen Ereignissen ist die Analyse. Je kürzer die Analysezeit ist, desto eher können Gegenmaßnahmen ergriffen werden, um negative Folgen zu mildern oder sogar zu verhindern. Mit CuriX gehen wir sogar noch einen Schritt weiter und identifizieren potentiell problematische Umstände innerhalb von Systemen vor kritischen Systemzuständen. Wenn man diese Hinweise ernst nimmt, kann man mit der Analyse von Ereignissen beginnen, noch bevor sie eintreten. Mit den Vorwarn- und Vorhersagefunktionen von CuriX geben wir unseren Nutzern die Möglichkeit, wertvolle Zeit für das Krisen- und Katastrophenmanagement zu gewinnen.
Dies erreichen wir durch die Vorhersage einzelner Messgrößen, die Erkennung von Anomalien, die Identifikation kritischer Systemzustände und die intelligente Analyse von Systemtopologien. Vollständig automatisiert. Basierend auf den neuesten Erkenntnissen aus den Bereichen IT-Management, Risikobewertung und nicht zuletzt der Resilienzforschung.
Es ist Zeit für moderne Ansätze wie CuriX, denn die jüngsten Ausfälle haben gezeigt, dass selbst große Unternehmen noch kein optimales Niveau an technischer Resilienz erreicht haben.