MR - stock.adobe.com

Mit AIOps zur (beinahe) selbstheilenden IT-Infrastruktur

Eine sich autonom selbstverwaltende IT-Infrastruktur klingt wie Science Fiction – doch mit AIOps kommen IT-Abteilungen diesem Ziel immer näher. Wir zeigen, wie.

Selbstheilende IT-Infrastrukturen sind mittlerweile durch maschinelles Lernen und Innovationen in der Datenanalyse sowie durch breitere KI-Einführungen keine reine Science Fiction mehr. Solche Systeme könnten Betriebsanomalien erkennen, Hardwarefehler vorhersagen und Leistungsprobleme ohne manuelles Eingreifen beheben.

Die technischen Möglichkeiten dafür gibt es bereits heute – doch Unternehmenskulturen, Legacy-Systeme und auch die erst noch wachsende Verfügbarkeit von KI machen eine echte Hands-off-IT schwer umzusetzen. In diesem Artikel zeigen wir, welche Schritte ein Unternehmen heute vornehmen kann, um die Fehlerbehebung in ihrer IT-Systemen so weit wie möglich zu automatisieren und sich dadurch auf die Einführung selbstheilender IT vorzubereiten.

Elemente selbstheilender Rechenzentren

Rechenzentren werden immer komplexer, Betriebskosten steigen und Unternehmen sehen sich zunehmend mit Herausforderungen bei der Akquise von Personal zur Verwaltung von IT-Strukturen konfrontiert.

Das steigende Interesse an Cloud-Services zeigt beispielsweise den Wert, den Unternehmen zugänglichen, dynamischen und extern verwalteten Ressourcen beimessen. Bei selbstheilender IT-Infrastruktur setzen IT-Führungskräfte Automatisierung ein, um einen konsistenten Betrieb zu erreichen und die Auslastung in der gesamten Computing-Infrastruktur zu verbessern. Durch Automatisierung und die Integration von maschinellem Lernen und künstliche Intelligenz (KI) in Geschäftsabläufe auch jenseits der IT strebt dieser Ansatz danach, Rechenzentrumsprobleme zu beseitigen, bevor sie sich auf andere Abteilungen und das Unternehmen generell ausweiten können.

Administratoren verwenden Virtualisierung, um Ressourcen dynamisch zu verteilen, um Rechen- und Anwendungsanforderungen zu erfüllen, und letztlich das Rechenzentrum als eine einzelne, vereinheitlichte Maschine behandeln zu können.

Die selbstheilende IT ordnet Ressourcen effizient über gepoolte CPU-, Arbeitsspeicher-, Speicher- und Netzwerkressourcen um. Darüber hinaus automatisiert sie wiederkehrende Betriebsaufgaben wie die Bereitstellung von VMs und das Verteilen von Workloads in Echtzeit.

Administratoren benötigen eine umfassende Kenntnis der Funktionsweise ihres Rechenzentrums, um das Erstellen eines selbstheilenden IT-Systems auf den Weg zu bringen.

Ein weiterer wichtiger Aspekt von selbstheilenden IT-Systemen ist die Nutzung von Netzwerkdaten und Algorithmen zur dauerhaften Überwachung der Infrastruktur. Beispielsweise führt das Verarbeiten und Übertragen von Geschäftsinformationen als Batch-Daten häufig zu Fehlern. Selbstheilende IT-Infrastrukturen können diese Art von Ausfällen jedoch überwachen, verhindern oder reparieren. Sie bewerten die Software- und Hardwareleistung und fügen Ersatzressourcen hinzu, wenn eine Anwendung oder ein Server Anzeichen für einen möglichen Ausfall aufweist.

Heutzutage setzen viele IT-Teams bereits eine Kombination aus KI, Echtzeitanalyse und IoT-Sensoren (Internet of Things, Internet der Dinge) ein, um beispielsweise Klimatechniksysteme in Rechenzentren zu überwachen und Umgebungsvariablen wie Luftfeuchtigkeit und Temperatur automatisch anzupassen. Das Ziel besteht darin, Hochverfügbarkeit für Rechen- und Netzwerkprozesse zu gewährleisten. Dies ist besonders wichtig, da Rechenzentren für IoT-Funktionen und durch die Verfügbarkeit von ausgedehnten Mobilfunknetzen näher an den Edge rücken, wo der Administrator nicht im Büro nebenan sitzt.

Zusammen mit Virtualisierung und Überwachung passen sich selbstheilende IT-Infrastrukturen auch an die von Administratoren festgelegte Richtlinien an. AI-Fueled Operations (AIOps) setzen regelbasierte, automatisierte Reaktionen auf Infrastrukturänderungen ein, damit sich Tools bei Bedarf selbst korrigieren können. Fällt beispielsweise eine CPU aus, verlagert sich die Rechenlast automatisch auf eine andere. Mit Zustandsüberwachung und Telemetriedaten können AIOps dazu beitragen, Konfigurationen konsistent zu halten sowie Komponenten- oder Gerätefehler zu diagnostizieren und zu reparieren.

Wichtige Schritte zur Einführung einer (fast) selbstheilenden Architektur

Administratoren benötigen eine umfassende Kenntnis der Funktionsweise ihres Rechenzentrums, um das Erstellen eines selbstheilenden IT-Systems auf den Weg zu bringen.

Errichten Sie zuerst eine Infrastruktur, mit der sie anhand definierter Metriken Protokollprüfungen und Warnungen automatisieren, um wichtige Vorgänge kontinuierlich zu verfolgen, einschließlich CPU-Auslastung, Festplattenkapazität und Speicherbeschränkungen. Durch Leistungseinblicke und Benchmarks können Sie das grundlegende Wissen schaffen, auf dessen Basis Sie Probleme diagnostizieren und das Risiko für Rechen- oder Netzwerkausfälle bestimmen.

Schritt zwei besteht darin, Datenanalysen einzuführen, um Informationen zu sammeln, aus denen sich genaue Vorhersagen ableiten, Einblicke in systemweite Schwachstellen gewinnen und Problembereiche identifizieren lassen. Durch diese Vorgehensweise synthetisieren Sie eine große Anzahl von Systemereignissen, um Vorhersagen zu treffen und Vorschläge für Gegenmaßnahmen zu erhalten. Solche Analysen verwenden auch Clustering und Korrelation, um den Datenerfassungsprozess zu rationalisieren, der Metriken für KI- und maschinelle Lernalgorithmen generiert. IT-Teams wenden diese Algorithmen an, um Modelle für die Problemerkennung zu trainieren und den Selbstheilungsprozess zu implementieren.

Der dritte Schritt besteht darin, einen proaktiven AIOps-Ansatz zu entwickeln, der Big Data mit maschinellem Lernen kombiniert, um Rechenzentrumsprozesse automatisiert. AIOps überwachen die Hardwareleistung, erweitern die Benutzerfreundlichkeit und kompensieren Ausfälle, die den Betrieb einschränken. Sie reduzieren auch die Arbeitsbelastung für die Administratoren und das setzt Ressourcen für andere Aufgaben frei.

IT-Teams definieren und erstellen Regeln, die eine hohe Rechenzentrumsleistung und Geschäftskontinuität gewährleisten. Um eine Selbstheilung zu erreichen, kodifizieren, orchestrieren und automatisieren AIOps Betriebsregeln. Der Prozess erstreckt sich auf jeden Aspekt des Rechenzentrums, von der Koordinierung von Warnprotokollen bis hin zur Klassifizierung von Infrastrukturtypen.

Selbstheilende IT-Herausforderungen und -Vorteile

Selbstheilende IT-Systeme helfen außerdem bei Personalproblemen. IT-Führungskräfte stehen vor einer Vielzahl von Herausforderungen, wenn es darum geht, erfahrene Fachkräfte zu finden. Und die Lage wird sich wahrscheinlich noch verschärfen: In einer Umfrage von Vertiv gaben 16 Prozent der befragten IT-Spezialisten an, dass sie bis 2025 in den Ruhestand gehen.

Immer weniger Mitarbeiter nehmen somit immer mehr Verantwortung an. Dem gegenüber gleicht eine selbstheilende IT-Umgebung überlastetes Personal und überlastete Ressourcen aus. Sie ermöglicht Rechenzentren, Expansionen und Innovationen zu bewältigen, einschließlich 5G-Netzwerken, Edge-Computing und Microservice-Architekturen.

Erfahren Sie mehr über Server- und Desktop-Virtualisierung