vchalup - stock.adobe.com
AIOps: So werden Administratoren in Zukunft mit KI arbeiten
Algorithmen haben das Potential, IT-Betriebe zu revolutionieren. Erfahren Sie in diesem Artikel, wie Administratoren in Zukunft KI-Anwendung und Training nutzen werden.
Effizientere IT, mehr Produktivität und niedrigere Betriebskosten sind einige der wichtigsten Vorteile des KI-gestützten IT-Betriebs, der oft unter dem Begriff AIOps zusammengefasst wird. Technologische Innovationen machen sie immer mehr für Unternehmen jeder Größe zugänglich und bezahlbar. Die Folge ist eine breitere Nutzung von GPUs, maschinellem Lernen und Datenanalyse.
IT-Führungskräfte, die Schritte zur Einführung von KI-Technologie (künstliche Intelligenz) unternehmen, befinden sich auf dem Weg zu hochautomatisierten, sicheren und selbstheilenden Rechenzentren, die nur minimale praktische Eingriffe erfordern.
Doch um dahin zu kommen, müssen Unternehmen sich intensiv mit dem Thema auseinandersetzen, um die richtigen KI-Modelle für die richtigen Anwendungsfälle zu identifizieren. Und damit ist es nicht getan: IT-Teams müssen sich mit dem Ausbau ihrer Machine-Learning-Systeme beschäftigen und Modelle laufend trainieren, damit sie effizient bleiben. Lassen Sie uns aktuelle KI-Bereitstellungen, betriebliche Anwendungsfälle und Schlüsselelemente im Trainingsprozess untersuchen, mit denen IT-Abteilungen ihre KI-Strategie auf die nächste Stufe heben können.
AIOps im Rechenzentrum: Ziele und Nutzen
Der erfolgreiche Einsatz von KI bei der Administration hängt davon ab, ob es gelingt, nützliche Informationen aus verschiedenen IT-Quellen zu aggregieren; dazu gehören Systemüberwachungsdaten, Leistungsbenchmarks und Jobprotokolle.
AIOps unterstützen den primären IT-Betrieb durch die Analyse von Datenpunkten, die aus der gesamten IT-Infrastruktur gesammelt wurden. Neben der Kombination von Big Data mit maschinellem Lernen zur Automatisierung von Rechenzentrumsprozessen umfasst eine AIOps-Plattform in der Regel Ereigniskorrelation, Anomalieerkennung und Kausalitätsfaktoren, um den Gerätezustand zu verbessern, die Sicherheit zu erhöhen und Ausfallzeiten zu vermeiden.
Das Ziel ist eine intelligente Automatisierung, die proaktiv Verbesserungen vornimmt und Rechenzentrumsprobleme automatisch repariert. Administratoren können sich darauf verlassen, dass eine Infrastruktur normal funktioniert und schnell auf Warnungen und mögliche Systemausfälle reagiert.
IT-Teams verwalten beispielsweise nicht nur Konfigurationen und vermeiden Drifts, sondern verwenden auch KI, um die Hardwareleistung genau zu überwachen, die Benutzerfreundlichkeit zu verbessern oder Kapazitätsengpässse zu erkennen und Serviceausfälle zu vermeiden.
Neben der Überwachung der Hardware ist der häufigste Anwendungsfall für KI im Rechenzentrum die Energieverwaltung und -effizienz. KI-Bereitstellungen können die Temperaturkontrolle optimieren, die Lastaufnahme reduzieren und die Nachhaltigkeit verbessern. IT-Teams kombinieren KI mit prädiktiver Analyse, um Verteilungsebenen zu verfolgen und potenzielle Defekte in elektrischen Systemen zu identifizieren – Vorteile, die über ein gutes Anlagendesign hinausgehen.
Im Laufe der Zeit werden IT-Führungskräfte zunehmend KI einsetzen, um Softwarebereitstellungen durch Workload-Automatisierung zu optimieren und damit die bestmögliche Anwendungsperformance sicherzustellen. Ein gut trainiertes KI-Modell könnte beispielsweise automatisch Kosten- und Risikofaktoren abwägen, um einem Unternehmen bei der Entscheidung zu helfen, ob Workloads lokal oder in der Cloud platziert werden sollen.
Wichtige Überlegungen zum Training von KI
Das Verständnis von KI-Modellen ist die Grundlage, auf die ein effektiver Trainingsprozess aufbaut. Modelle bezeichnen in der KI das Ergebnis von Algorithmen, bei denen es sich um Rechenanweisungen handelt, die eine gewünschte Reaktion liefern. Werden andere Daten in den Algorithmus eingespeist, gibt dieser ein anderes Modell aus. Durch die Verarbeitung von Informationspools und das Erlernen der Mustererkennung kann ein gut trainiertes Modell in einem Rechenzentrum die gleichen Aktionen ausführen wie ein IT-Experte.
Die Bedeutung der Datenqualität für ein effektives Training ist kaum zu überschätzen. KI benötigt riesige Mengen an Informationen, um die gewünschten Ergebnisse zu erzielen. Deshalb umfasst der Trainingsprozess in der Regel Schritte zum Identifizieren, Aggregieren, Bereinigen und Kommentieren eines bekannten Datensatzes sowie zum Integrieren von Datenpunkten aus verschiedenen Silos. Das Ziel besteht darin, Inkonsistenzen im Voraus zu beseitigen, um sicherzustellen, dass die Trainingsfeeds reichhaltig und genau sind.
IT-Teams wenden viel Zeit auf, um Daten zu bereinigen und Funktionen zu entwickeln, damit der Datensatz möglichst eindeutig ist. Sobald Modelle bereitgestellt sind, überwachen Administratoren sie auf Drift und trainieren sie bei Bedarf neu. Eine sorgfältige Vorausplanung für KI-Bereitstellungen ist entscheidend für den Erfolg und das Verständnis zukünftiger Skalierbarkeitsanforderungen.
Die drei Hauptansätze des Trainings sind überwachtes (supervised), unüberwachtes (unsupervised) und verstärktes (Reinforcement) Training. Beim Supervised Learning liefern IT-Personal und Data Scientists die Modell- und Trainingsdaten. Algorithmen werden dann zum Vehikel für die Verbesserung und Feinabstimmung des Modells und die Assimilation neuer Daten.
Beim unüberwachten Lernen identifizieren KI-Algorithmen selbstständig Muster in nicht gekennzeichneten Daten und ergreifen dann basierend auf diesen Erkenntnissen Maßnahmen, um die Genauigkeit durch Wiederholung und Erfahrung zu erhöhen.
Beim Reinforcement Learning ist es entscheidend, Feedback an die KI zurückzugeben. Dadurch lernen Modelle, optimale Ergebnisse zu identifizieren und anzustreben. Diese Ansätze beinhalten präzise Informationen. Letztendlich ist das menschliche Wissen über das Rechenzentrum der Schlüssel dazu, KI zu trainieren, dass sie die richtigen Entscheidungen trifft und die entsprechenden Aktionen ausführt.
AIOps und die Zukunft
Bewertungen für effektive KI-Bereitstellungen sollten sich auch auf die Infrastruktur beziehen. Ziel ist es, Hard- und Software so aufzubauen, dass sie mit der KI wachsen können. Netzwerke sollten beispielsweise die niedrigen Latenzen und die hohe Bandbreite bereitstellen, die erforderlich sind, um neue Rechen- und Datenanforderungen zu erfüllen, sowie die für KI erforderlichen schnellen Nachrichtenraten und intelligenten Auslagerungen.
Mehrere Server-GPUs sind notwendig, um Daten mit den hohen Raten zu verarbeiten, welche die KI erfordert. Unternehmen können eine Shared-Storage-Infrastruktur nutzen, die bei zunehmender KI-Nutzung reibungslos skaliert.
IT-Teams werden auch bei ihren KI-Bereitstellungen mit einer Reihe einzigartiger Herausforderungen konfrontiert. Dazu gehört vor allem die Kommunikation zwischen den Teams, die für das Design, den Aufbau und die Operationalisierung von KI-Modellen verantwortlich sind. Beispielsweise haben Engineering- und IT-Teams manchmal Schwierigkeiten, die von Data Scientists erstellten KI-Modelle zu verstehen und in der Praxis anzuwenden.
Für kleinere Organisationen und Start-ups kann das Bereinigen enormer Datenmengen, zur Durchführung von Feature-Engineering und zum effizienten Trainieren von Modellen eine große Hürde darstellen. Es ist jedoch klar, dass KI zum entscheidenden Wirtschaftsfaktor für Rechenzentren wird, je mehr sie im Mainstream ankommt.
Die Cloud wird einen Großteil dieser Expansion vorantreiben. Immer mehr KI-Cloud-Dienste bieten Rechenzentrumsoptionen, Hosting-Dienste für KI-Ansprüche oder Dienste, die AI-Modelle für das Unternehmen aktuell halten.
Laut einer Studie von Gartner wird der Einsatz von AIOps zur Überwachung von Anwendungen und Infrastruktur von 5 Prozent im Jahr 2018 auf 30 Prozent im Jahr 2023 steigen. Neben der Verbesserung der Effizienz ihrer Rechenzentren werden sich immer mehr Unternehmen auf KI verlassen, um mit anderen aufkommenden Technologien Schritt zu halten. Ein hybrider Ansatz für AIOps könnte IT-Führungskräften dabei helfen, über KI-Bereitstellungen hinauszugehen, um grundlegende Ressourcenüberwachung umzusetzen sowie Hardwarekonfigurationen und die Widerstandsfähigkeit gegenüber komplexeren Aufgaben aufrechtzuerhalten.