Getty Images
Wie KI und ML den Cloud-Betrieb verändern können
KI- und ML-Tools unterstützen den Cloud-Betrieb bei IT-Sicherheit, Fehlerkorrelation und Latenz. Diese Best Practices helfen CloudOps-Teams, die richtigen Schritte zu unternehmen.
Künstliche Intelligenz (KI) und maschinelles Lernen (ML) versprechen, fast jeden Aspekt des Lebens zu verändern. Daher ist es nicht verwunderlich, dass Unternehmen hoffen, das eine oder beide Technologien auch den Cloud-Betrieb (CloudOps) verändern. Jedes Unternehmen wünscht sich einen effizienten, fehlerfreien IT-Betrieb und KI und ML stehen ganz oben auf der Liste der Technologien, von denen sie sich das erhoffen.
ML kann die Erkenntnisse nutzen, die in den Aufzeichnungen von Unternehmen über den Cloud-Betrieb und die Bedingungen enthalten sind. KI kann vergangene Trends oder breitere Erfahrungen extrapolieren, um ein besseres Verständnis für die Zukunft zu schaffen. Lernen Sie die wichtigsten KI- und ML-Anwendungsfälle in CloudOps kennen und machen Sie sich mit einigen Tool-Beispielen vertraut.
Planung mit KI und ML
Bis vor kurzem konzentrierten sich die meisten KI- und ML-Anwendungen im Cloud-Betrieb auf die Verwendung von Datenanalysen zur Verbesserung der Ressourcennutzung und -effizienz, vor allem auf Planungsebene. Insbesondere maschinelles Lernen kann historische Nutzungsmuster sowohl in Bezug auf die angebotene Last – Benutzer und Benutzeraktivität – als auch auf die Ressourcenbelegung analysieren. Sie können auch optimale Verfahren entwickeln, um die Ressourcennutzung im Laufe der Zeit auszugleichen. Diese Fähigkeiten können Unternehmen dabei unterstützen, den Aufbau neuer Cloud-Anwendungen zu rechtfertigen, während sie gleichzeitig die Ressourcennutzung regelmäßig überprüfen und die Kosten verwalten.
Dieser Anwendungsfall auf Planungsebene hat sich zu einer Echtzeitanalyse der Cloud-Nutzung und Protokolle entwickelt. Die Nutzer stellen fest, dass KI und ML Änderungen in der Cloud-Nutzung besser erkennen können als menschliche Prüfer. Die Analyse kann Empfehlungen zur Änderung von Ressourcenzusagen in Echtzeit geben oder sogar Ressourcen dynamisch bestellen.
Aber die Nutzer vertrauen nur ungern auf ein automatisiertes System, das Cloud-Ressourcen bestellt, zugesagte Cloud-Ressourcen reduziert oder Cloud-Kosten senkt, ohne die Quality of Experience (QoE) wesentlich zu beeinträchtigen. Im Moment bevorzugen die meisten Nutzer Empfehlungen. Diese Echtzeitanalyse erfordert Anwendungs- und Ressourcenüberwachungsanwendungen mit KI- und ML-Funktionen.
Skalierung mit KI
KI kann besonders bei der Skalierung von Vorteil sein. Die Beziehung zwischen Benutzer-QoE und zugewiesenen Cloud-Ressourcen ist komplex. Es ist keine einfache Sache, die QoE zu verdoppeln, wenn Unternehmen die Ressourcen verdoppeln. Im Allgemeinen nimmt die Wirkung zusätzlicher Ressourcen auf Faktoren wie die Reaktionszeit mit zunehmender Last ab.
KI ermöglicht die Vorhersage von QoE-Effekten, bevor die Ressourcen auf- oder abgebaut werden. Damit bietet sie eine raffinierte Methode zur Skalierung, um Ressourcen zu erhöhen, wenn die Last steigt und umgekehrt. Diese Berechnungsunterstützung ist besonders wertvoll in hybriden und Multi-Cloud-Implementierungen, bei denen die Skalierung administrative Grenzen überschreiten kann.
Die Unterstützung der Skalierung erfordert spezialisierte Echtzeit-KI- und ML-Tools, die sich auf die Beobachtbarkeit sowohl auf Anwendungs- als auch auf Ressourcenebene konzentrieren.
Latenzzeit
Eine weitere verwandte Aufgabe von KI in CloudOps ist die Verwaltung der Platzierung von Anwendungskomponenten zur Kontrolle der Latenz. IoT-Anwendungen, die Sensorinformationen sammeln, um Prozesse oder Bewegungen in Echtzeit zu steuern, haben ein bestimmtes Verzögerungsbudget. Für Betriebsteams ist es schwierig, die Latenz zu verwalten, wenn Benutzer Cloud-Prozesse auf den Rand der Prozessverbindung, die Cloud und das Rechenzentrum verteilt haben.
Wenn es möglich ist, eine Anwendungskomponente an jedem dieser Standorte zu instanziieren, ist die Optimierung von Latenz und Hosting-Kosten komplex. Wenn die Instanziierung schnell erfolgen muss, ist sie für das Betriebspersonal wahrscheinlich nicht zu bewältigen.
Tools zur Anwendungsbeobachtung mit KI- und ML-Unterstützung sind für das Latenzmanagement am besten geeignet.
Sicherheit und Compliance
Sicherheits- und Compliance-Richtlinien sind ein Bereich, in dem KI und ML erhebliche Gesamtvorteile bieten. Die Durchsetzung von Richtlinien mit manuellen Tools ist aufgrund des Arbeitsaufwands und des Risikos von Fehlern und Auslassungen immer eine große Herausforderung.
Cloud-Ressourcenverpflichtungen und Workflow-Verbindungen können Warnungen erzeugen, die KI und ML anhand von Sicherheits- und Compliance-Richtlinien verarbeiten. ML kann neue Probleme erkennen, indem es die Muster der Cloud-Bereitstellung und -Verbindung mit früheren Praktiken vergleicht. KI tut dasselbe, um Muster im Vergleich zu Sicherheits- und Compliance-Richtlinien zu bewerten.
Es gibt nur wenige spezialisierte Sicherheits-Tools mit KI und ML, aber Tools zur Anwendungsbeobachtung können häufig unterstützen.
Warnungen und Fehlerkorrelation
Da KI und ML in der Lage sind, Warnmeldungen für Sicherheit und Compliance zu verarbeiten, ist es nur ein kleiner Schritt, sie auch für das Warnmanagement und die Fehlerkorrelation einzusetzen. Wenn sie richtig eingesetzt werden, verringern KI und ML das Risiko eines Fehlersturms, der das Betriebspersonal überfordern kann. Wenn sie falsch gemacht werden, können KI und ML Fehler einführen, die dem Betriebsteam verborgen bleiben. Diese versteckten Fehler können zu erheblichen Problemen bei der Stabilität und Leistung von Anwendungen führen.
Der Unterschied zwischen dem richtigen und dem falschen Einsatz von KI und ML beruht weitgehend auf dem Training des Systems mit den eigenen Daten eines Unternehmens. Vorgefertigte KI- und ML-Tools spiegeln wahrscheinlich nicht die spezifische Art und Weise wider, wie Unternehmen die Cloud nutzen, und die Bedingungen, die für sie wichtig sind. Spezialisierte KI- und ML-Tools sind für die Filterung von Alarmen und die Fehlerkorrelation verfügbar, und es ist wichtig, dass die Teams die Tools ausprobieren oder die Funktionen überprüfen, um sicher zu sein, dass sie für ihre Aufgabe geeignet sind.
Theoretisch können KI und ML Änderungen und Fehlerbehebungen implementieren, anstatt sie vorzuschlagen, aber die Benutzer sind aus zwei Gründen eher vorsichtig. Erstens können KI- und ML-Tools Fehler machen, wie Berichte über generative KI zeigen. Diese Fehler können zu Problemen führen, die potenziell schwerwiegender sind als die, die zu den Warnungen geführt haben. Zweitens neigt das Betriebspersonal mit der Zeit dazu, geschlossene, reaktive KI und ML wie einen Autopiloten zu behandeln. Wenn sie die Ereignisse nicht verfolgen, laufen sie Gefahr, den Überblick über die Cloud-Ressourcen und den Anwendungsstatus zu verlieren, was es ihnen erschwert, einzugreifen, wenn automatisierte Systeme versagen.
Observability Tools
Die Tools, die diese KI- und ML-Transformationen im Cloud-Betrieb unterstützen, sind vielfältig. Einige umfassen allgemeine AIOps-Tools sowie Tools, die für eine umfassendere Anwendungs- und Ressourcenbeobachtung und Alarmverarbeitung entwickelt wurden.
Anwendungsfälle, die eine Datenanalyse beinhalten, werden oft von denselben KI- und ML-Analyseprodukten unterstützt, die viele Unternehmen bereits einsetzen. Spezialisierte, auf den Betrieb ausgerichtete Tools wie PagerDuty könnten jedoch effizienter sein.
Zu den anderen spezialisierten Tools gehören:
- Observability Tools wie BigPanda, Coralogix, Dynatrace, Netreo und New Relic
- Werkzeuge zur Problemüberwachung wie LogicMonitor
- Tools zur Ursachenanalyse wie Moogsoft und Operations Bridge von Micro Focus
Produkte, die für allgemeine AIOps entwickelt wurden und sich auf maschinelles Lernen konzentrieren, wie zum Beispiel Grok, sind auch in der Cloud, einschließlich Hybrid- und Multi-Cloud, einsetzbar.
Definieren eines Data Lakes
Ein letzter, aber wichtiger Schritt bei der Nutzung von KI und ML in CloudOps ist die Definition eines Data Lakes, der die von den Tools verwendeten Informationen enthält. Wenn KI- und ML-Tools aus der Public Cloud verwendet werden, reduziert oder eliminiert ein richtig definierter Data Lake Sicherheits- und Compliance-Risiken, indem er alle geschäfts- oder benutzerkritischen Informationen entfernt, bevor die Daten an KI- und ML-Tools weitergegeben werden. Diese Art von Daten ist höchstwahrscheinlich in der Anwendungsverfolgung im Zusammenhang mit automatisierten Tests zu finden.
Selbst private gehostete KI- und ML-Tools, die alle Informationen On-Premises aufbewahren, können ein Sicherheitsproblem darstellen, wenn sie verletzt werden. Die explizite Einrichtung eines Data Lakes ermutigt die Teams, die spezifischen Anforderungen der KI- und ML-Anwendungen zu prüfen und sicherzustellen, dass die richtigen Informationen verfügbar sind. All das führt zu einem besseren Ergebnis mit KI und ML in CloudOps.