Best Practises: Artificial Intelligence und Storage-Planung
Die Storage-Planung von AI muss sich um grundlegende Speicherfaktoren wie Kapazität, IOPS oder Performance kümmern. Je nach Sachlage wird es unterschiedliche AI-Anwendungen geben.
Die Storage-Planung für Artificial Intelligence (AI) oder auch künstliche Intelligenz (KI) verläuft ähnlich wie die Storage-Planung, an die man gewöhnt ist: Es geht um Kapazität, IOPS und Anforderungen an die Zuverlässigkeit des Datenmaterials und die Datenbank der Anwendung.
Fortschritte in der Computing-Leistung, dem schieren Volumen der Daten, das nun online verfügbar ist, und den verbesserten Algorithmen von AI haben schließlich dazu geführt, dass Artificial Intelligence zu einer praktikablen Sache geworden ist. Aber wie kann man KI-Data-Storage implementieren?
Es gibt keine allgemeingültige Antwort für diese Art des Speichers. Jede AI-Anwendung ist unterschiedlich, und das trifft auch für die Daten zu, die mit der Anwendung verbunden sind. Auf jeden Fall gibt es eine Anzahl von verschiedenen Fragen, die man beachten muss, wenn man KI-Storage plant.
Was ist die Natur des Datenmaterials?
AI-Anwendungen hängen von dem Datenmaterial ab. Man muss wissen, wo sich die ursprünglichen Daten befinden und in welcher Weise sie die Anwendung benutzt.
Angenommen, eine besondere AI-Anwendung ist dazu bestimmt, Entscheidungen auf Basis des Inputs einer Reihe von industriellen IoT-Sensoren (Internet of Things) zu treffen. Man muss wissen, ob die Anwendung die Sensordaten als vorübergehend behandelt oder ob sie das nicht tut. Kann die Anwendung die Sensordaten in Echtzeit, so wie sie von den Sensoren ankommen, analysieren oder muss die Anwendung die Daten erst speichern und danach analysieren?
Wenn die Anwendung Sensordaten in Echtzeit analysiert, dann muss man die Daten nicht vorher speichern – außer in einem temporären Daten-Cache. Aber wenn die Anwendung die Daten im Post-Processing-Verfahren analysiert, dann ergeben sich zusätzliche Fragen, die man beantworten muss, bevor man AI Data Storage entwirft. Kann die Applikation zum Beispiel die ursprünglichen Daten säubern, nachdem sie analysiert wurden, oder sollte man eine Kopie der Daten anlegen, so dass die Software sie bei Gelegenheit neu analysieren kann? Jede der Antworten hat Auswirkungen auf das Datenvolumen, das man behalten muss. Man muss auch sicherstellen, dass das Storage-Backend mit dem Strom neuer Daten Schritt halten kann, die in die Applikation hineinkommen.
Wie viele Daten wird die KI-Applikation erzeugen?
Ein ebenso wichtiger Gesichtspunkt bei AI Data Storage betrifft das Datenvolumen, das die Anwendung produzieren wird. AI-Anwendungen produzieren eigene Daten. Sie analysieren im allgemeinen das Datenmaterial und schreiben dann die Resultate der Analyse auf eine Backend-Datenbank, die der Entscheidungsbaum der Anwendung benutzen kann. Für eine AI-Anwendung würde es nicht zweckmäßig sein, jedes Mal mehrere Terabytes oder sogar Petabytes an Daten zu durchforsten, wenn die Software eine Entscheidung treffen muss. Es ist weitaus sinnvoller für die Anwendung, eine Datenbank nach Informationen abzufragen, die bereits überprüft worden sind.
Eine der bestimmenden Eigenschaften von AI besteht darin, dass Anwendungen bessere Entscheidungen treffen, wenn sie sich auf mehr Daten stützen können. Die Datenbasis der Anwendung wird mit der Zeit anwachsen, so dass man per Monitoring kontrollieren muss, wie schnell sie wächst, und man muss eine entsprechende Kapazitätsplanung durchführen.
Wie lässt sich die AI-Applikation benutzen?
Man muss berücksichtigen, wie viele Personen die Anwendung in einem bestimmten Moment nutzen werden und wie schnell die Applikation den Anwendern Informationen liefern soll.
Man betrachte zum Beispiel Cortana, Microsofts AI-basierten persönlichen digitalen Assistenten für Windows. Sehr viele Leute können zur gleichen Zeit Cortana einsetzen. Cortana akzeptiert verbalen Input und Antwort verbal auf Fragen, was bedeutet, das Tool erfordert ein extrem hoch performantes Storage-Backend. Auf der anderen Seite wird eine leichtgewichtige AI-basierte Geschäftsapplikation, die ein halbes Dutzend Leute benutzen, nicht mehr als eine einzige SSD brauchen. Man muss jeweils ein Backend-Speichersystem einrichten, das genau auf die zu erwartenden I/O-Anforderungen abgestimmt ist.