Laurent - stock.adobe.com

KI mit guten Daten und richtigem Storage erfolgreich umsetzen

Das Geheimnis erfolgreicher künstlicher Intelligenz ist eigentlich einfach: Korrekte Daten und ihre richtige Speicherung tragen maßgeblich zum Erfolg einer KI-Implementierung bei.

Nein, ChatGPT hat diesen Artikel nicht geschrieben. Aber generative KI hat in den letzten Monaten zu Recht viel Aufmerksamkeit auf sich gezogen. Das zeigen auch zwei Zahlen zum wirtschaftlichen Potential: Microsoft sagt, dass generative KI 40 Milliarden Dollar zum Umsatz des Unternehmens beitragen könnte und laut Goldman Sachs könnte generative KI die globale Wirtschaftsleistung um fast 7 Billionen Dollar steigern

Etwa 75 Prozent der Unternehmen erwarten, dass sie in den nächsten fünf Jahren KI-Technologien einsetzen werden. ChatGPT hat in den ersten zwei Monaten über 100 Millionen Nutzer gewonnen und ist damit die am schnellsten wachsende Verbraucheranwendung aller Zeiten. Doch die besten KI-Modelle sind ohne eine Zutat nutzlos: Daten. 

Unternehmen brauchen Unmengen von Daten, um KI-Modelle zu trainieren, damit sie Erkenntnisse und Werte aus bisher ungenutzten Informationen gewinnen können. Da die KI-Tools von morgen in der Lage sein werden, heute ungeahnte Erkenntnisse aus den Daten von gestern abzuleiten, sollten Unternehmen so viele Daten wie möglich aufbewahren. 

Chatbots und audiovisuelle KI-Angebote werden zusätzlich große Mengen an neuen Daten erzeugen, die von Unternehmen verwaltet und gespeichert werden müssen. Schließlich werden die Schlussfolgerungen benötigt, um zukünftige Algorithmen zu trainieren. Gartner geht davon aus, dass bis 2025 der Anteil generativer KI-Daten an den gesamten, weltweit erzeugten Daten von heute einem Prozent auf zehn Prozent steigen wird. Wenn wir diese Studie mit dem Global DataSphere Forecast von IDC gegenrechnen, können wir erwarten, dass generative KI-Technologien in den nächsten fünf Jahren Zettabytes an Daten erzeugen werden. 

Unternehmen können die Vorteile von KI-Anwendungen nur dann nutzen, wenn ihre Datenspeicherstrategie in großem Umfang einfache und kosteneffiziente Methoden zum Trainieren und Bereitstellen ermöglicht. Große Datensätzebenötigen entsprechende Speicherkapazitäten. Wenn Unternehmen nicht bereits in großem Umfang Daten speichern, dann sollten sie es spätestens jetzt tun.

Warum KI Daten braucht

Laut IDC waren 84 Prozent der im Jahr 2022 erstellten Unternehmensdaten für Analysen nützlich, aber nur 24 Prozent davon wurden analysiert oder in Algorithmen eingespeist. Der große Anteil an verfügbaren Daten, der nicht genutzt wird, ist verlorener Geschäftswert. Es ist wie bei einem Elektroauto: Wenn die Batterie nicht aufgeladen ist, bringt das Auto Sie nicht ans Ziel. Ohne solide Datengrundlage, können auch die besten KI-Tools nicht helfen.

Unternehmen, die KI-Modelle trainieren wollen, benötigen Speicherkapazität und entsprechend robuste Strategien zur Datenspeicherung, um sowohl Rohdaten als auch generierte Daten zu speichern. Für einen Teil ihrer KI-Arbeitslasten und -speicher sollten sie die Cloud nutzen, den anderen Teil jedoch vor Ort speichern und verarbeiten. Festplatten (die auch etwa 90 Prozent der Public-Cloud-Speicherkapazitäten ausmachen) sind eine kostengünstige, langlebige und zuverlässige Lösung für große Datensätze. Sie sind somit bestens geeignet, die großen Datenmengen zu speichern, die für das kontinuierliche Training von KI-Modellen benötigt werden.

Copyright-Problemen vorbeugen

Auch die Aufbewahrung von Rohdaten nach ihrer Verarbeitung ist wichtig, da es wahrscheinlich zu Diskussionen über geistiges Eigentum und Copyright in Bezug auf einige von KI erstellte Inhalte kommt. So sind beispielsweise Nachfragen zur Datengrundlage von KI-Erkenntnissen denkbar. Der Nachweis der eigenen Arbeit mit gespeicherten Daten hilft dann dabei, das Copyright und die Herkunft der Erkenntnisse zu belegen. 

Auch die Datenqualität wirkt sich auf die Zuverlässigkeit der Erkenntnisse aus. Um eine bestmögliche Datenqualität zu gewährleisten, sollten Unternehmen Methoden wie Datenvorverarbeitung, Datenkennzeichnung, Datenerweiterung, Überwachung von Datenqualitätsmetriken, Data Governance und manuelle Überprüfung durch Experten einsetzen.

Wie sich Unternehmen vorbereiten können

Hohe Kosten für die Datenaufbewahrung drängen Unternehmen unter Umständen dazu, Daten zu löschen. Unternehmen müssen diese Kosten aber immer gegen den möglichen Wert an KI-Erkenntnissen abwägen, der aus den Daten entstehen kann. Um die mit der Datenspeicherung verbundenen Kosten zu senken, können Unternehmen Tools zum Vergleich und zur Schätzung von Cloud-Kosten einsetzen. Für die Speicherung vor Ort sind TCO-optimierte Speichersysteme mit Festplatten eine gute Option. Darüber hinaus ist das Monitoring von Daten und Arbeitslastmustern sowie die Automatisierung von Arbeitsabläufen wichtig. 

Dr. John Morris, Seagate

„Unternehmen können die Vorteile von KI-Anwendungen nur dann nutzen, wenn ihre Datenspeicherstrategie in großem Umfang einfache und kosteneffiziente Methoden zum Trainieren und Bereitstellen ermöglicht. Große Datensätze benötigen entsprechende Speicherkapazitäten. Wenn Unternehmen nicht bereits in großem Umfang Daten speichern, dann sollten sie es spätestens jetzt tun.“

Dr. John Morris, Seagate

Um die für das Training von KI-Modellen benötigten Daten zu identifizieren, ist eine umfassende Datenklassifizierung unerlässlich. Dazu gehört auch, dass sensible Daten – zum Beispiel personenbezogene Daten oder Finanzdaten – in Übereinstimmung mit gesetzlichen Vorgaben behandelt werden. Viele Unternehmen verschlüsseln dafür Daten zur sicheren Aufbewahrung, aber KI-Algorithmen können im Allgemeinen nicht aus verschlüsselten Daten lernen. Unternehmen brauchen daher einen verlässlichen Prozess, um Daten für das KI-Training sicher zu entschlüsseln und für die Speicherung wieder zu verschlüsseln.

Für den bestmöglichen Erfolg bei der KI-Analyse sollten Unternehmen folgendes tun:

  • Mehr Daten langfristig speichern, denn im Zeitalter der KI sind Daten wertvoller denn je. Rohdaten und die Erkenntnisse müssen erhalten bleiben. Beschränkungen sollte es nur geben, wenn es um das Löschen von Daten geht.
  • Prozesse etablieren, die die Datenqualität verbessern. 
  • Bewährte Methoden zur Minimierung von Datenkosten einsetzen.
  • Eine verlässliche Datenklassifizierung und Compliance einführen.
  • Daten hardware- und softwareseitig sicher speichern.

Ohne diese Maßnahmen werden selbst die besten generativen KI-Modelle keine brauchbaren Ergebnisse liefern. Schon vor dem Aufkommen von generativer KI waren Daten der Schlüssel zur Erschließung von Innovationen. Unternehmen, die einen hohen Reifegrad bei der Speicherung und Verwaltung von Daten in einer Multi-Cloud-Umgebung erreicht haben, bringen neue Lösungen sechs Mal schneller auf den Markt als Mitbewerber mit einem geringeren Reifegrad. In Deutschland brachten Multi-Cloud-Vorreiter zudem innerhalb eines Jahres rund elf neue Produkte und Services auf den Markt, die ohne Innovationen in den Bereichen Daten und Cloud nicht möglich gewesen wären. Generative KI könnte diese Innovationslücke zwischen Gewinnern und Verlierern erheblich vergrößern. 

Der Hype um generative KI hat sich zu Recht auf ihr Innovationspotenzial konzentriert. Für Unternehmen ist jedoch vor allem eins wichtig: Datenspeicherung und -management entscheidet über den Erfolg der KI.

Über den Autor:
Dr. John Morris ist Senior Vice President und Chief Technology Officer bei Seagate Technology. John Morris verantwortet die Pflege und den Aufbau von Seagates Kundenbeziehungen und Partnerschaften in der Technologiebranche weltweit. Vor seiner aktuellen Position war Morris für die Festplatten- und SSD-Produktlinien von Seagate verantwortlich. Seit seinem Eintritt in das Unternehmen im Jahr 1996 hatte Morris eine Reihe von Führungspositionen im technischen Bereich inne und war maßgeblich an der Entwicklung vieler Kerntechnologien von Seagate beteiligt. Er hält 32 Patente, hauptsächlich im Bereich der Festplattentechnologie. Morris hat am California Institute of Technology (Caltech) in Elektrotechnik promoviert.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Erfahren Sie mehr über Storage Management