sakkmesterke - stock.adobe.com

Meinung

Der Datenverarbeitung fehlt der richtige Storage-Antrieb

Angeblich mangelt es dem technischen Fortschritt an niedrigen Latenzzeiten. Doch wenn die Antwort aus einem beständigen Datenstrom besteht, wer braucht dann noch Unterbrechungen.

von

Rainer Graefen, Freiberuflicher Autor

Zuletzt aktualisiert:18 Apr. 2022

Künstliche Intelligenz (K) wirft seit Jahren ihren langen Schatten. Nirgendwo müssen mehr Daten verarbeitet werden, damit ein neuronales Netz die hoffentlich richtige Entscheidung trifft, ob die Straße in Fahrtrichtung frei ist, oder ein Holztransporter mit großer Bodenfreiheit den Weg kreuzt.

Für die Bewältigung solcher Problemstellungen ist es notwendig, die Anzahl der Datenbankserver zu reduzieren, schreibt Marc Staimer auf SearchStorage.com. Was auf den ersten Blick überraschend klingt, will die logische Konsequenz einer Praxis beenden, die auf Grund knapper Budgets für ausufernde Speicherhierarchien und Datenbankstrukturen gesorgt hat. Viele Caches haben dabei verdeckt, dass die Gesamtheit der Massendaten sich nur sehr langsam zwischen den Hierarchien bewegt.

Kostenlose Reduzierung von Antwortzeiten gibt es nicht

Mit der Idee der Reduzierung der über die letzten Jahrzehnte ungebremst wachsenden Infrastrukturen bis in die Cloud hinein, erscheint auch ein Problem lösbar, das den technischen Fortschritt zunehmend ausbremst: Die Kosten.

Das Kostenproblem soll der technische Fortschritt lösen. Wie das gelingen kann, ist nicht so leicht nachzuvollziehen, da es einen Wust altbekannter technischer Ansprüche gibt, die als Forderung nach mehr Leistung, besserem Durchsatz, schnelleren Antwortzeiten, mehr IOPS oder kürzerer Latenz eigentlich gleichzusetzen sind mit dem Ruf nach mehr Budget.

Dummerweise ist der technische Fortschritt nicht einfach damit zu lösen, dass man immer mehr Transistoren in einen Prozessor packt. Dann dürften wir eigentlich keine Probleme mehr haben. Schließlich startete Intel 1969 bei seinem ersten Mikroprozessor 4004 noch mit 10 µm-Strukturen und 2300 Transistoren, jetzt integrieren moderne Mikrochips 50 Milliarden davon und „verursachen Probleme, die wir ohne µP nicht hätten“.

Spiegel gegen 13,5 nm-Absorption

Zeiss, so war kürzlich zu lesen, schleift seit einem Jahr an einem Spiegel, der die EUV-Lithographie seines strategischen Partners ASML so verfeinern wird, dass dann auf dem berühmten Fingernagel 100 Milliarden Transistoren Platz finden.

Atomgenaue Präzision für 2-Nanometer-Strukturen steht zur Debatte. Der technische Sprung auf die nächste Verdopplung wird jedoch noch mehrere Jahre in Anspruch nehmen. Herr Moore würde sich ärgern, dass die Industrie seine Prognose von einer Verdopplung der Schaltkreiskomponenten pro 18 Monate nicht einhält.

Daten auf dem Sprung

Wer Antworten sucht, der braucht zumindest in der Disziplin künstlicher Intelligenz (KI) viele Daten. Ein Prozessor hat deshalb viele hierarchisch organisierten Speicherelemente zu durchsuchen, die, je kürzer die Latenzzeiten sind, direkt in die CPU integriert sind, oder im Hauptspeicher adressiert werden müssen oder über eine externe Infrastruktur die nächste Hierarchiestufe aktivieren müssen.

Kleine Speicherkapazität und extrem niedrige Zugriffsgeschwindigkeit bieten seit Jahrzehnten statische Speicherzellen (SRAM), die als 1st Level Cache direkt mit der CPU kooperieren. Das erlaubt zum Beispiel beim Intel Core i9-9900K den Zugriff auf 16 MByte Cache, der Daten mit 5 Nanosekunden (ns) Zugriffszeit liefern kann.

Auf der nächsten Stufe steht der Hauptspeicher mit dynamischen RAMs. DDR5-6400 gewährt Zugriff auf max. 128 GByte pro Modul bei Zugriffszeiten von etwa 8-12 ns. Die Transferrate liegt bei 5 Gbit/s. Der technische Fortschritt macht bei der Zugriffszeit der prozessornahen Speicherzellen seit etwa 20 Jahren keine großen Sprünge, er bringt allerdings immer mehr Speicherkapazität in die Nähe der Rechenmaschine.

Eine interessante Entwicklung ist beim Grafikkartenspeicher mit dem High Bandwith Memory (HBM), das beim Supercomputing die Gesamtleistung steigert, in Gang gekommen. 2013 war mit HBM 1 die erste Generation verfügbar, die dritte Generation HBM 3 ist seit Ende 2021 auf dem Markt.

Der HBM-Speicher ist mit 1024 Datenleitungen an den Prozessor gekoppelt und kann dann bei HBM 1 Datenmengen von 460 GByte/s zur CPU schicken; bei HBM 3 sind Transferraten von 816 bis voraussichtlich 1075 GByte/s erreichbar. Gut gerechnet eine Transferraten-Verdopplung in einem Zeitraum von 10 Jahren. Über HBM 4 ist auf Webseite der JEDEC-Organisation noch nichts zu lesen.

Serieller Speedway

Die serielle Schnittstelle Peripheral Component Interconnect Express (PCIe) ist eine Punkt-zu-Punkt-Verbindung mit 16 Lanes, die sich parallel schalten lassen. Die erste Generation wurde 2003 freigegeben, die fünfte Generation ist seit 2021 auf dem Markt. Innerhalb von 16 Jahren stieg die Datentransferrate über die 16 Sende-/Empfangsleitungen von 4 GByte/s auf 63 GByte/s. Eine Verdopplung auf Geschwindigkeiten von 120 GByte/s ist für die 6. Generation in den nächsten 2 bis 3 Jahren in Arbeit. Auf der Infrastruktur dieser Speicherhierarchie hat sich viel getan. Innerhalb von 20 Jahren wurde die Datenautobahn im Server um den Faktor 25 aufgebohrt.

Dass dieser Peripherie-Highway so schnell den direkten Speicherzugriff (DMA) einer Intel-CPU überfordern könnte, war lange nicht auf dem Radar des Prozessorspezialisten. Der rasanten Entwicklung des Flash-Speichers zum Solid State Drive (SSD) sind viele altbewährte Schnittstellen, Protokolle, Speicherformate und alternative Speicherverfahren zum Opfer gefallen. Geschwindigkeit, Kapazität und nun auch die rasante Erhöhung der Input/Output Operations (IOPS) haben den Zugriff auf Massendaten mit den neuesten SSD-Produkten massiv verbessert.

Die Latenz wird zum falschen Kriterium

Eine einzelne Mainstream Server-SSD mit PCIe-5.0-Technik und NVMe-Protokoll, von Adata, Kioxia und anderen Herstellern erhältlich, ermöglicht beispielsweise bei der Samsung PM1743 den Zugriff auf bis zu 15 TByte Daten, schaufelt diese dann mit 14 GByte/s beim Lesen über eine PCIe-x4-Verbindung (nutzt damit ein Viertel einer PCIe-Autobahn mit 16 Spuren/ Lanes) und könnte 2,5 Millionen IOPS-Anforderungen pro Sekunde abarbeiten.

„Der technische Fortschritt an dieser Stelle wird die Infrastrukturen für viele Jahre, wenn nicht Jahrzehnte beeinflussen. Bis eine umfassende Erneuerung auf der angesprochenen Infrastrukturebene stattfindet, wird wahrscheinlich schon ein Jahrzehnt vergehen.“

Rainer Graefen, Freiberuflicher Autor

Dass die Latenz an der Millisekunden-Grenze liegt, wird angesichts der anderen Parameter fast unwichtig. Zum Vergleich: Vor zehn Jahren hätte man für ein hochverfügbares Cache-System wie das Texas Memory System RamSan-720 mit schlechteren Parametern, bis auf die Latenz von minimal 25 µs, noch 20.000 Euro pro Terabyte bezahlt.

Und auch beim entfernten Zugriff auf SSD-Speicher über ein Wide Area Network beziehungsweise in die Cloud findet das bei PCIe-Drives eingesetzte NVMe-Protokoll (Non- Volatile Memory Express) seine Fortsetzung als NVMe over Fabrics. Unterstützt werden inzwischen alle bewährten Verbindungstechniken wie Fibre Channel und Infiniband sowie Ethernet über RDMA und NVMe/TCP. Die Latenzzeiten von SSD-Drives über Netzwerkstrecken soll sich sogar nur um 10 µs verlängern.

Weit entfernt von einer disruptiven Innovation

Der technische Fortschritt an dieser Stelle wird die Infrastrukturen für viele Jahre, wenn nicht Jahrzehnte beeinflussen. Bis eine umfassende Erneuerung auf der angesprochenen Infrastrukturebene stattfindet, wird wahrscheinlich schon ein Jahrzehnt vergehen. Wirtschaftliche Alternativen gibt es nicht. Aufs falsche Pferd könnte man eventuell setzen. Die Netzwerktechnik hat einen „Hang“ zur Konsolidierung.

Der technische Fortschritt hat, das sollte nicht übersehen werden, vorzugsweise die große Zugriffslücke zwischen Prozessor und Massenspeicher reduziert. Eine disruptive Innovation war das allerdings nicht. Und wer viele Daten verarbeitet, der produziert noch viel mehr.

Der Blick auf die Statista-Prognosen von 2022 zeigt, dass der Faktor des Datenwachstums von 2018 bis 2025 beim 5,3fachen liegen könnte. Das bedeutet, statt einem Heuhaufen von 33 Zettabytes sind in naher Zukunft 175 Zettabytes nach Stecknadeln zu durchwühlen.

Und noch eines sollte man im Hinterkopf behalten. Wollte man den Zugriff auf alle benötigten Daten mit 2 Nanosekunden realisieren, was derzeit unbezahlbar ist, so darf man nicht übersehen, dass das Licht im Vakuum in dieser Zeitspanne nur 1,5 Meter zurücklegt.

Über den Autor:
Rainer Graefen schreibt seit 1985 als Freelancer über Themen aus dem Bereich Storage. Von 2007 bis 2018 war er als Chefredakteur bei Storage-Insider.de tätig.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Der Datenverarbeitung fehlt der richtige Storage-Antrieb

Angeblich mangelt es dem technischen Fortschritt an niedrigen Latenzzeiten. Doch wenn die Antwort aus einem beständigen Datenstrom besteht, wer braucht dann noch Unterbrechungen.

Kostenlose Reduzierung von Antwortzeiten gibt es nicht

Spiegel gegen 13,5 nm-Absorption

Daten auf dem Sprung

Serieller Speedway

Die Latenz wird zum falschen Kriterium

Weit entfernt von einer disruptiven Innovation

Erfahren Sie mehr über Storage-Hardware

Einen KI-Server mit Ollama und Open WebUI einrichten

Welche Rolle spielt CXL für künstliche Intelligenz?

Groq LPU Inference Engine stellt NVIDIA-GPUs in den Schatten

Der KI-Boom erfordert Effizienzsteigerungen im Rechenzentrum