A Luna Blue - stock.adobe.com
High Performance Computing: Storage als Schlüsselkomponente
Im High-Performance-Computing-Umfeld gibt es viele Entwicklungen in Sachen Leistung. Um diese voll nutzen zu können, benötigen Anwender den passenden Speicher.
Mit der steigenden Leistungsfähigkeit von CPUs und GPUs für HPC-Anwendungen mussten auch Storage-Entwicklungen neu gedacht werden. Dank neuen Designs und Speichertechnologien hat HPC-Storage jedoch in den vergangenen Jahren an Fahrt aufgenommen.
High Performance Computing (HPC) ist aus Wissenschaft und Unternehmen nicht mehr wegzudenken. Klimaforschung, Medizin, Physik, aber auch Pharmaindustrie, Engineering und Finanzbranche benötigen extreme Rechen- und Speicherleistungen, um die anfallenden riesigen Mengen an Daten bewältigen und analysieren zu können. Marktforschungsunternehmen wie Hyperion Research prognostizieren für den HPC-Markt nicht umsonst ein starkes Wachstum.
Die drei größten Herausforderungen im HPC-Umfeld
Entwickler und Betreiber von HPC-Systemen sehen sich allerdings auch einigen Herausforderungen gegenüber, welche die Weiterentwicklung und die Einsatzmöglichkeiten einschränken. Vor allem die folgenden drei Probleme machen ihnen zu schaffen:
- Steigende Leistungsanforderungen: Anwender wollen und müssen immer mehr Daten verarbeiten, komplexere Fragestellungen schneller beantworten und mehr Analysen in kürzerer Zeit durchführen. Während CPUs und GPUs in den vergangenen Jahren enorm an Performance zugelegt haben, konnte die Leistungsfähigkeit der Speichersysteme mit dieser Entwicklung nicht mithalten. Daher klafft eine Lücke zwischen der Rechenleistung und der Storage-Leistung, die es zu schließen gilt.
- Zuverlässigkeit: HPC-Jobs laufen oft über Tage oder Wochen. Kommt es in dieser Zeit zu Ausfällen, schlägt der komplette Job fehl. Das bedeutet nicht nur Verzögerungen und Zeitverlust, sondern erhöht auch die operativen Kosten. Ziel aller HPC-Konzepte ist es deshalb, Ausfallzeiten zu minimieren und die Integrität sowie die Verfügbarkeit der Daten sicherzustellen.
- Betriebskosten: HPC-Systeme sind nicht nur teuer in der Anschaffung, sie verschlingen auch beim Betrieb enorme Summen. Nutzer suchen deshalb ständig nach Möglichkeiten, die operativen Kosten zu senken. Ein wesentlicher Faktor ist dabei der Platzbedarf. Je mehr Raum die Systeme einnehmen, desto höher werden die Aufwendungen für Bau, Unterhalt und Betrieb eines Rechenzentrums. Steigende Energiekosten verschärfen das Problem zusätzlich.
Wie Storage diese Herausforderungen zu lösen hilft
Hersteller wie Seagate arbeiten kontinuierlich daran, diese Herausforderungen zu adressieren. Mit der MACH2-Technologie lässt sich beispielsweise die Storage-Performance deutlich steigern. Zwei Aktuatoren erlauben den unabhängigen Zugriff und verdoppeln so die IOPS-Leistung einer Festplatte. Andere Technologien wie HAMR (Heat-Assisted Magnetic Recording) und SMR (Shingled Magnetic Recording) ermöglichen es, Festplatten mit mehr als 20 TB Kapazität zu bauen. HPC-Betreiber können dadurch wesentlich höhere Speicherdichten pro Höheneinheit erzielen und ihre Raumprobleme lösen.
Mit Technologien wie ADAPT Erasure Coding (Autonomic Distributed Allocation Protection Technology) und ADR (Autonomous Drive Regeneration) kann zudem das Problem der Verfügbarkeit und Zuverlässigkeit adressiert werden. Durch sie lassen sich RAID-Systeme um bis zu 95 Prozent schneller wiederherstellen als in traditionellen Umgebungen und Festplatten im laufenden Betrieb automatisch reparieren. Dadurch sind deutlich weniger manuelle Festplattenwechsel nötig. Da die meisten fehlerhaften HDDs wieder zuverlässig in Betrieb genommen werden können, fällt außerdem weniger Elektroschrott an. Gleichzeitig sinken die Betriebskosten.
Das richtige Setup für HPC-Umgebungen
Um Leistung, Ausfallsicherheit und Kosten in Balance zu bringen, empfiehlt sich für HPC ein Tiering-Setup: Während der Compute-Teil mit SSDs bestückt wird, dienen aufgrund der besseren TCO HDDs als Massenspeicher. Dabei genügt es allerdings nicht, einfach mehr JBODs mit zusätzlichen Festplatten hinzuzufügen. Wenn der Durchsatz nicht mit der Kapazität Schritt hält, wird der Controller oder das Netzwerk schnell zum Flaschenhals. Der Ausbau der Controller- und Netzwerk-Bandbreite muss daher parallel zum Ausbau der Speicherkapazität erfolgen.
Ein weiterer Stolperstein auf dem Weg zu einer kosteneffizienten HPC-Umgebung ist das Datenmanagement. Eine segmentierte Datenhaltung in physisch isolierten Repositories führt zu hoher Komplexität und entsprechenden Managementkosten. Anwender sollten daher auf ein holistisches Datenmanagement setzen, das alle Storage-Tiers in einem logischen Layer zusammenfasst.
HPC-Speicher im Praxiseinsatz
Am Beispiel einer großen Forschungseinrichtung soll der Nutzen einer Tiering-Architektur für HPC-Anwendungen demonstriert werden. Das Forschungsinstitut entwickelt, baut und betreibt komplexe Großforschungsanlagen, die täglich enorme Datenmengen generieren.
Die Scale-Out Storage-Cluster des Instituts haben eine Größe im zweistelligen Petabyte-Bereich. Ein Backup-System ist an einem räumlich entfernten Standort für die Sicherung der Daten zuständig. Für das Backup werden die Daten konsolidiert, verdichtet und in einem lokalen Disk-basierten Backup-Cache gesammelt. Die an das Backup-System zu sendenden Files überschreiten häufig eine Größe von 16 TB, was eine enorme Herausforderung für das File-System darstellt. Die tägliche Bereitstellung des Backup-Volumens erfordert einen Storage-Durchsatz von wenigstens 10 GB/s.
„Um mit der Entwicklung im Compute-Bereich mitzuhalten, müssen Speichersysteme schneller, effizienter und zuverlässiger werden.“
André Ambrosius, Seagate Technology
Um diese Herausforderungen zu meistern, setzt der HPC-Betreiber Seagate Exos CORVAULT-Speichersysteme ein. Mit 12 GB/s Schreibdurchsatz bieten sie die erforderliche Leistung. Der Durchsatz steigt linear durch jedes weitere System, das in das Cluster integriert wird. Zudem können bis zu vier SDS-Heads mit Multi-Protokollfunktionen den Storage redundant verwalten.
Das ADAPT Erasure Coding der redundanten RAID-Controller soll im Fehlerfall einen schnellen Restore ermöglichen. Die Festplatten speichern Daten der letzten 1.000 Betriebsstunden und können Laufwerksdefekte mittels ADR selbst beheben, ohne dass es zu Unterbrechungen kommt oder ein Administrator eingreifen muss.
Fazit: HPC braucht Hochleistungs-Storage
Um mit der Entwicklung im Compute-Bereich mitzuhalten, müssen Speichersysteme schneller, effizienter und zuverlässiger werden. Dabei darf die TCO nicht aus dem Blick geraten. Mit entsprechenden Lösungen können genau diese Herausforderungen adressiert werden. Technologien wie SMR und HAMR ermöglichen zudem Speicherdichten von bis zu 2,12 PB pro 4HE-Gehäuse und damit ein platzsparendes Design, MACH.2 verdoppelt die IOPS-Geschwindigkeit. ADAPT Erasure Coding nutzt hocheffiziente, Cluster-freie Parität für alle Festplatten im Pool. Dies führt zu geringerem Kapazitätsverlust, besserer Leistung und schnelleren Rebuilds. ADR und Hot-Swap-fähige Active-Active-Controller sorgen für eine Verfügbarkeit von 99,999 Prozent. So ausgestattet lassen sich HPC-Umgebungen kosteneffizient, zuverlässig und leistungsfähig betreiben.
Über den Autor:
André Ambrosius ist als Regional Sales Manager Enterprise DACH und Enterprise EMEA Lead bei Seagate Technology tätig. Er betreut insbesondere lokale Systemintegratoren, Systemhäuser und andere Channelpartner im Enterprise Bereich mit Fokus auf Server und Storage.
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.