Giovanni Cancemi - Fotolia
DNA Storage: Warum DNA-Storage zur Option wird
DNA Storage klingt futuristisch, könnte sich allerdings schon bald als valide Speicheroption für große Datenmengen eignen. In unserer Serie erklären wir das Warum und Wie.
DNA-Storage ist eine noch recht junge Technologie beziehungsweise ein innovatives Konzept, dass in Zukunft eine Speicheroption für große Datenmengen bieten und gleichzeitig extrem zuverlässig sein soll. In unserer vierteiligen Serie zu DNA-Storage beschäftigen wir uns mit den Hintergründen, die zur Idee führten, der Funktionsweise dieses Speicherverfahrens sowie mit den Eigenschaften der Speichermedien und der Wirtschaftlichkeit des Storage.
Die DNA Storage Alliance
Die DNA Storage Alliance wurde im Oktober 2020 von Illumina, Microsoft, Twist Bioscience und Western Digital gegründet. Sie hat sich zum Ziel gesetzt, ein interoperables Speicher-Ökosystem zu schaffen und zu fördern, das auf DNA als Datenspeichermedium basiert.
Dabei geht es auch darum, die Öffentlichkeit darüber zu informieren, wie die Technologie funktioniert und welchen Beitrag sie dabei leisten kann, unser digitales Vermächtnis sicher aufzubewahren. Langfristig – wenn die Technologie etwas ausgereifter ist – plant die DNA Storage Alliance, Spezifikationen und Standards zu entwickeln, die es Anwendern erleichtern soll, DNA-Storage in ihre existierenden Speicherumgebungen zu integrieren.
Dass diese Art des Speichers Relevanz hat und großes Potenzial birgt, zeigt allein schon die Tatsache, dass die Gruppe mittlerweile auf 27 Mitglieder angewachsen ist (Stand Juli 2021) – zusätzlich zu den vier Gründungsmitgliedern. Die Mitglieder kommen dabei aus unterschiedlichen Sparten: unter anderem Storage, Biowissenschaften sowie verschiedene Sparten unterschiedlicher Universitäten. Die Mitgliederliste umfasst unter anderem Ansa Biotechnologies, die ETH Zürich, Kioxia, Quantum, Seagate, Spectra Logic und die Semiconductor Research Corporation.
Die DNA Storage Alliance stellt unter der Prämisse auch Informationen der Öffentlichkeit zur Verfügung, die DNA-Storage umfassend erläutern und beim Verständnis der Funktionsweise helfen sollen. Ein Teil der hier zusammengetragenen Informationen basiert auf einem aktuellen White Paper der Alliance.
Speichergeschichte: Warum DNA-Storage zur Option wird
Um zu verstehen, warum und wie eine innovative Idee zu einer ernstzunehmenden Technologie und Speicheroption heranwachsen kann, muss man einen Blick zurück werfen- auf die Geschichte der Storage-Lösungen – und zudem die derzeitigen Datentrends betrachten.
Beginnen wir mit den momentanen Bedingungen: Die Datenmengen wachsen ungebremst und exponentiell, das ist nichts Neues. Die IDC prognostiziert einen Anstieg der Daten auf 180 Zettabyte bis 2025. Zum Vergleich: Im Jahr 2010 wurden weltweit drei Zettabyte an Daten erstellt, 2017 waren es 30 Zettabyte, in 2020 schon 64 Zettabytes.
Dabei gibt es einen signifikanten Unterschied zwischen der Anzahl der neu erstellten Daten und der Anzahl replizierter und konsumierter Informationen. Im Jahr 2020 wurden etwa drei Zettabyte an Daten neu kreiert und 61 Zettabyte entfielen auf replizierte Daten. Insbesondere Cloud Storage begünstigt diesen enormen Anstieg an Kopien, da Cloud-Services oft als Sekundärspeicher, Archiv oder Disaster-Recovery-Ressource genutzt werden. Weitere Faktoren, die das Datenwachstum antreiben, sind Aufbewahrungsvorgaben und Data Mining. Viele Informationen müssen und sollen länger aufbewahrt werden. Darüber hinaus sollen mehr Daten die Möglichkeit bieten, Wirtschaftspotenzial aus ihnen zu ziehen, indem sie analysiert werden.
Diesem enormen Datenwachstum steht gegenüber, dass der Speicherbedarf nicht mit dem Anstieg mithalten kann. Die IDC prognostiziert hier, dass der Speicherbedarf – insbesondere von Hyperscalern – die verfügbaren Storage-Lösungen übertrifft. Dies könnte sich bereits 2022 manifestieren und bis 2030 zu einer Schere zwischen Bedarf und Ressourcen von bis zu 50 Prozent führen.
Historisch betrachtet, hat die Speicherbranche enorme technologische Sprünge in punkto Datendichte und Kapazität in den letzten 50-70 Jahren verzeichnen können. Viele erinnern sich sicher an die erste Festplatte von IBM, die 1956 ausgeliefert wurde, fünf Megabyte an Daten speicherte und dabei die Größe eines Kühlschrankes aufwies. Darüber hinaus lag der Preis bei stolzen 10.000 US-Dollar pro Megabyte.
Seitdem wurden die Speichermedien rasant weiterentwickelt. Zu den wichtigsten im Rechenzentrum zählen das Magnetband – hier kristallisierte sich LTO-9 als Favorit heraus – , die Festplatte und NAND-Flash-Speicher. Wir berücksichtigen hier Arbeitsspeicher (Memory) nicht, sondern nur Medien, die auch für Massenspeicher eingesetzt werden. Tapes bieten zurzeit 18 TByte (unkomprimiert) bis 45 TByte (komprimiert) an, Festplatten speichern 20 TByte und NAND-Flash-Drives kommen auf 15 bis 100 TByte an Speicherkapazität. Die Preise liegen, je nach Medium, bei etwa 20 US-Dollar pro TByte.
Neue Aufzeichnungsverfahren wie HAMR und MAMR werden der Festplatte zudem zu weiteren Kapazitätssteigerungen verhelfen. Auch bei den Bandmedien werden noch Steigerungen erwartet. Allerdings erfolgen diese Kapazitätssprünge nicht mehr in dem gewohnten Ausmaß, beispielsweise eine Verdoppelung der Kapazität bei Bandmedien.
Trotz fortlaufender Verbesserungen bei der Skalierung von Medien bleiben wichtige Herausforderungen für heutige Speichertechnologien bestehen, wenn sie für eine Skalierung im Zettabyte-Bereich und eine lange Speicherdauer betrachtet werden.
Kosten für Speicherwartung und -austausch
Heutige Speichermedien können, bei richtiger Pflege, Daten über Jahrzehnte aufbewahren. Aber auch sie nutzen sich jedoch mit der Zeit ab und verschleißen. Daher muss ihr Zustand regelmäßig überprüft und überwacht werden, um die Datenintegrität sicherzustellen.
Außerdem ist das Format des Mediums eng mit den Techniken gekoppelt, die zum Lesen und Schreiben verwendet werden. Es gibt viele Speichergeräten, die nicht mehr gelesen werden können, weil ihre Lesegeräte oder physischen Medienformate aus technologischen oder kommerziellen Gründen veraltet sind.
Beispiele hier sind Floppy-Disks, Travan- oder Mammoth-Bänder und Disketten. Infolgedessen werden Daten, die auf einem der heutigen Speichergeräte gespeichert sind, regelmäßig auf neue Gerätegenerationen umgeschrieben, um einen kontinuierlichen Zugriff zu gewährleisten. Einige so genannte Deep Archives (tiefe Archive) speichern zwar die tatsächlichen Geräte, mit denen die Daten geschrieben wurden, aber auch dies ist unpraktisch.
Beschränkungen der Speicherdichte
1975 revidierte Gordon Moore seine ursprüngliche Vorhersage aus dem Jahr 1965 und formulierte, was als Moore's Law bekannt wurde, nämlich, dass sich die Anzahl der Transistoren, die in einem integrierten Schaltkreis untergebracht werden können, alle zwei Jahre verdoppeln würde. Diese Vorhersage hat sich seither gehalten. Bei der Speicherung variieren die Wachstumsraten der Mediendichte. Die Wachstumsrate (CAGR) für die Flächendichte von Festplatten ging beispielsweise von 108 Prozent in den Jahren 1998-2002 über eine Rate von 39 Prozent (2003-2009) zu einer CAGR von 7,9 Prozent (2009-2018). Obwohl Fortschritte wie die energieunterstützte Aufzeichnung die Flächendichte von Festplatten weiter erhöhen, verlangsamt sich der Gesamttrend der Flächendichte für magnetische Medien.
NAND-Flash stößt in regelmäßigen Abständen an Skalierungsgrenzen. 2D-NAND, bei dem die Größe der Speicherzellen in der planaren (x-y) Dimension reduziert wurde, begann um 2012 an Skalierungsgrenzen zu stoßen, aber 3D-NAND ermöglichte eine Wiederaufnahme des Bit-Wachstums. Auch 3D wird irgendwann an seine Grenzen stoßen.
Diese Trends stellen die heutigen Archivspeicherlösungen im Zettabyte-Maßstab vor Herausforderungen bei den Investitions- und Betriebskosten. Dies bedeutet nicht, dass die heutigen Speicherlösungen veraltet sein werden. Vielmehr deutet es auf die Notwendigkeit einer neuen Ebene in der Speicherhierarchie hin, die kosteneffizient skalieren kann, um dem explosiven Datenwachstum im sich entwickelnden Speicher-Ökosystem gerecht zu werden.
Energie- und Nachhaltigkeitsaspekte
Einigen Schätzungen zufolge verbrauchten Rechenzentren im Jahr 2018 etwa 1 Prozent des gesamten weltweiten Stroms, was sich innerhalb des nächsten Jahrzehnts verdreifachen oder vervierfachen könnte. Erfolgt hier kein Handeln in Sachen Energieeffizienz, so könnten Data Center bis 2030 etwa 13 Prozent des Stromkonsums ausmachen.
Außerdem werden herkömmliche Speichergeräte aus Materialien hergestellt, die abgebaut werden müssen. Insbesondere HDD- und Bandlösungen sind auf Metalle der seltenen Erden mit komplizierten Lieferketten angewiesen, was ein Problem für die Nachhaltigkeit darstellt.
Gesamtbetriebskosten (TCO)
Es ist wichtig, die Speicherhierarchie im Hinblick auf die Gesamtbetriebskosten (TCO) zu betrachten.
Der Speicher kann je nach Häufigkeit des Datenzugriffs in verschiedene Ebenen unterteilt werden. Daten, auf die häufig (heiß) zugegriffen wird, werden auf hoch performanten Medien wie SSDs gespeichert. Daten, auf die etwas weniger oft (warm) abgefragt werden, liegen meist auf Festplatten. Daten, die nur selten (kalt) in Benutzung sind, lagern letztlich auf Bändern.
Es sind die Anschaffungs- und Ersatzkosten für Speichermedien, die die TCO beeinflussen. Darüber hinaus verbrauchen Speichergeräte, die eine hohe Leistung erbringen, oft mehr Strom, was die Kosten ebenfalls erhöht. In Rechenzentren werden SSDs und HDDs in der Regel alle drei bis fünf Jahre und Bänder alle sieben bis zehn Jahre aktualisiert. Die Notwendigkeit dieser Auswechselung erhöht die Wartungskosten und damit die TCO.
Ein weiterer Trend, der Kosten verursacht, ist die Tatsache, dass die Menge der kalten Daten schneller wächst als die Daten in den anderen Tiers. Somit speichert man mehr Daten für eine längere Zeit. Es ist zudem belegt, dass auf weniger als ein Prozent dieser Daten nach mehr als 90-120 Tage zugegriffen wird.
Dieses Abkühlen der Daten vs. ihrem Wert unterstreicht die Notwendigkeit einer kosteneffektiven Speicherebene mit größeren Skalierungsoptionen als HDD oder Band.
Eine gründliche TCO-Berechnung für Speicher enthält Faktoren wie: Anschaffungskosten für Hardware und Medien, den Zeitrahmen, über den die Daten gespeichert werden, die Kosten für das Schreiben der Daten, die jährliche Wachstumsrate der zu gesicherten Daten, die Menge und Häufigkeit des Datenabrufs, die Anzahl der gespeicherten Kopien, die Anzahl der Jahre zwischen Migrationen, die Kosten für Strom und Einrichtungen, die Kosten für Migrationen, die Kosten für Mitarbeiter und mehr. Das Unternehmen Fujifilm stellt einen TCO-Rechner zur Verfügung, der bei der Analyse der Speicher-TCO eines Unternehmens hilfreich sein kann.
Raum für Neues
Die oben genannten Faktoren verdeutlichen, dass Unternehmen mit herkömmlichen Storage-Lösungen in naher Zukunft an ihre Grenzen stoßen und das neue, innovative Speicheralternativen gefunden werden müssen, die ein akzeptables Preis-Leistungsverhältnis und Zukunftstauglichkeit bieten. Hier öffnen sich die Türen für neue Ideen wie Microsofts Projekt Silica oder eben DNA-Storage.
DNA-Storage nutzt die Basenpaare der DNA, um digitale Informationen in der Doppelhelix zu speichern. Dies verspricht nicht nur eine sehr hohe Speicherdichte, sondern auch ein Speichermedium das langlebig und widerstandsfähig ist. In den nächsten Teilen unserer Serie über DNA-Storage erklären wir, wie dieses Storage funktioniert, welche Eigenschaften das Medium bietet und wie es mit der Wirtschaftlichkeit von DNA-Storage aussieht.