DigitalGenetics - stock.adobe.co
DNA-Storage: Speichermedien und Datenumwandlung
Im zweiten Teil unserer Serie zum Thema DNA-Speicher beleuchten wir das Speichermedium und seine Eigenschaften und erklären, wie die Daten in DNA umgewandelt werden können.
Eine Lösung, die sowohl den physischen als auch den CO2-Fußabdruck herkömmlicher Speichermedien reduzieren und gleichzeitig die TCO im Archivierungsbereich erheblich verringern kann, ist die DNA-basierte Datenspeicherung.
Wenn richtig gespeichert können DNA-Daten zuverlässig Tausende von Jahren überdauern, und das bei geringem bis gar keinem Stromverbrauch oder Bedarf an Wartung. Die Speicherdichte, die Langlebigkeit und der niedrige Stromverbrauch von DNA-Storage kann die Gesamtbetriebskosten senken und machen sie zu einer validen Option für die Langzeitarchivierung.
Im Gegensatz zu den heutigen Speichermedien wie Festplatten oder SSDs, die vorgefertigt und leer geliefert werden, werden Moleküle, die DNA-gespeicherte Daten darstellen, auf Anfrage erstellt, und die Informationen werden direkt so kodiert, wie das synthetische DNA-Molekül zusammengesetzt ist.
Biologische vs. synthetische (hergestellte) DNA
Desoxyribonukleinsäure ist das von der Natur geschaffene System zur zuverlässigen und langfristigen Speicherung genetischer Informationen. Sie ist ein Molekül, das aus zwei Polymerketten besteht, die eine Doppelhelix bilden. Jede Kette enthält eine Folge von Basen (Nukleotidmonomeren). Es gibt vier natürliche DNA-Basen: Adenin (A), Thymin (T), Cytosin (C) und Guanin (G). In der Natur liegt die DNA in der Regel als Doppelstranghelix (dsDNA) vor, aber in einigen Organismen kommt sie auch als einzelsträngige Polymerkette (ssDNA) vor. Sowohl dsDNA als auch ssDNA können für die Speicherung von DNA-Daten nützlich sein.
Im Zusammenhang mit der digitalen Datenspeicherung wird die DNA jedoch hergestellt. Die Erstellung des DNA-Datenspeichermediums erfordert oder verwendet keine Zellen, Organismen oder Lebewesen, und die gespeicherten Daten führen auch nicht zu deren Erstellung oder Veränderung.
Haltbarkeit und Wartung der Medien
Die DNA ist das Molekül der Wahl für die Informationsspeicherung in biologischen Systemen. Sie kann bei Raumtemperatur und in trockener Atmosphäre Tausende von Jahren intakt bleiben. Ein internationales Team unter der Leitung von Forschern des Zentrums für Paläogenetik in Stockholm entdeckte und sequenzierte erfolgreich DNA aus Überresten des kolumbianischen Mammuts, die bis zu 1,2 Millionen Jahre alt sind. Diese chemische Stabilität gewährleistet, dass die in der DNA kodierten Daten über sehr lange Zeiträume hinweg sicher aufbewahrt werden können.
Heutige Speichermedien müssen in regelmäßigen Abständen auf ihre Haltbarkeit überprüft werden, um sicherzustellen, dass die Daten lesbar bleiben. Aufgrund der Langlebigkeit und anderer Eigenschaften der DNA erwarten wir, dass ihre Wartung im Ruhezustand viel einfacher ist als bei herkömmlichen Speicherlösungen und somit keine nennenswerten Kosten für die Datenaufbewahrung nach der Erstellung anfallen werden.
Unveränderlichkeit des Formats
Ein wesentlicher Faktor, der die DNA als Speichermedium auszeichnet, ist ihre molekulare, universelle Struktur. Digitale Daten, die heute in DNA archiviert sind, werden auch in Tausenden von Jahren noch chemisch lesbar sein. Diese Eigenschaft ist ein klarer Vorteil für DNA-Speicher.
Bei bestehenden Speichertechnologien sind die physische Struktur und das Format der Medien sowie die Methoden zum Lesen und Schreiben der Medien technisch gekoppelt. Dadurch entsteht das Risiko, dass die für das Lesen von Archivdaten erforderlichen Geräte nicht zur Verfügung stehen, was wiederum die Notwendigkeit einer regelmäßigen Migration der Daten auf neue Generationen von Medien und Geräten mit sich bringt.
Im Gegensatz dazu gewährleistet das unveränderliche Format der DNA, dass die dort gespeicherten digitalen Daten immer gelesen und entschlüsselt werden können, solange die Codierung, mit der sie geschrieben wurde (ein logisches Konstrukt im Gegensatz zu einem physischen Gerät), verfügbar ist. Die Datenmigration ist minimal oder unnötig.
Dichte
Die Speicherdichte für magnetische Medien wurde bisher als Flächendichte definiert. Das heißt, die Anzahl der Bytes, die ein Medium pro Flächeneinheit speichern kann, da Bits in magnetischen Speichermedien im Allgemeinen auf einer zweidimensionalen Ebene angeordnet sind. Die DNA ermöglicht jedoch eine große Vielfalt von Formfaktoren, einschließlich dreidimensionaler Speicherung. Um die Datendichte zwischen magnetischen Speichern und DNA zu vergleichen, ist es sinnvoller, die volumetrische Dichte zu verwenden.
DNA-Basen in der Größenordnung von einigen zehn Atomen nehmen ein Volumen von etwa einem Kubiknanometer ein. Selbst unter Berücksichtigung erheblicher Systemkosten wird die Anzahl der in einem 1 mm3 großen Volumen speicherbaren DNA-Bits auf 9 Terabyte geschätzt, was etwa der Hälfte der Kapazität eines LTO-9-Magnetbands mit 18 Terabyte entspricht. Würde man den Innenraum einer LTO-Kassette (ca. 235.000 mm3) mit DNA-Bits füllen, so würde die Kassette etwa 2.000.000 Terabyte an Daten aufnehmen, also etwa das 115.000-fache der Kapazität eines LTO-9-Bandes.
Energieeffizienz und Nachhaltigkeit
Im Vergleich zu den heutigen Rechenzentren mit ihren Speichertechnologien verbrauchen die in der DNA gespeicherten Daten im Ruhezustand minimale bis keine Ressourcen. Während traditionelle Rechenzentren viel Strom und Platz verbrauchen, werden diese Anforderungen bei der DNA-Datenspeicherung vernachlässigbar sein. Und schließlich dürfte die Entsorgung von DNA aufgrund ihrer Langlebigkeit und Dichte weitaus weniger Auswirkungen auf die Umwelt haben als die Entsorgung von veralteten Bandlaufwerken oder Festplatten.
Für Archivdaten, die Jahrzehnte oder länger aufbewahrt werden müssen, ist ein Speichermedium, das im Laufe der Zeit keine zusätzlichen Kosten verursacht, wünschenswert.
Von Daten zu DNA
Um Daten in der DNA zu speichern, werden die digitalen Daten kodiert, dann synthetisiert (geschrieben) und gespeichert. Wenn die gespeicherten Daten wieder benötigt werden, werden die DNA-Moleküle sequenziert (gelesen) und decodiert.
Das Grundkonzept der Kodierung für die DNA-Datenspeicherung ist der Prozess der Umwandlung der Einsen (1) und Nullen (0) der ursprünglichen digitalen Daten in Sequenzen der Basen (ACGT), aus denen die DNA-Moleküle bestehen. Die Kodierungsmethoden sind eng an die verwendeten Synthese- und Sequenzierungsmethoden gekoppelt und ermöglichen eine akzeptable Bitdichte, kompensieren Fehlerraten und ermöglichen die Segmentierung der ursprünglichen Binärdaten in DNA-Stränge und den Wiederzusammenbau dieser DNA-Stränge zu Binärdaten.
Bei der Synthese wird die DNA hergestellt. Auf der Grundlage einer Reihe chemischer Schritte werden die DNA-Moleküle, wie im Codierungsschritt festgelegt, auf verschiedene Weise zusammengesetzt, die die „Bits-to-Bases“ (Bits zu Basen) oder andere Codierungsmethoden widerspiegeln.
Nach der Synthese wird die DNA zur langfristigen Aufbewahrung verkapselt und in einer Bibliothek deponiert, in der DNA-Pools gespeichert werden. Es gibt mehrere Arten der Verkapselung, darunter das Versiegeln der DNA in Kapseln mit Inertgas oder das Mischen mit Chemikalien, die zur Konservierung beitragen.
Sobald die Daten benötigt werden, wird die kodierte DNA aus ihrer Bibliothek entnommen und für die Sequenzierung vorbereitet. Häufig umfasst dieser Prozess auch die Anfertigung von Kopien der Moleküle für molekülintensive Sequenzierungsmethoden und für Fälle, in denen mehrere Kopien für die Verteilung oder weitere Lagerung benötigt werden.
Bei der Sequenzierung wird die Identität und Reihenfolge der DNA-Basen (ACGT) in einem DNA-Abschnitt bestimmt. Heute sind verschiedene Sequenzierungsmethoden im Einsatz (zum Beispiel Sequenzierung durch Synthese oder Nanopore-Sequenzierung). Diese verwenden verschiedene Methoden (beispielsweise optische, pH-basierte, elektrische), um die tatsächlichen Basen in den zu lesenden DNA-Strängen zu erfassen.
Bei der Dekodierung werden die Basen in einem sequenzierten DNA-Strang in digitale Daten umgewandelt. Wichtig ist dabei die Durchführung einer Fehlerkorrektur, um mögliche Fehler zu beheben, die während der Synthese, Konservierung und Sequenzierung aufgetreten sind. Das können unter anderem Fehler in einzelnen Basensequenzen oder der Verlust von Basensträngen sein. Sobald die Dekodierung abgeschlossen ist, werden die Daten in digitaler Form wieder zusammengesetzt und an den Benutzer zurückgegeben.
DNA-Tools
In den letzten Jahrzehnten hat die Biotechnologie große Fortschritte bei der Entwicklung von Tools zum Lesen, Schreiben und Manipulieren von DNA gemacht. Bestehende und neu entstehende Anwendungen in den Biowissenschaften, der Landwirtschaft und der Energieerzeugung/-speicherung treiben diesen Trend voran.
Ein besonders nützliches Verfahren ist die PCR (Polymerase-Kettenreaktion), mit der DNA selektiv kopiert wird. Die PCR wird eingesetzt, um mehrere Replikate von in der DNA gespeicherten Daten zu erstellen und für den zufälligen Zugriff (Random Access). Das heißt, die Auswahl einer vorab markierten Untergruppe von Molekülen zum Kopieren aus einem größeren Pool. Andere Technologien haben sich in Anwendungen wie der Genbearbeitung herausgebildet. Diese könnten in Zukunft auch für die DNA-Datenspeicherung eingesetzt werden.
Da sich die DNA-Datenspeicherung immer mehr zu einer praktikablen Anwendung entwickelt, wird sie die Entwicklung neuer Tools vorantreiben, die die Gesamtbetriebskosten für die DNA-Datenspeicherung weiter senken und neue Funktionen ermöglichen werden.
Wirtschaftliche Aspekte der DNA-Datenspeicherung
Heute sind das Schreiben (Synthese) und Lesen (Sequenzierung) von DNA für die Datenspeicherung noch nicht in großem Maßstab praktikabel. Die Trends sind jedoch vielversprechend und Fortschritte in beiden Bereichen sind entscheidend für die Einführung von DNA-Datenspeicherlösungen. Die Synthesekosten sind für alle Anwendungsfälle von grundlegender Bedeutung, während die Sequenzierungskosten besonders wichtig sind, um Archivierungsanwendungen zu ermöglichen, bei denen die Daten häufig gelesen werden müssen.
Der Preis pro Base hat sich seit 1990 stetig nach unten entwickelt. Diese Trends wurden hauptsächlich durch wissenschaftliche/medizinische Anwendungen vorangetrieben. In Teil drei unserer Serie zu DNA-Speicher gehen wir unter anderem darauf ein, wie sich diese Trends auf die Kosten pro Bit im Zusammenhang mit der Speicherung von DNA-Daten beziehen. Den ersten Teil zu unserer Serie finden Sie unter diesem Link.
Dieser Artikel basiert auf dem Whitepaper der DNA Storage Alliance „An Introduction to DNA Data Storage“.