DigitalGenetics - stock.adobe.co

DNA-Storage: Synthese und Sequencing

Um Daten in DNA-Storage zu schreiben und von dort auszulesen, kommen Synthese und Sequenzierung zum Einsatz. Wir erklären, wie diese Prozesse in der Praxis funktionieren.

Unsere vierteilige Serie zum Thema DNA-Storage gibt einen Überblick darüber, was die Technologie leisten kann und wie sie umgesetzt wird. In diesem dritten Teil geht es darum, wie Daten letztlich geschrieben und gelesen werden. Diese Prozesse – Synthese und Sequenzierung (Sequencing) – werden im Folgenden erläutert

Die DNA-Synthese ist die chemische Herstellung von Nukleinsäure-Sequenzen. Der größte Teil der biologischen Forschung und des Bio-Engineerings umfasst synthetische DNA, die kurze DNA-Sequenzen bis hin zu viel längeren Sequenzen umfassen kann. Längere Sequenzen können auch aus kürzeren zusammengesetzt werden.

Alle Methoden der DNA-Synthese für die Datenspeicherung sind im Gesamtdurchsatz um ein Vielfaches langsamer als bestehende Speichertechnologien. Nur eine massive Parallelisierung könnte gewährleisten, dass DNA-Storage wettbewerbsfähig wird. Um dies zu erreichen, werden die Syntheseprozesse stetig weiterentwickelt, um eine Performance-Skalierung zu realisieren. Wir beschreiben nachfolgend die verfügbaren unterschiedlichen Prozesse.

Base-für-Base-Synthese: Chemisch und enzymatisch

Die gängigste Technik für die Synthese ist heute die chemische Synthese. Eine neue Technologie, die enzymatische Synthese, ist in den letzten Jahren ausgereift und wird in Kürze auf den Markt kommen. Bei beiden Techniken werden Moleküle Base für Base aufgebaut.

Der Prozess beginnt mit einer Base, die mit einem so genannten „Blocker“ gebunden wird, das heißt, mit einem chemischen Element, das an eine Base am Ende des zu synthetisierenden DNA-Strangs angehängt werden kann und sie so während des Prozesses schützt. Dann beginnt eine Schleife: (1) der Strang wird entblockt, (2) eine neue Base wird mit einem Blocker auf dem Strang hinzugefügt und (3) die neue Base wird an den Strang gebunden. Dann wird der Vorgang wiederholt. Im Allgemeinen beträgt der längste Strang synthetischer DNA, der mit den heute verwendeten Verfahren unter Beibehaltung akzeptabler Fehlerquoten mit Hilfe der Base-by-Base-Synthese hergestellt werden kann, 200-300 Basen.

Chemische Synthese (Phosphoramidit-Verfahren)

Gegenwärtig wird die gesamte kommerzielle synthetische DNA nach der Phosphoramidit-Synthesemethode hergestellt. Bei diesem Verfahren werden Oligonukleotide aus Bausteinen synthetisiert, die natürliche Basen nachbilden. Ein Oligonukleotid ist ein Molekül (Oligomer), das das aus mehreren strukturell gleichen oder ähnlichen Einheiten aufgebaut ist, in diesem Fall aus DNA- oder RNA-Nukleotiden.  Das Verfahren ist seit Ende der 1980er Jahre automatisiert und wird zur Herstellung gewünschter genetischer Sequenzen für Anwendungen in der Medizin und Molekularbiologie sowie zur Datenspeicherung eingesetzt. Diese Methode ist derzeit die robusteste, am besten getestete und qualitativ hochwertigste Methode zur Herstellung synthetischer DNA.

Der Preis ist das größte Problem bei dieser Methode. Er sinkt zwar von Jahr zu Jahr, liegt aber immer noch weit über dem Preis für gängige Speicheranwendungen. Eine weitere Herausforderung ist die Geschwindigkeit, mit der die DNA mit dieser Methode geschrieben wird. Bei den meisten Technologien werden die Nukleotide immer noch nacheinander an den wachsenden Strang angehängt, und die Geschwindigkeit der Flüssigkeitsverarbeitung in mikrofluiden Geräten begrenzt die Produktionsgeschwindigkeit. Neue Methoden und Technologien, die bereits erprobt werden, sind vielversprechend, um die Geschwindigkeit deutlich zu erhöhen und die Kosten durch Parallelität zu senken.

Es wird derzeit an der enzymatische Synthesetechnologie als Alternative zur beschriebenen Methode gearbeitet. Noch hat sie den kommerziellen Markt allerdings nicht erreicht.

Synthese durch Ligation

Eine andere Synthesetechnik wird für die Synthese langer DNA-Stränge für speicherbasierte Anwendungen eingesetzt. Der Grundgedanke besteht darin, eine Bibliothek von vordefinierten kurzen Oligonukleotiden mit Hilfe von Base-für-Base-Synthesetechniken, wie sie im vorigen Abschnitt beschrieben wurden, zu erstellen und dann die kurzen Oligonukleotide zusammenzufügen (zu ligieren), um lange Oligonukleotide (zehn- bis hundertmal länger als die mit Base-für-Base-Methoden erstellten) mit akzeptablen Fehlerquoten zu produzieren. Ein längerer Oligonukleotid-Baustein bedeutet, dass es je nach Kodierungsverfahren möglich ist, die Kosten für die Fehlerkorrektur und das erneute Zusammensetzen von Teilsegmenten über eine größere Datennutzlast zu amortisieren oder, mit anderen Worten, einen geringeren Protokoll-Overhead zu ermöglichen. Die Grundidee ist, dass sich die komplementären DNA-Basen in den Überhangsegmenten auf natürliche Weise paaren. Ein zusätzlicher enzymatischer Prozess schafft dann dauerhafte Bindungen zwischen ihnen und ermöglicht so den Aufbau der längeren Sequenzen.

Sequenzierung

DNA-Sequenzierung ist ein allgemeiner Begriff, der eine Reihe von Techniken beschreibt, mit denen die Reihenfolge der Basen in einem DNA-Strang ermittelt und dokumentiert wird. Es gibt eine lange Geschichte der DNA-Sequenzierungstechnologien. Seit Mitte der 1990er Jahre wurde eine neue Sequenzierungstechnologie, das so genannte Next Generation Sequencing (NGS), entwickelt, die den Einsatz der DNA-Sequenzierung erweitert hat. NGS nutzt die massive Parallelisierung, um einen Durchbruch in Bezug auf Durchsatz, Skalierbarkeit und Geschwindigkeit zu erzielen. Während NGS selbst eine Vielzahl von Methoden darstellt, gibt es zwei große Kategorien von NGS-Sequenzierung, die heute kommerziell genutzt werden: Sequenzierung durch Synthese (SBS) und Nanopore-Sequenzierung.

Sequenzierung durch Synthese (SBS)

Die Sequenzierung durch Synthese hat ihren Namen daher, dass alle Verfahren auf einer einzelsträngigen DNA-Vorlage (Template) beruhen und dann die Tatsache nutzen, dass die Basen in einem DNA-Molekül (ACGT) in komplementärer Weise (A-to-T und C-to-G) miteinander gepaart sind, um den komplementären Strang zur Vorlage zu synthetisieren. Vom Konzept her tun alle SBS-Methoden das Folgende:

  1. Ausgehend von einer ursprünglichen doppelsträngigen DNA-Probe (dsDNA) wird diese in Einzelstrang-DNA-Segmente (ssDNA) der gewünschten Länge zerlegt. Dieser Schritt wird allgemein als Bibliotheksvorbereitung bezeichnet.
  2. Diese vorbereitete ssDNA-Bibliothek wird einer Durchflusszelle (flow cell) im Sensing-Instrument hinzugefügt. Danach erzeugt man für jedes ssDNA-Segment in der Bibliothek ein dsDNA-Segment (daher Sequenzierung durch Synthese), indem unter Verwendung von einer Polymerase der neue Strang der komplementären Basen in das ursprüngliche ssDNA-Segment eingebaut wird.
  3. Jedes Inkorporationsereignis erzeugt ein Signal (optisch, elektrisch, Freisetzung eines Ions usw.), das nachgewiesen und zur Interpretation der Zusammensetzung des ursprünglichen ssDNA-Segments aus der Bibliothek verwendet werden kann.

Sequenzierung von Nanoporen

Die Nanoporen-Sequenzierung beruht auf einem anderen Mechanismus als die SBS. Bei der Nanoporen-Sequenzierung wird ein DNA-Strang

durch eine Pore in einer Art Membran geführt, die von einer Elektrolytlösung umgeben ist. Wenn eine elektrische Vorspannung an der Membran angelegt wird, bewegen sich die DNA-Stränge

durch die Pore, und ein Detektionsereignis (Spannung, chemische Reaktion usw.) wird registriert, was den direkten Nachweis der Basen im ursprünglichen DNA-Strang ermöglicht. Der Begriff Nanopore kommt daher, dass die Pore eine Öffnung von wenigen Nanometern haben muss, um die Erkennung mit einer Auflösung auf Basenebene zu ermöglichen. Nanopore-DNA-Sequenzierungsdetektionen können in Echtzeit gestreamt werden und ermöglichen so einen sofortigen Zugriff auf die Ergebnisse. Mit Nanopore-Techniken können auch andere Moleküle, nicht nur DNA, erfasst werden.

Die heute am weitesten verbreitete Lösung für die DNA-Sequenzierung mit Nanoporen stammt von Oxford Nanopore Technology (ONT), die eine in eine Lipidmembran eingebettete biologische Pore verwendet, um die (elektronische) Abtastung zu präzisieren. Auch halbleiterbasierte Nanoporenlösungen werden derzeit entwickelt.

In den ersten beiden Teilen dieser Serie erklären, warum DNA-Storage zu einer validen Speicheroption werden kannsowie wie Speichermedien beschaffen sind und die Datenumwandlung erfolgt. Der vierte Teil beschäftigt sich mit dem Thema, wie die DNA für die Datenspeicherung vorgehalten wird und mit einem zusammenfassenden Überblick.

Dieser Artikel basiert auf dem Whitepaper der DNA Storage Alliance „An Introduction to DNA Data Storage“.

Erfahren Sie mehr über Storage Management