NicoElNino - stock.adobe.com

Teradata Intelligent Memory: In-Memory-Analysen in 4D

Die Teradata Datenbank unterscheidet sich von vergleichbaren In-Memory-Technologien. Der Ansatz ist kostengünstiger, aber in der Performance nahezu gleichwertig.

Die Datenbanktechnologie von Teradata ist ein relationales Datenbankmanagementsystem (RDBMS) mit Funktionen für die Massenparallelverarbeitung (Massive Parallel Processing, MPP). Die Lösung nutzt In-Memory-Technologien und zielt auf die Analyse von Big Data und Data-Warehouse-Anwendungen ab.

Damit konkurriert das Unternehmen unter anderem mit Angeboten von SAP, Oracle, Microsoft, Software AG und GridGain. Die Marktforscher von Research & Reports erwarten für In-Memory-Systeme in den kommenden Jahren erhebliche Wachstumsraten. Bis 2023 soll der weltweite Markt auf sieben Milliarden Dollar ansteigen, das entspricht einem durchschnittlichen jährlichen Plus von 19 Prozent.

Intelligent Memory für Data Swapping

Teradata Database gehört zu den Grundsteinen des Unternehmens und liegt derzeit in Version 16.20 vor. Die In-Memory-Funktionalität der Datenbank basiert auf dem so genannten Intelligent-Memory-Konzept.

Im Gegensatz zu SAP HANA oder der In-Memory-Struktur von Terracotta DB der Software AG, setzt man bei Teradata nicht darauf, alle Daten ständig In-Memory vorzuhalten. Stattdessen arbeitet man mit drei Ebenen, die fortlaufend gespiegelt werden, um Ausfallsicherheit zu gewährleisten. Lediglich 20 bis 30 Prozent der Daten werden im Arbeitsspeicher gehalten. Daneben kommen SSD-Laufwerke und Festplatten als Storage-Schicht hinzu.

Dieses Konzept bietet zwei wesentliche Vorteile gegenüber den All-In-Memory-Systemen. Zum einen sind damit Kosteneinsparungen verbunden, denn der Speicherumfang, der der Datenbank zur Verfügung gestellt wird, kann dynamisch angepasst werden. Der zweite Vorteil ist, dass bei diesem Konzept keinerlei Änderungen an den SQL-Abfragen beziehungsweise den Anwendungsprogrammen vorgenommen werden müssen.

Komplexes Datenmanagement

Doch es gibt auch einen gravierenden Nachteil: Da nicht alle Daten In-Memory sind, kann das unter Umständen dazu führen, dass sich die Performance kaum verbessert, da immer wieder die „falschen“ Daten im Arbeitsspeicher sind.

Teradata widerspricht dieser Annahme. „Alle unsere Messungen zeigen, dass nur rund ein Viertel aller Daten wirklich ‚heiß‘ sind – und wenn diese im direkten Speicherzugriff sind, ist die Performance mit einer All-In-Memory-Lösung absolut vergleichbar“, sagte Scott Gnau, damals President der Teradata Labs, als er im Jahr 2013 die neuen Datenbank-Features vorstellte.

Damit wird das Problem allerdings nur verlagert, denn die Datentemperatur kann sich sehr schnell ändern. „Das, was im Moment heiß ist, kann möglicherweise schon in wenigen Sekunden eiskalt sein – oder auch umgekehrt“, erläutert Teradata CTO Stephen Brobst die Kernproblematik des fortlaufenden Datenaustausches. Entsprechend wichtig sind deshalb Algorithmen, nach denen die Daten zwischen den drei Ebenen hin- und hergeschoben werden.

Seit der Einführung des Intelligent-Memory-Konzepts mit Version 14.10 im Jahr 2013 wurden diese Algorithmen von den Teradata-Entwicklern ständig weiterentwickelt. Unter anderem auch unter Einbeziehung von modernen Machine-Learning-Methoden. Steht der Datenbank rund 20 Prozent der Gesamtdatenmenge zur Verfügung, so dauert es laut Teradata rund sieben Arbeitstage, bis alle heißen Daten im Hauptspeicher vorhanden sind und die Datenbank ihre Spitzen-Performance erreicht.

Datenberge wachsen schneller, als Speicherkosten fallen

Bei Teradata ist man überzeugt, dass das eigene Konzept gegenüber All-In-Memory-Architekturen deutliche Vorteile hat. „Das Standardargument der All-In-Memory-Vertreter lautet, dass die Kosten für Hauptspeicher immer weiter fallen und sich somit über der Zeit hinweg alles in Richtung In-Memory bewegen wird. Doch das ist nur die halbe Wahrheit, in Wirklichkeit steigen die Datenmengen schneller an als die Speicherpreise fallen. Und das bedeutet, dass die Schere immer größer und nicht kleiner wird“, sagt Brobst über die grundlegenden Unterschiede beider Konzepte.

„In Wirklichkeit steigen die Datenmengen schneller an, als die Speicherpreise fallen. Und das bedeutet, dass die Schere immer größer und nicht kleiner wird.“
Stephen BrobstTeradata

Darüber hinaus gibt es aber noch weitere Zugriffsoptimierungen. Beispielsweise die Speicherung der Daten im Spaltenformat, womit der Zugriff über Vektorbefehle ermöglicht wird. Diese Datenspalten können auch komprimiert werden, wodurch sich die Performance verbessert. Auch das automatische Pipelining von Abfrageergebnissen im Hauptspeicher zwischen zwei Prozessen beschleunigt den Datentransfer, da das zeitintensive Spooling auf der Festplatte entfällt.

Wie sehr sich die Leistung der Teradata Datenbank kontinuierlich verbessert, zeigt ein Benchmark, den das Unternehmen gemeinsam mit einem Unternehmen der Fertigungsindustrie aufgestellt hat. Getestet wurde ein Upgrade von Version 15.00 auf Version 15.10. Hierzu wurden 512 Queries auf 800 Tabellen mit einem Gesamtvolumen von 16 TByte ausgeführt. Dabei ergaben sich Runtime-Einsparungen von 29 Prozent, I/O-Reduktionen um 35 Prozent und ein um 33 Prozent geringeres Spool-Aufkommen.

Basis für viele Anwendungsbereiche

Anwendungsseitig positioniert Teradata seine Datenbank vor allem im Bereich Analytics – die Verantwortliche bei Teradata sprechen unter anderem von 4D Analytics. Gemeint ist die Kombination von 3D-Raumdaten mit einer weiteren Dimension: der Zeit. Laut Teradata ist diese Kombination vor allem bei modernen Edge- und IoT-Anwendungen wichtig.

„Edge-Geräte, wie sie in Connected Cars, Flugzeugen, Ampeln, Verkehrszeichen und den vielen neuen Wearables zum Einsatz kommen, werden immer smarter und erfordern immer umfangreichere Analytics. Mit unseren weltweit ersten 4D-Analytics-Möglichkeiten können wir diese IT-Revolution anführen. Damit beugen wir dem Verkehrsinfarkt vor, verbessern die Energieeffizienz und erhöhen die Verkehrssicherheit“, sagte Tim Henry, Senior Vice President, Strategic Offering Management, anlässlich der Neuvorstellung der Teradata Analytics-Lösung im Frühjahr 2018.

Auch die neue Datenplattform Vantage basiert auf der Teradata In-Memory-Datenbank. In Vantage hat man Werkzeuge, Technologien und Anwendungen zusammengefasst, die vor allem das Auswerten von großen, heterogenen Datenbeständen erleichtern. Das Herzstück ist neben der In-Memory-Datenbank ein Objektspeichersystem. Beide Systeme sind über einen Highspeed-Bus verbunden. Hinzu kommen die Graphdatenbank Aster und eine Machine-Learning-Engine.

Nächste Schritte

Teradata Analytics Universe: Hadoop ist bald am Ende.

Die Analytics-Tools der Teradata Aster Analytics Suite.

SAP HANA: In-Memory-Technologie für mehr Unabhängigkeit.

Erfahren Sie mehr über Datenbanken