JT Jeeraphun - stock.adobe.com
Amazon-Timestream für die Datenverarbeitung in IoT-Lösungen
Viele IoT- und Industrie-4.0-Lösungen produzieren Zeitreihendaten, die sie meist in relationalen Datenbanken speichern. AWS verspricht mit Timestream eine kostengünstigere Lösung.
Industrie 4.0 ist als Thema schon seit einiger Zeit unvermeidbar. Viele Unternehmen möchten ihre Anlagen überwachen oder IoT-Produkte selbst auf den Markt bringen und deren Überwachung für die Kunden verwalten.
Haben sie nun dutzende, hunderte oder tausende Sensoren installiert, fängt die Herausforderung jedoch gerade erst an. Denn die Daten, die diese Sensoren erheben, sind zwar auf der einen Seite bares Geld wert, auf der anderen Seite kann es sehr kostenintensiv werden, sie zu speichern.
AWS hat im September 2020 seine neue Zeitreihendatenbank Timestream veröffentlicht, um genau dieses Problem zu lösen. Wir haben mit Jan Metzner, Solutions Architect für Manufacturing bei AWS, darüber gesprochen.
Zeitreihendatenbanken: groß und schwerfällig
Zur Lösung dieses Problems gibt es verschiedene Ansätze. Datenbanken für Zeitreihen gibt es schon länger. Zeitreihen sind immer gleiche Messungen, beispielsweise Temperatur einer Fertigungsanlage, Klimawerte in einem Serverraum, oder Nutzungsverhalten und Performance für Anwendungen, die über einen Zeitraum hinweg laufend erhoben werden.
Gerade in Anlagen landen die Daten oft auf einem Datenbankserver in der Produktionshalle, der nicht immer optimal mit der IT-Infrastruktur vernetzt ist und auf dem keine vernünftigen Analyse-Tools installiert sind. Sie werden außerdem häufig, wenn der Platz im Datenbankserver zur Neige geht, ungenutzt gelöscht oder in schwerfälligere Archiv-Hardware verschoben.
Auch bei Unternehmen, die ihre Sensordaten in der Cloud speichern, ergibt sich aus Kostengründen diese Aufspaltung: eine schnellere, teurere Datenbank für aktuellere Daten und ein kostengünstiges, langsameres Archiv, bei dem Auswertungen, zum Beispiel für Machine Learning, viel Zeit in Anspruch nehmen. Das Aufbrechen von Zeitreihenarchiv-Silos ist zwar möglich, denn es gibt Auswertungssoftware, mit der sich Abstraktionsebenen über beide Speicher hinweg schaffen lassen und die für IT-Mitarbeiter genauso abrufbar sind, wie für Produktionsmitarbeiter, aber nicht jedes Unternehmen hat Personal und Zeit, um das umzusetzen.
Diese Aufteilung erschwert nicht nur die Analyse solcher Datenreihen, sondern auch die Skalierung der Speicherinfrastruktur. Das wird schnell zum Problem, sagt Jan Metzner: „Besonders Unternehmen, die Produkte mit IoT-Funktionen verkaufen, können oft schlecht einschätzen, wann Kunden diese aktivieren und sie Speicherkapaziäten belegen.“
Serverloses Storage für IoT
Amazon Timestream ist als serverlose Datenbank konzipiert. Das bedeutet, dass Unternehmen die volle Kontrolle über die Infrastruktur an ihren Cloud-Provider abgeben. Das beschleunigt und vereinfacht das Handling des Speichers erheblich. Statt Daten in zwei verschiedene Datenbanken aufzuspalten, interagieren Anwender mit einer einzigen Oberfläche und reservieren Daten gemäß einer von ihnen festgelegten Lifecycle-Policy für den Schnellzugriff.
Timestream verarbeitet und dedupliziert die Daten für den kurzfristigen Zugriff (In-Memory-Speicher) und macht sie für schnelle Zustandsabfragen aus der jüngeren Vergangenheit verfügbar. Die Daten für den Langzeitzugriff sind für aufwändige Suchanfragen und Analysen optimiert, die längere Zeitabschnitte in den Blick nehmen (Magnetspeicher).
Bald soll außerdem SSD-Speicher verfügbar sein. Der Unterschied ist für den Nutzer jedoch nicht direkt ersichtlich, denn er kann Daten aus beiden Tiers auf derselben Oberfläche abrufen. Sie unterscheiden sich jedoch in der Geschwindigkeit der Antworten. Timestream nutzt zwar SQL (Structured Query Language), bietet aber eine schnellere und flexiblere Nutzung als eine gewöhnliche relationale Datenbank und kann beispielsweise auch Dateneingaben und -Abfragen getrennt skalieren.
So fügt sich Timestream in die IoT-Architektur
AWS versucht mit seinen Angeboten eine End-to-End-Architektur für IoT-Lösungen (Internet der Dinge, Internet of Things) anzubieten. Es ist möglich, ein IoT-Gerät oder einen Edge-Computer zu betreiben, auf dem Greengrass oder andere AWS-Software läuft, die Daten aus diesen Geräten dann über den IoT-Core und Amazon Kinesis in Timestream einzuspeisen und sie dann mit AWS-Auswertungsangeboten wie AWS QuickSight und Amazon SageMaker auszuwerten. Auch die Überwachung von Recheninfrastruktur, wie Servern, ist nahtlos möglich. Innerhalb des Ökosystems müssen Unternehmen nur noch wenig selbst programmieren und einstellen.
Viele Unternehmen haben jedoch schon vorhandene Infrastruktur – zum Beispiel Analysewerkzeuge oder Sensoren – und möchten nur ihre bisherige Datenbanklösung ersetzen. Oder sie brauchen aus anderen Gründen die Anbindung von Drittanbietersoftware. „Die Integration in bestehende Systeme ist der Schlüssel. Kunden wollen oft mit den Tools weiterarbeiten, mit denen sie jetzt schon arbeiten“, sagt Jan Metzner.
Timestream ist daher mit offenen APIs ausgestattet und kann Daten auch über einen Apache Flink Connector oder einen Telegraf Connector erhalten. Anwender können Daten in vielen gängigen Programmiersprachen wie Python, Java, Golang, Node.js und .NET oder mit AWS CLI (Kommandozeile, Command Line Interface) schreiben und abfragen. Außerdem können Kunden, so Metzner, Daten auch in den Amazon-S3-Service exportieren und von dort aus an andere Anwendungen weiterschicken.
Da es keine proprietäre Query-Sprache gibt, sondern alle Suchanfragen sich mit SQL schreiben lassen, können sie außerdem Auswertungs-Tools oder Warnsysteme von Drittanbietern über die offene API anbinden, beispielsweise das Open-Source-Visualisierungs-Tool Grafana, oder Instrumente, die sich über den JDBC-Treiber anschließen lassen.
Für wen eignet sich Timestream?
AWS richtet sich mit Timestream an Unternehmen, die entweder IoT-Datenreihen ihrer eigenen Geräte überwachen, oder eine Smart-Product-Lösung für ihre Kunden verwalten möchten. Außerdem eignet sich Timestream für die Überwachung von Anwendungen durch DevOps-Teams.
„Für Anbieter von intelligenten Produkten kann es oft schwer sein, die Entwicklung von Speicherbedarf vorherzusehen. Für sie wird die aufwendige Skalierung von traditionellen, relationalen Datenbanken zum Problem.“
Jan Metzner, AWS
Laut Jan Metzner können auch kleine Unternehmen, die beispielsweise nur ihre eigene Anlage überwachen möchten, von Timestream profitieren: „Bei Timestream war es wichtig, dass wir einen Weg finden, die Lösung wesentlich günstiger anzubieten, im Vergleich zu herkömmlichen Zeitreihenspeichern wie relationalen Datenbanken.“
In der AWS Region Irland in Europa verlangt AWS gerundet 0,57 US-Dollar pro einer Million Schreibvorgänge mit jeweils 1 KB, für den In-Memory-Speicher 0,04 Dollar pro GB pro Stunde und für den Magnetspeicher 0,03 Dollar pro GB pro Monat. Hinzu kommen 0,01 Dollar pro gescanntem GB bei Anfragen. Daraus ergibt sich im Rechenbeispiel, das AWS selbst für Timestream angibt, für die Überwachung einer Anwendung mit regelmäßigen Anfragen für Warnnachrichten, ein Preis von knapp 30 Dollar – inklusive der ungefähr 13 Prozent Aufschlag für den europäischen Standort.
Für Unternehmen, die aus Compliance-Gründen kein Serverless-Modell für Produktionsdaten anwenden möchten und ihre Daten On-Premises speichern möchten, ist Timestream weniger gut geeignet. Außerdem ist es immer sinnvoll, bei verbrauchsbasierten Kostenmodellen im Vorfeld eine konservative TCO-Aufstellung (Total Cost of Ownership, Gesamtkostenanalyse) zu machen.
„Die Operativen Teams (OT) können sich auf ihre Kernaufgabe konzentrieren und trotzdem die Datenauswertung verwenden. Die Bedienung ist recht einfach – aber es sind eben auch Daten, die OT-Teams und IT-Teams gleichermaßen nutzen“, sagt Jan Metzner. Timestream könnte daher gemeinsam mit einer durchdachten IoT-Strategie dazu beitragen, beide Bereiche von Fertigungsunternehmen näher zueinander zu rücken.