heyengel - stock.adobe.com
Datenbank- und Analytics-Software aus dem Silicon Valley
Das Silicon Valley gilt erste Adresse für Unternehmensgründungen. Die zweiteilige Artikelserie präsentiert acht Start-ups aus dem Software- und Datenbankumfeld.
Das Silicon Valley ist für IT-Gründer einer der ersten Anlaufpunkte. In diesem und einem weiteren Artikel werfen wir einen Blick auf Unternehmen aus Kalifornien, die unter anderem im Datenbank-, IT-Monitoring- und -Datenmanagement-Bereich aktiv sind.
Als Teil einer Pressetour konnte TechTarget Einblicke in acht IT-Unternehmen gewinnen. Alation, BMC Software, FlashGrid und GridGain stellten wir im ersten Artikel vor. Dieser Artikel konzentriert sich auf Hazelcast, Observe, SambaNova und SingleStore.
Hazelcast: In-Memory-Anwendungen für die digitale Transformation
In der Welt der Datenbanken, egal ob SQL oder NoSQL, möchte man Prozesse beschleunigen, um mit der digitale Transformation Schritt zu halten. Nicht jede Datenbanktechnologie ist hierfür geeignet, weshalb zunehmend In-Memory-Anwendungen auf den Markt kommen, die mit vorhanden Datenbankmanagementsystemen (DBMS) zusammenarbeiten.
Hazelcast bietet eine Open-Source-In-Memory-Lösung, mit der Datenbanken und Anwendungen mit Unterstützung dedizierter Cluster beschleunigt werden. Die Plattform unterstützt Workloads mit schneller Datenverarbeitung und niedriger Transaktionslatenz. „Wir sind keine Datenbank, wir beschleunigen sie“, erläutert Kelly Herrell, CEO von Hazelcast, den Ansatz. Das in Palo Alto ansässige Unternehmen wurde 2008 von Enes Akar, Fuad Malikov, Mehmet Dogan und Talip Ozturk gegründet. Hauptsächlich finanziert von Earlybird Venture Capital und Bain Capital Ventures, hat Hazelcast bisher 13,6 Millionen US-Dollar gesammelt, um seine Entwicklung zu finanzieren.
Hazelcast betont zwei Punkte: die Beschleunigung der Datenbanken und die Reduzierung der Latenzzeit. Dies ermöglicht es, Prozesse wie Banktransaktionen beim Einkaufen im Internet zu beschleunigen. Zu den Kunden von Hazelcast gehören unter anderem Capital One, die Chicago Board Options Exchange, Deutsche Bank, Ellie Mae und Mizuho Securities USA. „Die Unternehmen haben Terabytes an Daten, aber sie kratzen nur an der Oberfläche, da die Antwortzeiten zu lange dauern. Die Hauptaufgabe der Databanken ist es, die Daten zu halten, nicht, sie so schnell wie möglich zu liefern. Hier kommen wir ins Spiel“, erläutert Herrell.
In einer digitalen Welt mit einer Vielzahl von Zahlungsmethoden ist Geschwindigkeit wichtig, insbesondere bei Zahlungen mit Smartphones oder Smartwatches. Auch Betrugserkennung ist kritisch, da Algorithmen schnell Daten benötigen, um die richtigen Entscheidungen zu treffen und fragwürdige Transaktionen zu blockieren. „Doch wenn die Geschwindigkeit ein Schlüsselelement ist, wie am Black Friday mit einer Milliarde Transaktionen an einem einzigen Tag, müssen die Abfragen beschleunigt werden“, sagt der Geschäftsführer.
Die Hazelcast-Lösung ist nicht auf Finanzinstitute beschränkt, sondern reicht auch in das Internet der Dinge hinein. British Gas nutzt eine Vielzahl von Sensoren, um die Nutzung und den Verbrauch seiner Kunden besser zu verfolgen und die Antworten seiner MongoDB-Datenbanken mit dem Hazelcast Data Grid zu beschleunigen. Im Einzelhandel optimiert die Technologie die Echtzeitinventarisierung von Lagerbeständen. Ein weiterer Markt ist die Unterhaltungs- und Medienindustrie, um die Bedürfnisse von Abonnenten mit Machine-Learning- und KI-Algorithmen zu verfolgen.
40 Prozent des Hazelcast-Umsatzes werden auf den europäischen Märkten erwirtschaftet, mit 50 der größten Finanzinstitute der Welt und sechs der größten Webhändler. „Wir haben einen Standort in London, um den europäischen Markt zu adressieren. Wir konzentrieren uns auf bestimmte Märkte, die einen Bedarf an beschleunigten Datenbanken haben. Da wir Open Source sind, kann ein Entwickler einfach unseren Code laden, um Tests durchzuführen, und sich dann der kommerziellen Variante unserer Lösung mit entsprechendem Support zuwenden“, erklärt Herrell. „Und wir gehen jetzt in die Cloud, indem wir mit der Hazelcast Cloud eine SaaS-Lösung auf den Markt bringen.“
Die Steuerung der Hazelcast Cloud erfolgt über ein Dashboard, mit dem sich Cluster-Kapazitäten auswählen lassen. Vorkonfigurierte Modelle unterstützen Kunden, die Lösung zu testen oder für eine einmalige Nutzung schnell zu starten. Das Angebot startet vorerst in den USA und soll Ende des Jahres auch nach Europa kommen. Unterstützt werden AWS, Microsoft Azure und Google Cloud Platform.
Observe: Logs und Telemetriedaten an einem Punkt analysieren
Observe wurde 2017 gegründet. Die Idee des Unternehmens ist, Maschinendaten in verwertbare Informationen umzuwandeln. Das Unternehmen hat 80 Mitarbeiter und wirbt damit, bereits 40 Kunden zu haben. Observe konnte bei seinen drei Finanzierungsrunden rund 40 Millionen US-Dollar einnehmen. Die Lösung verwaltet nach eigenen Angaben mehr als ein Petabyte an Daten. Zu den größten Investoren gehören Michael Dell, Ken Duda, Frank Slootman, Sutter Hill Ventures, aber auch Snowflake, Splunk, Wavefront und Roblox.
Um seine Monitoring-Plattform aufzubauen, entschied sich Observe für das Data Warehouse von Snowflake. Hier werden die Logs und Metriken der Kundenanwendungen gespeichert und analysiert. Konkret möchte die Lösung die Fragmentierung von Maschinendaten aufheben, die über mehrere Systeme verstreut sind. Observe führt die Daten auf der Plattform von Snowflake zusammen und korreliert sie, um Probleme in der Infrastruktur zu finden.
Observe ist in der Lage, Telemetriedaten, Logs, Metriken, Traces, Änderungen, Support-Tickets und CI/CD-Daten zu sammeln, um Anwender dabei zu unterstützen, einen schnellen Überblick über alle Daten zu erhalten. Das Unternehmen bedient damit den Observability-Markt. Das Start-up ist aber nicht der erste Anbieter, der in diesen Markt einsteigt: AppDynamics, DataDog, Sysdig, New Relic und BMC Software sind hier ebenfalls vertreten.
Observe möchte sich vor allem dadurch unterscheiden, dass es an einem Ort alle Daten der verschiedenen Monitoring Tools und Kundenanwendungen vereint. Gleichzeitig bietet es Warnfunktionen, die die Betreiber benachrichtigen, wenn sich die Metriken einer Anwendung signifikant ändern. Für die Abrechnung setzt Observe auf ein Pay-per-use-Modell mit Credits. Ein Credit entspricht einer Stunde CPU-Nutzung auf Snowflake für Abfragen. Allerdings ist es zusätzlich notwendig, Speicherplatz auf Snowflake bereitzustellen, um Logs und Metriken der überwachten Anwendungen zu speichern.
SambaNova: KI-Plattform mit eigenen Prozessoren
SambaNova wurde 2017 vom ehemaligen Oracle-Mitarbeiter Rodrigo Liang mit Unterstützung der beiden Stanford-Professoren Kunle Olukotun und Chris Ré gegründet.
Die von SambaNova entwickelte KI-Plattform DataScale SN10-8R basiert auf einem x86-Server (AMD Epyc mit 12 TB DDR4-3200). Der von TSMC in 7 nm gefertigte Cardinal SN10-Chip, den SambaNova als Reconfigurable Dataflow Unit (RDU) bezeichnet, basiert auf einem proprietären Design. Der Server läuft mit einer Linux-Distribution in Verbindung mit der Software von SambaNova. Es wurden bereits 16-, 32- und 64-RDU-Knoten in einem Rack geliefert.
„Die RDU ist nicht wirklich ein ASIC,“, sagt Liang, „da dieser nicht in Echtzeit umprogrammiert werden kann.“ SambaNova verfügt über einen eigenen Optimierer und Graph-Compiler, so dass Kunden, die derzeit PyTorch oder TensorFlow verwenden, ihre Workloads für die Cardinal-Plattform neu kompilieren können. Der hauseigene Compiler optimiert die Leistung des Cardinal-Chips kontinuierlich, um eine optimale Bandbreite zu gewährleisten und Berechnungen zu beschleunigen. Wenn ein Workload mehr Speicher benötigt, passt sich der Chip an.
„Wir treffen uns mit Entwicklern, wo auch immer sie sind, um sie zu unterstützen, unsere KI-Plattform, richtig zu nutzen“, erläutert der SambaNova-Gründer. Während der RDU-Chip automatisch für bestimmte Frameworks optimiert wird, kann die Reaktion des Schaltkreises angepasst oder neu konfiguriert werden.
SambaNova entwickelt außerdem einen Dataflow as a Service (DFaaS), um Unternehmen dabei zu unterstützen, sich auf ihr KI-Modell zu konzentrieren, ohne sich um den technischen Teil kümmern zu müssen. Das wird zum Beispiel in der Krebsdiagnose eingesetzt, indem medizinische Bilder analysiert werden. Ein weiterer Bereich ist der Finanzsektor, der laut McKinsey auf 683,7 Milliarden US-Dollar geschätzt wird, aber auch die verarbeitende Industrie mit Use Cases in Supply Chain Management und Robotik.
SingleStore: transaktionale und analytische Verarbeitung in einer Anwendung
Mit seiner Datenbank, die sowohl transaktionale als auch analytische Workloads unterstützt, will SingleStore mit der zunehmenden Bedeutung von SaaS-Anwendungen Schritt halten, die immer höhere Anforderungen an Leistung und Reaktionsgeschwindigkeit stellen.
SingleStore wurde 2011 unter dem Namen MemSQL gegründet und 2020 umbenannt. In den letzten Monaten hat SingleStore mit seiner Echtzeitdatenbank, die strukturierte und unstrukturierte Daten aus mehreren Quellen abfragen und verwalten kann, an Bekanntheit gewonnen.
„Unser Ziel ist es, eine moderne Datenbank anzubieten, die die meisten Anforderungen in Unternehmen erfüllen kann“, sagt Suresh Sathyamurthy, CMO von SingleStore. Das Start-up hat eine verteilte relationale SQL-Datenbank für transaktionale und analytische Workloads entwickelt, die sowohl On-Premises als auch in den Cloud-Umgebungen von AWS, Azure und GCP sowie in der IBM Cloud läuft.
IBM hat sich sogar an der letzten Finanzierungsrunde von SingleStore im November 2021 beteiligt. Die Lösung ist daher in den Angeboten IBM Cloud Pak for Data, Red Hat OpenShift und auf dem Red Hat Marketplace verfügbar. Zusätzlich zählen Dell und HPE zu den Investoren. Der Börsengang ist in den nächsten 18 bis 24 Monaten geplant.
Domenic Ravita, CTO von SingleStore, verweist im Gespräch auf drei wesentliche Punkte: „Die Unternehmen werden ihre Datenbanktechnologien konsolidieren, die Zukunft wird Multi-Cloud sein, und wir werden eine Konvergenz von OLAP und OLTP erleben, um die Modernisierung der Anwendungen zu begleiten.“
SingleStore nutzt eine dreistufige Speicherhierarchie. Die erste Ebene ist klassischer Storage, die zweite ist lokaler SSD-Speicherplatz, die letzte Ebene ist Cloud Object Storage mit Plattformen wie AWS S3. Eines der Hauptprobleme des Cloud Object Storage für Datenbanken ist, dass er langsamer ist als ein In-Memory-Ansatz. Die Hierarchisierung des Datenspeichers bei SingleStore schreibt daher Updates zunächst auf die schnellste Speicherebene und kopiert sie dann in den Object Storage, um die Gesamtleistung zu verbessern.
Grundlage der SingleStore-Plattform ist die Fähigkeit, Columnstore- und Rowstore-Tabellen zu integrieren, um die Verarbeitung von Abfragen zu beschleunigen. Ein Columnstore-Index organisiert Daten logisch in Form einer Tabelle mit Zeilen und Spalten, speichert die Daten aber physisch in einem spaltenbasierten Format. Ein Rowstore-Index soll das Abrufen von Daten beschleunigen, indem er es Abfragen ermöglicht, Daten schnell nach Indizes zu lokalisieren, anstatt eine ganze Tabelle zu analysieren.
Insgesamt sind Rowstore-Indizes besser für transaktionale Arbeitslasten (Online Transaction Processing, OLTP), die mehr Aktualisierungs- und Suchoperationen verwenden, während Columnstore-Indizes besser für Workloads der Online-Analyseverarbeitung (Online Analytical Processing, OLAP) sind, die mehr Leseoperationen verwenden.
Rowstore-Indizes sind effizienter bei zufälligen Lese- und Schreibvorgängen, während Columnstore-Indizes besser bei sequenziellen Lese- und Schreibvorgängen sind. Wie Oracle bietet auch SingleStore einen hybriden Ansatz mit Rowstore- und Columnstore-Funktionen. SingleStore bietet einen Rowstore-Index, der neben jeder Columnstore-Tabelle sitzt und für Schreibvorgänge mit kleinen Stapeln verwendet wird.
Schließlich können Columnstores auch für transaktionale Workloads verwendet werden, insbesondere für solche, die aus Sicht der IT analytisch sind, aber betriebliche Einschränkungen haben. Da diese Workloads die herkömmlichen Definitionen von OLTP und OLAP auf den Kopf stellen, werden sie oft als Hybrid Transactional and Analytics Processing (HTAP) bezeichnet. Dieses Modell macht SingleStore nicht nur für transaktionale (OLTP), sondern auch für analytische (OLAP) Anwendungen effizient.