Big-Data-Management und Analytics mit IBM BigInsights und Apache Hadoop
IBM BigInsights bietet verschiedene Services, die sich zusammen mit dem Open-Source-Framework Hadoop für Big-Data-Mangement einsetzen lassen.
IBM BigInsights kombiniert Enterprise-Funktionen und Hadoop-Komponenten innerhalb einer Plattform. Damit ist es Anwendern möglich, große Mengen strukturierter und unstrukturierter Daten zu verwalten und zu analysieren.
IBM BigInsights verfügt über mehrere erweiterte Analytics-Funktionen, einschließlich einer ausgereiften Textanalyse, BigSheets für eine erweiterte Datenexploration und Big SQL, das den SQL-Zugriff auf Daten in einem Hadoop-Cluster erlaubt. Diese Enterprise-Fähigkeiten sind dafür konzipiert, die Anwendungsentwicklung und Systemimplementierung zu verbessern und zu vereinfachen. Die neue Version bietet außerdem eine bessere Performance, Skalierbarkeit, Zuverlässigkeit, Security und eine leichtere Administration.
IBM BigInsights 4.1 beinhaltet IBM Open Platform with Apache Hadoop sowie verschiedene vorkonfigurierte Module, die proprietäre Enterprise-Fähigkeiten zur Verfügung stellen.
IBM Open Platform with Apache Hadoop enthält folgende Apache-Komponenten: Ambari (2.1), Apache Kafka (0.8.2), Flume (1.5.2),Ganglia (3.1.7), Hadoop ( 2.7.1), HBase (1.1.1), Hive (1.2.1), Knox (0.6.0), Lucene (4.7.0), Nagios (3.5.1), Oozie (4.2.0), Parquet (4.0), Parquet MR/format (1.6.0/2.2), Pig (0.15.0), Slider (0.80.0), Solr (5.1.0), Spark (1.4.1), Sqoop (1.4.6.), Terada Connector for Hadoop (1.4) und ZooKeeper (3.4.6).
Zu den weiteren Modulen von IBM BigInsights zählen:
IBM BigInsights Analyst bietet spezielle Tools für Datenanalysen. Das Modul umfasst den Service BigInsights Home, der primären Schnittstelle, um andere BigInsights-Komponenten zu starten sowie Big SQL und BigSheets zu verwenden:
- Big SQL ist eine erweiterte SQL-Engine, die Anwendern, welche Standard-SQL-Abfragen nutzen, einen schnellen Zugang zu Daten in Hadoop-Clustern mit einer einzigen Abfrage bietet, sei es in Hive, HBase oder dem Hadoop Distributed File System (HDFS). Der Service unterstützt außerdem einen föderierten Zugriff auf IBM DB2, Oracle, Teradata und Open Database Connectivity.
- BigSheets erlauben es Anwendern, große Datensätze, die in Hadoop gespeichert sind, in einem tabellenähnlichen Web-Interface zu erforschen, zu transformieren und zu visualisieren. Das Tool unterstützt schnelle Abfragen großer Datensätze, indem Benutzeraktionen in MapReduce-Funktionen für Hadoop-Cluster übersetzt werden.
IBM BigInsights Data Scientist ermöglicht es Anwendern mit erweiterten Analysefähigkeiten, einen tieferen Einblick in die auf den Clustern gespeicherten Daten zu erhalten. Zusätzlich zu den enthaltenen Analysekomponenten bietet das Tool folgende Funktionen:
- Big R bietet für Nutzer, die mit R vertraut sind, einen Satz von Bibliotheken. Das soll es ihnen ermöglichen, Anwendungen mit der Programmiersprache R und Daten zu entwickeln, die innerhalb der IBM BigInsights Cluster gespeichert sind. Mit dem Tool können Benutzer komplexe Operationen und Abfragen machen, indem sie R für große Datensätze verwenden und die Komplexität durch das Schreiben von MapReduce-Funktionen verringern.
- Text Analytics ist ein leistungsfähiges und intuitives Tool, um Informationen aus strukturierten und unstrukturierten Texten zu extrahieren.
- SystemML ist ein Tool, das eine R-ähnliche Syntax für statistische Funktionen und maschinelles Lernen bietet. Das Tool ermöglicht das verteilte Ausführen von Algorithmen über die Knoten eines Clusters hinweg, indem MapReduce oder Spark (In-Memory) verwendet werden. IBM hat SystemML für die Open-Source-Community freigegeben und wurde als Apache-Incubator-Projekt angenommen.
IBM Enterprise Management bietet Enterprise-Funktionen, um die Cluster-Skalierung und Performance durch Parallel-Computing und Anwendungs-Management zu unterstützen. Das Modul unterstützt Nutzer außerdem bei der Cluster-Sicherheit und -Zuverlässigkeit. IBM Enterprise Management beinhaltet IBM Spectrum Scale FPO und ein POSIX-kompatibles Dateisystem (Portable Operating System Interface) , das anstelle von HDFS verwendet werden kann. Dadurch erhalten Administratoren mehr Kontrolle und verbesserte Integrationsmöglichkeiten mit anderen Systemen. Ebenfalls enthalten ist IBM Platform Symphony. Das Tool ermöglicht es Administratoren, mehrere Plattform-Instanzen effizient zu verwalten und bietet Unterstützung bei der Datentrennung in Multi-Tenant-Umgebungen.
Mehr zum Thema Apache Hadoop:
CeBIT 2016: Kontextanalyse mit SAP HANA Vora und Hadoop allgemein verfügbar.
Kostenloses E-Handbook zu Hadoop 2: Stärken und Schwächen des Frameworks.
SAP HANA Hadoop Erweiterung: Ein großer Schritt in Richtung Internet der Dinge.
Hadoop-Cluster bieten Spreadmarts und Analytics eines neues Zuhause.
Hadoop 2 bietet für Big-Data-Umgebungen eine bessere Analytics-Verarbeitung.
IBM BigInsights for Apache Hadoop umfasst die Inhalte der drei oben aufgeführten Module. BigInsights-Module arbeiten auf Basis von Linux-Servern. Detaillierte Systemanforderungen finden Sie auf der entsprechen IBM-Website.
Während IBM BigInsights Module On-Premise heruntergeladen und installiert werden können, bietet das Unternehmen BigInsights on Cloud an, wobei Hadoop als Service innerhalb der globalen Cloud-Infrastruktur von IBM angeboten wird. Diese Option stellt Anwendern alle Funktionen von BigInsights in einer verwalteten Umgebung zur Verfügung.
Lizenzierung und Vertrieb von IBM BigInsights
Die Open Platform with Apache Hadoop steht als kostenlose Open-Source-Anwendung zur Verfügung. Die anderen Module werden unter einer IBM-Lizenz vertrieben. Für detaillierte Preis- und Support-Informationen sollten sich Interessenten mit IBM oder einem Vertriebspartner von IBM in Verbindung setzen.
IBM bietet eine kostenlose BigInsights Quick Start Evaluierungsversion seiner Software für den nicht-produktiven Einsatz an.
IBM ist außerdem Gründungsmitglied der Open Data Platform Initiative, einer Gruppe von Big-Data-Branchenführern und –Anbietern, die Technologien auf Basis der Open-Source-Umgebung Apache Hadoop fördern und die Ergebnisse teilen, um die Interoperabilität von Big Data Tools zu gewährleisten.
Über den Autor:
Abie Reifer ist Principal Analyst bei DecisionWorx und leitet den Bereich Datenerhebung und Forschung. Vorher arbeitete Reifer als CTO sowie Strategieberater bei einem internationalen Telekommunikationsunternehmen.
Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!