Big Data: Anwendung, Datenschutz und Technologie
Big Data ist zum Synonym für wachsende Datenmengen geworden. Gleichzeitig beschreibt Big Data aber auch Datenanalyse-Technologien wie Hadoop, NoSQL und Spark.
Einführung
Big Data ist zum Synonym für die enorme Datenflut geworden, die im öffentlichen und privaten Leben anfällt. Allerdings spiegelt der Begriff nicht nur eine komplexe, teilweise nicht-greifbare Datenmenge wider, sondern beschreibt auch Technologien, die zum Sammeln, Verwalten und Analysieren der Daten eingesetzt werden - darunter Apache Hadoop, Spark und NoSQL-Datenbanken. Die unter dem Begriff Big Data zusammengefassten Daten stammen aus nahezu allen denkbaren Quelle: Überwachungssystemen, elektronischen Kommunikationsmitteln, sozialen Netzwerken, öffentlichen Einrichtungen oder Unternehmensystemen.
Auf Anwenderseite ist die Hoffnung in Big Data groß. Forschungseinrichtungen möchten durch die Kombination von Daten und statistischen Methoden neue wissenschaftliche Erkenntnisse gewinnen. Unternehmen möchten mit Big-Data-Analytics Wettbewerbsvorteile erreichen, neue Geschäftsfelder entdecken und Einsparungen erzielen. Staatliche Organisation erhoffen sich wiederum durch die massenhafte Auswertung von Daten bessere Ergebnisse in der Kriminalistik und Terrorismusbekämpfung.
Dieser Essential Guide fasst Anwendungsfelder, verwendete Technologien sowie Analysemethoden zusammen. Dafür werden Fachbeiträge in den Kategorien Big-Data-Analytik, Big-Data-Management, NoSQL-Datenbanken, Apache Hadoop, Apache Spark, Hardware, Datenschutz und Security vorgestellt.
Für ein tieferes Verständnis stellen wir Methoden und Technologien vor, die für Analyse und Daten-Management eingesetzt werden. Dabei wird ein besondere Augenmerk auf Apache Hadoop, Spark und NoSQL-Datenbanken gelegt. Schließlich erläutern Datenschutz-Experten in verschiedenen Beiträgen die Grenzen von Big Data und Big-Data-Analytik. Ein Glossar bietet am Ende des Essential Guides Definitionen der wichtigsten Begriffe.
1Wie Big Data analysieren?-
Big-Data-Analytik
Big-Data-Analytik steht für die Untersuchung großer Datenmengen, um darin versteckte Muster, unbekannte Korrelationen und andere nützliche Informationen zu entdecken, die einen wirtschaftlichen Vorteil bringen.
2Wie Big Data managen?-
Big-Data-Management
Big-Data-Management betrifft Organisation, Management und Governance von großen strukturierten und unstrukturierten Datenvolumen. Ziel ist es, einen hohen Grad an Datenqualität zu sichern.
3Wie funktioniert NoSQL?-
Daten-Management mit NoSQL
NoSQL ist ein Ansatz zum Daten-Management und Datenbank-Design, der sich vor allem für verteilte Datenbestände eignet und oft in Big-Data-Szenarien eingesetzt wird.
NoSQL-Datenbanken am Anwendungsfall ausrichten
Die Optionen für NoSQL ist kaum noch zu überblicken. Die Datenbanken eignen sich jeweils für bestimmte Einsätze, die man vorher analysieren muss. Weiterlesen
NoSQL-Datenbanken bieten einen Wettbewerbsvorteil
Die NoSQL-Datenbank ist für Firmen interessant, die große Datenmengen verarbeiten und analysieren müssen. Unsere Expertin erläutert Fallbeispiele. Weiterlesen
4Wie funktioniert Spark?-
Datenanalyse mit Apache Spark
Apache Spark kann aus einer Vielzahl von Datenquellen Daten verarbeiten. Dazu gehören zum Beispiel Hadoop Distributed File System (HDFS), NoSQL-Datenbanken und relationale Datenspeicher wie Apache Hive.
Apache Spark erweitert die Möglichkeiten von Hadoop
Geschwindigkeit und Flexibilität machen Apache Spark zum idealen Tool für iterative Prozesse. Spark ergänzt damit die Batch Processing von Hadoop. Weiterlesen
5Wie funktioniert Hadoop?-
Datenanalyse mit Apache Hadoop
Apache Hadoop ist für rechenintensive Prozesse mit großen Datenmengen konzipiert. Es basiert auf dem MapReduce-Algorithmus von Google und setzt sich aus Hadoop Common, Hadoop Distributed File System und YARN zusammen.
Big-Data-Management mit der Hortonworks Data Platform
Die Hortonworks Data Platform (HDP) umfasst Anwendungen der Apache Software Foundation und bietet Funktionen für Datenerfassung und -analyse. Weiterlesen
Big-Data-Management und Analytics mit IBM BigInsights
IBM BigInsights bietet mehrere Services, die sich zusammen mit dem Open-Source-Framework Apache Hadoop für Big-Data-Mangement einsetzen lassen. Weiterlesen
Entscheidende Kriterien für den Einsatz von Hadoop
Hadoop ist nicht immer die richtige Big-Data-Lösung. Firmen sollten ihre Daten-Management-Anforderungen genau prüfen, bevor sie Hadoop einsetzen. Weiterlesen
6Welche Hardware einsetzen?-
Hardware für Big Data
Für die Big-Data-Verarbeitung bieten sich verschiedene Hardwarekonfigurationen an. Dabei spielen Datenreplikation, Backup und Archivierung eine entscheidende Rolle.
7Welche Grenzen hat Big Data?-
Datenschutz und Security
Mit der Auswertung von Big Data wachsen auch die Bedenken hinsichtlich des Datenschutzes personenbezogener Daten. Zudem entstehen durch den Einsatz neuer Technologien neue Security-Probleme.
8Was ist Big Data?-
Definitionen
Allgemeine Definitionen zu den Themen Big Data, Hadoop und NoSQL.