Definition

Data Sampling (Datenauswahl)

Data Sampling (deutsch: Datenauswahl, Stichprobe) ist ein statistisches Analyseverfahren, mit dem eine repräsentative Teilmenge von Daten ausgewählt, aufbereitet und analysiert werden kann. Das Ziel ist dabei, Muster und Trends im größeren Datensatz zu identifizieren.

Data Sampling ermöglicht es Data Scientists, prädiktiven Modellierern und andere Datenanalysten mit einer kleinen, überschaubaren Menge an Daten zu arbeiten. Diese Teilmenge der Daten wird genutzt, um analytische Modelle schneller zu bauen und schneller laufen zu lassen, als dies mit der Gesamtmenge der Daten möglich wäre. Im Idealfall erfolgt die Datenauswahl nach wahrscheinlichkeitstheoretischen Prinzipien. Nur in diesem Fall ist die Stichprobe repräsentativ und die Ergebnisse der Auswahl können auf die Grundgesamtheit übertragen werden.

Data Sampling ist besonders nützlich bei Datensätzen, die zu groß sind, um sie effizient in vollem Umfang zu analysieren - zum Beispiel in Big-Data-Analytics-Anwendungen. Eine zentrale Rolle spielt die Größe der erforderlichen Datenstichprobe. In einigen Fällen kann schon eine sehr kleine Stichprobe die wichtigsten Informationen zu einem Datensatz liefern. In anderen Fällen kann erst eine größere Probe die Wahrscheinlichkeit erhöhen, dass die Ergebnisse auch auf die Daten als Ganzes zutreffen. Der Nachteil ist allerdings, dass die erhöhte Größe der Stichprobe die Manipulation und Interpretation der Daten erschweren kann.

Es gibt viele verschiedene Methoden, aus Daten Stichproben zu ziehen. Das ideale Verfahren hängt von der Datenmenge und der speziellen Situation ab. Die Ziehung der Stichprobe beruht im Idealfall auf der Statistik und Wahrscheinlichkeitstheorie. Dazu werden in der Praxis Zufallszahlen verwendet, die den Datenpunkten in dem Datensatz entsprechen. Dieser Ansatz stellt sicher, dass es keine Korrelationen zwischen den Datenpunkten gibt, die für die Stichprobe ausgewählt wurden. Weitere Variationen in der Wahrscheinlichkeitsauswahl umfassen die sogenannte einfache, geschichtete und systematische Zufallsauswahl sowie die mehrstufige Cluster-Stichprobe.

Einmal erzeugt, kann eine Stichprobe für Predictive Analytics verwendet werden. Zum Beispiel könnte ein Einzelhandelsgeschäft eine Datenstichprobe verwenden, um Muster über das Kundenverhalten aufzudecken und prädiktive Modellierung kann eingesetzt werden, um effizientere Vertriebsstrategien zu generieren.

Diese Definition wurde zuletzt im November 2016 aktualisiert

Erfahren Sie mehr über Datenverwaltung