Datenerfassung (Data Collection)
Die Datenerhebung oder Datenerfassung (Data Collection) ist der Prozess, Daten zur Verwendung bei der Entscheidungsfindung in Unternehmen, bei der strategischen Planung, in der Forschung und für andere Zwecke zu sammeln. Sie ist ein wesentlicher Bestandteil von Datenanalyseanwendungen und Forschungsprojekten: Eine effektive Datenerfassung liefert die Informationen, die zur Beantwortung von Fragen, zur Analyse der Unternehmensleistung oder anderer Ergebnisse sowie zur Vorhersage künftiger Trends, Maßnahmen und Szenarien benötigt werden.
In Unternehmen erfolgt die Datenerfassung auf mehreren Ebenen. IT-Systeme erfassen regelmäßig Daten über Kunden, Mitarbeiter, Umsätze und andere Aspekte des Geschäftsbetriebs, wenn Transaktionen verarbeitet und Daten eingegeben werden. Unternehmen führen auch Umfragen durch und verfolgen soziale Medien, um Feedback von Kunden zu erhalten. Data Scientists (Datenwissenschaftler), andere Analysten und Geschäftsanwender sammeln dann relevante Daten zur Analyse aus internen Systemen und bei Bedarf auch aus externen Datenquellen. Die letztgenannte Aufgabe ist der erste Schritt der Datenaufbereitung, bei der Daten gesammelt und für die Verwendung in Business Intelligence (BI)- und Analyseanwendungen aufbereitet werden.
Für die Forschung in Wissenschaft, Medizin, Hochschulbildung und anderen Bereichen ist die Datenerfassung oft ein speziellerer Prozess, bei dem Forscher Maßnahmen zur Erfassung bestimmter Datensätze entwickeln und umsetzen. Sowohl im Geschäfts- als auch im Forschungskontext müssen die gesammelten Daten jedoch genau sein, um die Gültigkeit der Analyse- und Forschungsergebnisse zu gewährleisten.
Was sind die verschiedenen Methoden der Datenerhebung?
Daten können je nach Bedarf aus einer oder mehreren Quellen gesammelt werden, um die gesuchten Informationen zu liefern. Um beispielsweise den Umsatz und die Effektivität seiner Marketingkampagnen zu analysieren, könnte ein Einzelhändler Kundendaten aus Transaktionsaufzeichnungen, Website-Besuchen, mobilen Anwendungen, seinem Kundenbindungsprogramm und einer Online-Umfrage erfassen.
Die Methoden zur Datenerfassung variieren je nach Art der Anwendung. Einige umfassen den Einsatz von Technologie, während andere manuelle Verfahren sind. Im Folgenden werden einige gängige Methoden der Datenerfassung vorgestellt:
- automatische Datenerfassungsfunktionen, die in Geschäftsanwendungen, Webseiten und mobile Anwendungen integriert sind
- Sensoren, die Betriebsdaten von Industrieanlagen, Fahrzeugen und anderen Maschinen erfassen
- Sammlung von Daten von Informationsdienstleistern und anderen externen Datenquellen
- Verfolgung von sozialen Medien, Diskussionsforen, Bewertungsseiten, Blogs und anderen Online-Kanälen
- Erhebungen, Fragebögen und Formulare, die online, persönlich, per Telefon, E-Mail oder per Post durchgeführt werden
- Fokusgruppen und Einzelinterviews
- direkte Beobachtung von Teilnehmern an einer Forschungsstudie
Was sind die häufigsten Herausforderungen bei der Datenerfassung?
Zu den Herausforderungen, die bei der Datenerhebung häufig auftreten, gehören folgende:
- Probleme mit der Datenqualität. Rohdaten enthalten in der Regel Fehler, Ungereimtheiten und andere Probleme. Idealerweise sind die Maßnahmen zur Datenerhebung so konzipiert, dass solche Probleme vermieden oder minimiert werden. Das ist jedoch in den meisten Fällen nicht absolut sicher. Daher müssen die gesammelten Daten in der Regel einem Datenprofiling unterzogen werden, um Probleme zu erkennen, und die Daten müssen bereinigt werden, um sie zu beheben.
- Auffinden relevanter Daten. Bei einer Vielzahl von Systemen kann das Sammeln von Daten für die Analyse eine komplizierte Aufgabe für Datenwissenschaftler und andere Benutzer in einem Unternehmen sein. Der Einsatz von Datenkurationstechniken erleichtert das Auffinden von und den Zugriff auf Daten. Dazu kann beispielsweise die Erstellung eines Datenkatalogs und durchsuchbarer Indizes gehören.
- Entscheidung darüber, welche Daten gesammelt werden sollen. Dies ist ein grundlegender Punkt sowohl bei der Sammlung von Rohdaten im Vorfeld als auch bei der Sammlung von Daten für Analyseanwendungen. Das Sammeln von Daten, die nicht benötigt werden, erhöht den Zeitaufwand, die Kosten und die Komplexität des Prozesses. Das Weglassen nützlicher Daten kann jedoch den Geschäftswert eines Datensatzes einschränken und die Analyseergebnisse beeinträchtigen.
- Der Umgang mit Big Data. Big-Data-Umgebungen umfassen in der Regel eine Kombination aus strukturierten,unstrukturierten und semistrukturierten Daten in großen Mengen. Das macht die anfänglichen Phasen der Datenerfassung und -verarbeitung komplexer. Darüber hinaus müssen Datenwissenschaftler häufig Rohdatensätze, die in einem Data Lake gespeichert sind, für spezifische Analyseanwendungen filtern.
- Geringer Rücklauf und andere Forschungsprobleme. Bei Forschungsstudien wirft ein Mangel an Antworten oder bereitwilligen Teilnehmern Fragen zur Gültigkeit der gesammelten Daten auf. Zu den weiteren Herausforderungen in der Forschung gehören die Schulung von Mitarbeitern für die Datenerfassung und die Entwicklung ausreichender Qualitätssicherungsverfahren, um die Richtigkeit der Daten zu gewährleisten.
Was sind die wichtigsten Schritte im Datenerhebungsprozess?
Gut strukturierte Datenerhebungsprozesse umfassen die folgenden Schritte:
- Identifizieren Sie ein Geschäfts- oder Forschungsproblem, das gelöst werden muss, und setzen Sie Ziele für das Projekt.
- Sammeln von Datenanforderungen, um die Geschäftsfrage zu beantworten oder die Forschungsinformationen zu liefern.
- Identifizieren Sie die Datensätze, die die gewünschten Informationen liefern können.
- Legen Sie einen Plan für die Datenerhebung fest, einschließlich der zu verwendenden Erhebungsmethoden.
- Sammeln Sie die verfügbaren Daten und bereiten Sie sie für die Analyse vor.
Überlegungen zur Datensammlung und bewährte Verfahren
Es gibt zwei Hauptarten von Daten, die gesammelt werden können: quantitative Daten und qualitative Daten. Erstere sind numerisch - zum Beispiel Preise, Beträge, Statistiken und Prozentsätze. Qualitative Daten sind beschreibender Natur, beispielsweise Farbe, Geruch, Aussehen und Meinung.
Unternehmen nutzen auch Sekundärdaten aus externen Quellen, um Geschäftsentscheidungen zu treffen. So können Hersteller und Einzelhändler beispielsweise Volkszählungsdaten für die Planung ihrer Marketingstrategien und -kampagnen nutzen. Unternehmen können auch staatliche Gesundheitsstatistiken und externe Studien zum Gesundheitswesen nutzen, um ihre Krankenversicherungspläne zu analysieren und zu optimieren.
Die Allgemeine Datenschutzgrundverordnung der Europäischen Union (EU-DSGVO) und andere in den letzten Jahren erlassene Datenschutzgesetze machen den Datenschutz und die Sicherheit bei der Datenerfassung zu einem wichtigen Thema, insbesondere wenn es sich um persönliche Informationen über Kunden handelt. Das Data-Governance-Programm eines Unternehmens sollte Richtlinien enthalten, die sicherstellen, dass die Datenerfassungspraktiken mit Gesetzen wie der DSGVO übereinstimmen.
Weitere Best Practices für die Datenerfassung sind unter anderem die folgenden:
- Stellen Sie sicher, dass Sie die richtigen Daten sammeln, um Geschäfts- oder Forschungsanforderungen zu erfüllen.
- Stellen Sie sicher, dass die Daten korrekt sind, entweder bei der Erfassung oder im Rahmen des Datenaufbereitungsprozesses.
- Verschwenden Sie keine Zeit und Ressourcen mit der Erfassung irrelevanter Daten.