Data Scientist (Datenwissenschaftler)
Was ist Data Science (Datenwissenschaft)?
Ein Data Scientist oder Datenwissenschaftler ist ein Analytiker, der für das Sammeln, Analysieren und Interpretieren von Daten verantwortlich ist, um die Entscheidungsfindung in einem Unternehmen zu unterstützen. Die Rolle des Datenwissenschaftlers kombiniert Elemente verschiedener traditioneller und technischer Berufe, darunter Mathematiker, Wissenschaftler, Statistiker und Computerprogrammierer. Sie umfasst den Einsatz fortschrittlicher Analysetechniken wie maschinelles Lernen und prädiktive Modellierung sowie die Anwendung wissenschaftlicher Grundsätze.
Im Rahmen von Data-Science-Initiativen müssen Data Scientists oft mit großen Datenmengen arbeiten, um Hypothesen zu entwickeln und zu testen, Schlussfolgerungen zu ziehen und Dinge wie Kunden- und Markttrends, finanzielle Risiken, Cybersecurity-Bedrohungen, Aktienhandel, Wartungsbedarf von Geräten und medizinische Bedingungen zu analysieren.
In Unternehmen durchsuchen Data Scientists in der Regel Daten nach Informationen, die zur Vorhersage des Kundenverhaltens, zur Ermittlung neuer Umsatzchancen, zur Aufdeckung betrügerischer Transaktionen und zur Erfüllung anderer Geschäftsanforderungen verwendet werden können. Sie leisten auch analytische Arbeit für Gesundheitsdienstleister, akademische Einrichtungen, Regierungsbehörden, Sportmannschaften und andere Organisationen.
Die Berufsbezeichnung Data Scientist wurde erstmals 2008 verwendet, und zwar gleichzeitig bei Facebook und LinkedIn; vier Jahre später wurde sie in einem Artikel der Harvard Business Review als „der attraktivste Job des 21.Jahrhunderts“ bezeichnet. Die Nachfrage nach datenwissenschaftlichen Kenntnissen ist im Laufe der Jahre erheblich gestiegen, da Unternehmen versuchen, nützliche Informationen aus immer größeren Datenmengen zu gewinnen und die Vorteile von künstlicher Intelligenz (KI) und Machine-Learning-Technologien zu nutzen, um neue Arten von Analyseanwendungen zu ermöglichen.
Rollen und Aufgaben von Datenwissenschaftlern
Data Scientists spielen die Hauptrolle bei Data-Science-Anwendungen in Unternehmen. Ihre Aufgabe besteht in der Regel darin, Informationen zu finden, die effektivere Marketingkampagnen, einen besseren Kundenservice, ein besseres Lieferkettenmanagement und insgesamt bessere Geschäftsentscheidungen und -strategien ermöglichen. Zu diesem Zweck analysieren sie je nach den Erfordernissen der jeweiligen Anwendung quantitative und qualitative Daten.
Es kann auch vorkommen, dass sie Daten untersuchen sollen, ohne dass sie ein bestimmtes Geschäftsproblem zu lösen haben. In diesem Szenario muss ein Data Scientist sowohl die Daten als auch das Unternehmen gut genug verstehen, um Fragen zu formulieren, die Analyse durchzuführen und den Führungskräften Erkenntnisse über mögliche Änderungen an Geschäftsabläufen, Produkten oder Dienstleistungen zu liefern.
Zu den grundlegenden Aufgaben eines Datenwissenschaftlers gehören:
- Sammeln und Aufbereiten relevanter Daten zur Verwendung in Analyseanwendungen
- Verwendung verschiedener Arten von Analysewerkzeugen, um Muster, Trends und Beziehungen in Datensätzen zu erkennen
- Entwicklung von statistischen und prädiktiven Modellen, die auf die Datensätze angewendet werden
- Erstellung von Datenvisualisierungen, Dashboards und Berichten, um ihre Ergebnisse zu kommunizieren
In vielen Unternehmen sind Datenwissenschaftler auch für die Festlegung und Förderung bewährter Verfahren für die Datenerfassung, -aufbereitung und -analyse zuständig. Darüber hinaus entwickeln einige Datenwissenschaftler KI-Technologien für den internen Gebrauch oder für Kunden, zum Beispiel konversationelle KI-Systeme, KI-gesteuerte Roboter und andere autonome Maschinen, einschließlich Schlüsselkomponenten für selbstfahrende Autos.
Merkmale eines erfolgreichen Datenwissenschaftlers
Zu den persönlichen Eigenschaften und Soft Skills, die Datenwissenschaftler benötigen, gehören intellektuelle Neugier, kritisches Denken, eine gesunde Skepsis, eine gute Intuition, Problemlösungsfähigkeiten und Kreativität. Die Fähigkeit, mit anderen Menschen zusammenzuarbeiten, ist ebenfalls von entscheidender Bedeutung. Data Scientists arbeiten in der Regel in einem Data-Science-Team, dem auch Dateningenieure (Data Engineer), Datenanalysten (Data Analyst) und andere Mitarbeiter angehören, und die Rolle beinhaltet häufig die regelmäßige Zusammenarbeit mit verschiedenen Unternehmensteams.
Viele Arbeitgeber erwarten von ihren Data Scientists, dass sie kommunikationsstark sind und mit Hilfe von Data-Storytelling-Fähigkeiten Datenerkenntnisse gegenüber Führungskräften, Managern und Mitarbeitern präsentieren und erklären können. Sie brauchen auch Führungsqualitäten und Geschäftssinn, um datengestützte Entscheidungsprozesse in einem Unternehmen zu steuern.
Qualifikationen und erforderliche Fähigkeiten
Datenwissenschaftler müssen in der Lage sein, ein breites Spektrum komplexer Planungs-, Modellierungs- und Analyseaufgaben zu erledigen. Daher erfordert die Stelle Kenntnisse verschiedener Data Science Tools und -Libraries, Big-Data-Plattformen wie Spark, Kafka, Hadoop und Hive sowie Programmiersprachen wie Python, R, Julia, Scala und SQL.
Zu den für die Stelle erforderlichen technischen Kenntnissen gehören Data Mining, Predictive Modeling, Machine Learning und Deep Learning sowie Datenverarbeitung und -aufbereitung. Auch die Fähigkeit, mit einer Kombination aus strukturierten, semistrukturierten und unstrukturierten Daten zu arbeiten, wird häufig vorausgesetzt, insbesondere in Big-Data-Umgebungen, die verschiedene Datentypen enthalten. Erfahrung mit statistischen Forschungs- und Analysetechniken wie Klassifizierung, Clustering, Regression und Segmentierung ist ebenfalls ein Muss. In einigen Fällen sind auch Kenntnisse in der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) eine Voraussetzung.
In Stellenausschreibungen werden beispielsweise folgende Fähigkeiten verlangt
- Fachkenntnisse in allen Phasen der Datenwissenschaft, von der anfänglichen Datenermittlung über Datenbereinigung und die Modellauswahl bis hin zur Validierung und Bereitstellung
- Kenntnis und Verständnis der gängigen Data-Warehouse- und Data-Lake-Strukturen
- Erfahrung in der Anwendung statistischer Ansätze zur Lösung analytischer Probleme
- Beherrschung gängiger Frameworks für maschinelles Lernen
- Vertrautheit mit gängigen Data-Science- und Machine-Learning-Techniken wie Entscheidungsbäumen, K-nearest neighbors, Naive-Bayes-Klassifikatoren, Random Forests und Support Vector Machines
- Erfahrung mit Techniken für die qualitative und quantitative Analyse
- die Fähigkeit, neue Möglichkeiten zur Anwendung von maschinellem Lernen und Data Mining Tools auf Geschäftsprozesse zu erkennen, um deren Effizienz und Effektivität zu verbessern
- Erfahrung mit Public-Cloud-Plattformen und -Diensten;
- Vertrautheit mit einer Vielzahl von Datenquellen, einschließlich Datenbanken und Big-Data-Plattformen, sowie mit öffentlichen oder privaten APIs und Standarddatenformaten wie JSON, YAML und XML
- die Fähigkeit, Daten aus unterschiedlichen Quellen zu aggregieren und für die Analyse aufzubereiten
- Erfahrung mit Datenvisualisierungs-Tools, wie Tableau und Power BI
- die Fähigkeit, Dashboards für die Berichterstattung zu entwerfen und zu implementieren, die wichtige Geschäftskennzahlen verfolgen und verwertbare Erkenntnisse liefern können
- die Fähigkeit, Ad-hoc-Analysen durchzuführen und die Ergebnisse verständlich zu präsentieren
Ausbildung, Schulung und Zertifizierungen
Für die meisten Stellen in der Datenwissenschaft ist mindestens ein Bachelor-Abschluss in einem technischen Bereich erforderlich. In der Regel verfügen Datenwissenschaftler jedoch über einen höheren Abschluss in Statistik, Datenwissenschaft, Informatik oder Mathematik. In der jährlichen Umfrage über maschinelles Lernen und Datenwissenschaft, die von der Google-Tochter Kaggle 2021 erhoben wurde, gaben 47,7 Prozent der rund 3.600 Befragten an, die als Datenwissenschaftler tätig sind, einen Master-Abschluss zu haben, während weitere 15 Prozent einen Doktortitel hatten. Im Vergleich dazu hatten 30,1 Prozent einen Bachelor-Abschluss.
Kaggle, das eine Online-Community für maschinelles Lernen und Datenwissenschaft betreibt, stellte jedoch fest, dass der Prozentsatz der Befragten, die nur einen Bachelor-Abschluss haben, in den letzten Jahren gestiegen ist. Dies könnte die starke Nachfrage nach Datenwissenschaftlern in Unternehmen widerspiegeln. (Die von Kaggle veröffentlichten Umfrageergebnisse für das Jahr 2022 enthalten keine Angaben zur Ausbildung).
Sowohl angehende als auch erfahrene Datenwissenschaftler können auch die Vorteile von Bootcamps und Online-Kursen nutzen, die von Bildungsplattformen wie Coursera, Udemy und Kaggle selbst angeboten werden. Darüber hinaus gibt es verschiedene Zertifizierungsmöglichkeiten, die von Universitäten, Technologieanbietern und Branchenverbänden angeboten werden.
Die Umschulung von Fachleuten, die in anderen Positionen oder Bereichen arbeiten, zu Datenwissenschaftlern ist eine weitere Option für Unternehmen. Dazu können Datenbankentwickler und Softwareprogrammierer gehören, aber auch traditionelle Wissenschaftler und andere Experten in bestimmten Disziplinen.
Data Scientist versus Data Analyst
Die Rolle des Datenwissenschaftlers wird oft mit der des Datenanalysten verwechselt. Doch obwohl es bei vielen Aufgaben und erforderlichen Fähigkeiten Überschneidungen gibt, gibt es auch einige wesentliche Unterschiede zwischen Datenwissenschaftlern und Datenanalysten.
Die Aufgaben eines Datenanalysten können je nach Unternehmen variieren. Im Allgemeinen verfügen sie jedoch nicht über die technischen Fähigkeiten, die Datenwissenschaftler benötigen, und sind möglicherweise auch weniger erfahren. Sie sammeln, verarbeiten und analysieren nach wie vor Daten und erstellen Visualisierungen und Dashboards, um die Ergebnisse in Berichten darzustellen; einige Datenanalysten entwerfen und pflegen auch die Datenbanken und andere Datenspeicher, die in Analyseanwendungen verwendet werden.
Datenanalysten unterstützen jedoch häufig die Arbeit von Datenwissenschaftlern und werden von diesen bei Analyseinitiativen beaufsichtigt. Die zusätzlichen Aufgaben und Erwartungen an Datenwissenschaftler führen auch zu unterschiedlichen Gehältern.
Data Scientist versus Citizen Data Scientist
Zusätzlich zu qualifizierten Datenwissenschaftlern verlassen sich viele Unternehmen jetzt auf sogenannte Citizen Data Scientist, um einige Analyseaufgaben zu erledigen. Dabei kann es sich um Business-Intelligence-Fachleute (BI), Business-Analysten, datenversierte Geschäftsanwender und andere Mitarbeiter handeln, die sich an Data-Science-Initiativen beteiligen. Zu den Unterschieden zwischen den beiden Gruppen gehören:
Ausbildung. Während Data Scientists in der Regel über einen einschlägigen Abschluss verfügen, können Citizen Data Scientists eine Vielzahl von Bildungshintergründen und eine geringe oder gar keine formale Ausbildung in Data Science haben. Sie haben jedoch in der Regel Erfahrungen mit Analyse-Tools und -systemen gesammelt, die sie in die Lage versetzen, Modelle zu erstellen und relativ komplexe Analysen vorzunehmen.
Coding. Citizen Data Scientists verlassen sich im Allgemeinen auf Software, die vorgefertigte analytische Modellierungs-Tools, Drag-and-Drop-Funktionen und benutzerfreundliche Algorithmen zur Durchführung von Standardanalysen enthält. Das hindert sie nicht daran, nützliche Muster oder Datenpunkte zu entdecken, aber professionelle Datenwissenschaftler sind in der Lage, komplexe benutzerdefinierte Algorithmen zu erstellen und die Datenanalyse auf fortgeschrittenere Weise anzugehen.
Gehalt. Wie bereits erwähnt, ist der Beruf des Datenwissenschaftlers gut bezahlt. Citizen Data Scientists hingegen können Laien oder Freiwillige sein, die über ihr reguläres Gehalt hinaus keine zusätzliche Vergütung erhalten, auch wenn einige von ihnen eine zusätzliche Vergütung für ihre datenwissenschaftliche Arbeit erhalten.
Hauptbereiche der Datenwissenschaft
Zu den wichtigsten Aspekten der Arbeit eines Datenwissenschaftlers gehören:
Datenaufbereitung. Der erste Schritt bei datenwissenschaftlichen Anwendungen ist das Sammeln und Aufbereiten der Daten, die analysiert werden sollen. Die Datenaufbereitung oder Datenvorbereitung ist der Prozess des Sammelns, Bereinigens, Organisierens, Transformierens und Validierens von Datensätzen für die Analyse. Data Scientists arbeiten in der Phase der Datenvorbereitung häufig mit Dateningenieuren zusammen.
Datenanalytik. Die Analyse von Daten zur Ermittlung von Trends, Korrelationen, Anomalien und anderen nützlichen Informationen ist der Hauptzweck von Data-Science-Initiativen. Insgesamt zielt die analytische Arbeit von Data Scientists darauf ab, die Unternehmensleistung zu verbessern und Unternehmen dabei zu helfen, einen Wettbewerbsvorteil gegenüber Konkurrenten zu erlangen.
Data Mining. Im Rahmen der Datenanalyse geht es darum, Muster und Beziehungen in großen Datensätzen aufzudecken. Data Mining erfolgt in der Regel durch die Anwendung fortschrittlicher Algorithmen auf die zu analysierenden Daten. Datenwissenschaftler verwenden dann die von den Algorithmen generierten Ergebnisse, um Analysemodelle zu erstellen.
Maschinelles Lernen. Data Mining und Analytik werden zunehmend durch maschinelles Lernen vorangetrieben, bei dem Algorithmen entwickelt werden, die aus Datensätzen lernen und dann die gewünschten Informationen darin finden. Datenwissenschaftler sind für das Training und die Überwachung von Algorithmen für maschinelles Lernen verantwortlich. Deep Learning ist eine fortgeschrittenere Form, bei der künstliche neuronale Netze verwendet werden.
Prädiktive Modellierung. Datenwissenschaftler müssen in der Regel auch in der Lage sein, Vorhersagemodelle für verschiedene Geschäftsszenarien zu erstellen, um mögliche Ergebnisse und Verhaltensweisen zu analysieren. So können beispielsweise Modelle erstellt werden, um vorherzusagen, wie verschiedene Kunden wahrscheinlich auf Marketingangebote reagieren werden, oder um mögliche Indikatoren für Krankheiten zu bewerten.
Statistische Analyse. Datenwissenschaftliche Arbeit umfasst auch die Verwendung statistischer Analysetechniken zur Auswertung von Datensätzen. Die statistische Analyse ist ein zentraler Aspekt der Arbeit von Datenwissenschaftlern, um Daten zu untersuchen und zugrunde liegende Trends und Muster für die Analyse und Interpretation zu finden.
Datenvisualisierung. Die Ergebnisse von datenwissenschaftlichen Anwendungen werden in der Regel in Diagrammen oder anderen Arten von Datenvisualisierungen dargestellt, damit sie für Führungskräfte und Mitarbeiter leicht verständlich sind. In vielen Fällen kombinieren Datenwissenschaftler mehrere Visualisierungen zu Berichten, interaktiven Dashboards oder detaillierten Datenberichten.
Herausforderungen für Datenwissenschaftler
Datenwissenschaftler müssen einige Herausforderungen und Komplikationen bewältigen. Die Arbeit von Datenwissenschaftlern ist in der Regel komplex, da sie sehr fortschrittlich ist und oft große Datenmengen analysiert werden müssen. Da Datenwissenschaftlern nicht immer spezifische Analysefragen gestellt werden oder sie keine Anweisungen erhalten, wie sie ihre Forschung ausrichten sollen, kann es manchmal schwierig sein, sicherzustellen, dass ihre Arbeit den Geschäftsanforderungen entspricht.
Auch die Beschaffung relevanter Daten für Analyseanwendungen kann schwierig sein, insbesondere in Unternehmen mit Datensilos, die von anderen IT-Systemen isoliert sind. Falsche oder inkonsistente Daten können die Ergebnisse von Analysemodellen verfälschen. Um dies zu vermeiden, ist eine gründliche Datenprofilierung und -bereinigung im Vorfeld erforderlich, um Probleme mit der Datenqualität zu erkennen und zu beheben. Insgesamt ist die Datenaufbereitung zeitaufwändig: Eine gängige Maxime besagt, dass Datenwissenschaftler 80 Prozent ihrer Zeit mit der Suche und Vorbereitung von Daten und nur 20 Prozent mit deren Analyse verbringen.
Eine weitere große Herausforderung ist das Erkennen und Beheben von Verzerrungen in Data-Science-Anwendungen, sowohl in den analysierten Daten als auch in den Algorithmen und Analysemodellen. Die Pflege von Modellen und die Sicherstellung, dass sie aktualisiert werden, wenn sich Datensätze oder Geschäftsanforderungen ändern, kann ebenfalls problematisch sein. Und wenn Unternehmen nicht in ein komplettes Data-Science-Team investieren, ist der Analyseaufwand möglicherweise kaum zu bewältigen.