Definition

Dateningenieur (Data Engineer)

Was ist ein Dateningenieur?

Die Hauptaufgabe eines Dateningenieurs besteht darin, Daten für analytische oder betriebliche Zwecke aufzubereiten. Diese Ingenieure sind in der Regel für den Aufbau von Datenpipelines verantwortlich, um Informationen aus verschiedenen Quellsystemen zusammenzuführen. Sie integrieren, konsolidieren und bereinigen Daten und strukturieren sie für die Verwendung in Analyseanwendungen. Ihr Ziel ist es, Daten leicht zugänglich zu machen und das Datenökosystem ihres Unternehmens zu optimieren.

Die Datenmenge, mit der ein Ingenieur arbeitet, variiert je nach Unternehmen, insbesondere in Bezug auf dessen Größe. Je größer das Unternehmen ist, desto komplexer ist die Analysearchitektur und desto mehr Daten fallen in die Zuständigkeit des Ingenieurs. Bestimmte Branchen sind besonders datenintensiv, darunter das Gesundheitswesen, der Einzelhandel und Finanzdienstleistungen.

Dateningenieure arbeiten mit Data-Science-Teams zusammen, um die Datentransparenz zu verbessern und Unternehmen in die Lage zu versetzen, zuverlässigere Geschäftsentscheidungen zu treffen.

Die Rolle des Dateningenieurs

Dateningenieure konzentrieren sich auf die Sammlung und Aufbereitung von Daten für die Verwendung durch Data Scientists und Analysten. Sie nehmen folgende drei Hauptaufgaben wahr:

Generalisten. Dateningenieure mit allgemeinem Schwerpunkt arbeiten in der Regel in kleinen Teams und übernehmen die durchgängige Datenerfassung, -aufnahme und -verarbeitung. Sie verfügen über mehr Fähigkeiten als die meisten Dateningenieure, haben aber weniger Kenntnisse über die Systemarchitektur. Ein Data Scientist, der Data Engineer werden möchte, passt gut in die Rolle des Generalisten.

Ein Projekt, das ein generalistischer Dateningenieur für einen kleinen Lebensmittellieferservice in einer Großstadt übernimmt, ist zum Beispiel die Erstellung eines Dashboards, das die Anzahl der täglichen Lieferungen des vergangenen Monats anzeigt und das Liefervolumen für den nächsten Monat prognostiziert.

Pipelinezentrierte Ingenieure. Diese Dateningenieure arbeiten in der Regel in einem mittelgroßen Datenanalyseteam und an komplizierteren Data-Science-Projekten mit verteilten Systemen. Mittelständische und große Unternehmen benötigen diese Rolle mit höherer Wahrscheinlichkeit.

Ein regionaler Lebensmittellieferant kann ein pipelinezentriertes Projekt durchführen, um ein Tool zu entwickeln, mit dem Datenwissenschaftler und Analysten Metadaten nach Informationen über Lieferungen durchsuchen. Sie können sich die zurückgelegte Entfernung und die für die Lieferungen im letzten Monat benötigte Fahrzeit ansehen und diese Daten dann in einem Vorhersagealgorithmus verwenden, um zu sehen, was dies für das zukünftige Geschäft des Unternehmens bedeutet.

Datenbankzentrierte Ingenieure. Diese Dateningenieure sind mit der Implementierung, Wartung und Befüllung von Analysedatenbanken betraut. Diese Rolle ist typischerweise in größeren Unternehmen zu finden, in denen die Daten über mehrere Datenbanken verteilt sind. Die Ingenieure arbeiten mit Pipelines, stimmen Datenbanken für effiziente Analysen ab und erstellen Tabellenschemata mit ETL-Methoden (Extrahieren, Transformieren, Laden). ETL ist ein Prozess, bei dem Daten aus mehreren Quellen in ein einziges Zielsystem kopiert werden.

Ein datenbankzentriertes Projekt bei einem großen, überregionalen oder nationalen Lebensmittellieferservice ist die Entwicklung einer Analysedatenbank. Neben der Erstellung der Datenbank schreibt der Data Engineer den Code, um die Daten von der Hauptanwendungsdatenbank in die Analysedatenbank zu übertragen.

Datenmanagementrollen im Vergleich
Abbildung 1: Die verschiedene Datenmanagementrollen im Vergleich.

Verantwortlichkeiten von Dateningenieuren

Dateningenieure arbeiten oft als Teil eines Analyseteams an der Seite von Data Scientists. Dateningenieure stellen den Datenwissenschaftlern Daten in brauchbaren Formaten zur Verfügung, die Abfragen und Algorithmen mit den Informationen für prädiktive Analysen, maschinelles Lernen und Data-Mining-Anwendungen ausführen. Dateningenieure liefern auch aggregierte Daten an Führungskräfte, Analysten und andere Endanwender, damit diese die Daten analysieren und die Ergebnisse zur Verbesserung der Geschäftsabläufe nutzen können.

Dateningenieure arbeiten sowohl mit strukturierten als auch mit unstrukturierten Daten. Strukturierte Daten sind Informationen, die in einem formatierten Repository wie einer Datenbank organisiert werden. Unstrukturierte Daten, zum Beispiel Texte, Bilder, Audio- und Videodateien, entsprechen nicht den herkömmlichen Datenmodellen. Dateningenieure müssen verschiedene Ansätze für die Datenarchitektur und Anwendungen kennen, um mit beiden Datentypen umgehen zu können. Eine Vielzahl von Big-Data-Technologien, wie zum Beispiel Open-Source-Frameworks für die Datenerfassung und -verarbeitung, gehören ebenfalls zum Handwerkszeug des Dateningenieurs.

Fähigkeiten von Dateningenieuren

Dateningenieure verfügen über Kenntnisse in Programmiersprachen wie C#, Java, Python, R, Ruby, Scala und SQL. Python, R und SQL sind die drei wichtigsten Sprachen, die Dateningenieure verwenden.

Ingenieure benötigen ein gutes Verständnis von ETL-Tools und REST-orientierten APIs für die Erstellung und Verwaltung von Datenintegrationsaufträgen. Diese Kenntnisse unterstützen auch dabei, Datenanalysten und Geschäftsanwendern einen vereinfachten Zugriff auf vorbereitete Datensätze zu ermöglichen.

Dateningenieure müssen Data Warehouses und Data Lakes verstehen und wissen, wie sie funktionieren. So unterstützen beispielsweise Hadoop Data Lakes, welche die Verarbeitungs- und Speicherarbeit etablierter Enterprise Data Warehouses auslagern, die Big-Data-Analysen, an denen Data Engineers arbeiten.

Dateningenieure müssen auch mit NoSQL-Datenbanken und Apache-Spark-Systemen vertraut sein, die immer häufiger Bestandteil von Daten-Workflows werden. Data Engineers sollten auch Kenntnisse über relationale Datenbanksysteme wie MySQL und PostgreSQL haben. Ein weiterer Schwerpunkt ist die Lambda-Architektur, die einheitliche Datenpipelines für die Stapel- und Echtzeitverarbeitung unterstützt.

Business-Intelligence-Plattformen (BI) und die Fähigkeit, sie zu konfigurieren, sind ein weiterer wichtiger Schwerpunkt für Data Engineers. Mit BI-Plattformen können sie Verbindungen zwischen Data Warehouses, Data Lakes und anderen Datenquellen herstellen. Dateningenieure müssen wissen, wie sie mit den interaktiven Dashboards von BI-Plattformen arbeiten können.

Obwohl maschinelles Lernen eher in den Kompetenzbereich von Data Scientists oder Machine Learning Engineers fällt, müssen Dateningenieure auch damit vertraut sein, um Daten für Machine-Learning-Plattformen aufbereiten zu können. Sie sollten wissen, wie man Algorithmen für maschinelles Lernen einsetzt und daraus Erkenntnisse gewinnt.

Schließlich sind Kenntnisse über Unix-Betriebssysteme wichtig. Unix, Solaris und Linux bieten Funktionen und Root-Zugriff, die andere Betriebssysteme, zum Beispiel Windows, nicht bieten. Sie geben dem Benutzer mehr Kontrolle über das Betriebssystem, was für Dateningenieure nützlich ist.

Da der Beruf des Dateningenieurs immer mehr an Bedeutung gewinnt, haben Unternehmen wie IBM und der Hadoop-Anbieter Cloudera damit begonnen, Zertifizierungen für Dateningenieure anzubieten. Zu den beliebten Zertifizierungen für Datentechniker gehören:

  • Certified Data Professional wird vom Institute for Certification of Computing Professionals (ICCP) als Teil seines allgemeinen Programms für Datenbankprofis angeboten. Die Kandidaten müssen Mitglied des ICCP sein und eine jährliche Mitgliedsgebühr zahlen, um die Prüfung ablegen zu können.
  • Cloudera Certified Professional Data Engineer prüft die Fähigkeit eines Kandidaten, Daten in Clouderas Datenumgebung aufzunehmen, zu transformieren, zu speichern und zu analysieren. Cloudera erhebt eine Gebühr für seine vierstündige Prüfung. Er besteht aus fünf bis zehn praktischen Aufgaben, und die Kandidaten müssen mindestens 70 Prozent der Punkte erreichen, um zu bestehen. Es gibt keine Voraussetzungen, aber die Kandidaten sollten über umfangreiche Erfahrungen verfügen.
  • Google Cloud Professional Data Engineer prüft die Fähigkeit einer Person, Modelle des maschinellen Lernens zu verwenden, die Datenqualität zu gewährleisten und Datenverarbeitungssysteme aufzubauen und zu entwerfen. Google erhebt eine Gebühr für die zweistündige Multiple-Choice-Prüfung. Es gibt keine Voraussetzungen, aber Google empfiehlt eine gewisse Erfahrung mit der Google Cloud Platform.

Wie viele IT-Zertifizierungen basieren auch die im Bereich Data Engineering oft auf den Produkten eines bestimmten Anbieters, und die Schulungen und Prüfungen konzentrieren sich darauf, den Teilnehmern die Verwendung der Software zu vermitteln.

Wie wird man Data Engineer?

Zertifizierungen allein reichen nicht aus, um eine Stelle als Dateningenieur zu bekommen. Um für eine Stelle in Frage zu kommen, ist auch Erfahrung erforderlich. Andere Möglichkeiten, als Dateningenieur einzusteigen, sind:

  • Universitätsabschlüsse. Nützliche Abschlüsse für angehende Dateningenieure sind Bachelor-Abschlüsse in angewandter Mathematik, Informatik, Physik oder Ingenieurwesen. Auch ein Master-Abschluss in Informatik oder Computertechnik kann Bewerbern helfen, sich von der Masse abzuheben.
  • Online-Kurse. Kostengünstige und kostenlose Online-Kurse sind eine gute Möglichkeit, Kenntnisse in der Datentechnik zu erwerben. Es gibt viele nützliche Videos auf YouTube sowie kostenlose Online-Kurse und -Ressourcen, zum Beispiel die folgenden sechs Optionen:
  • Projektbasiertes Lernen. Bei diesem eher praktischen Ansatz zum Erlernen von Data-Engineering-Fähigkeiten besteht der erste Schritt darin, ein Projektziel festzulegen und dann zu bestimmen, welche Fähigkeiten zum Erreichen dieses Ziels erforderlich sind. Der projektbasierte Ansatz ist ein guter Weg, um die Motivation aufrechtzuerhalten und das Lernen zu strukturieren.

Dateningenieur versus Datenwissenschaftler

Dateningenieure und Datenwissenschaftler arbeiten zusammen. Die Dateningenieure bereiten die Daten, die Unternehmen in Datenbanken und anderen Formaten haben, auf und organisieren sie. Außerdem bauen sie Datenpipelines auf, die den Datenwissenschaftlern Daten zur Verfügung stellen. Die Datenwissenschaftler nutzen all diese Daten für Analysen und andere Projekte zur Verbesserung der Geschäftsabläufe und -ergebnisse.

Dateningenieur versus Datenwissenschaftler
Abbildung 2: Dateningenieure und Datenwissenschaftler haben sich überschneidende, aber unterschiedliche Fähigkeiten und Verantwortlichkeiten im Datenmanagementteam.

Data Scientists und Data Engineers unterscheiden sich in ihren Fähigkeiten und Schwerpunkten. Dateningenieure haben nicht unbedingt einen bestimmten Schwerpunkt; sie sind in der Regel in mehreren Bereichen kompetent und verfügen über ein breites Spektrum an Wissen und Fähigkeiten. Im Gegensatz dazu haben Data Scientists oft spezialisierte Schwerpunkte. Sie befassen sich eher mit der explorativen Datenanalyse. Data Scientists befassen sich mit neuen, groß angelegten Problemen, während Data Engineers die Voraussetzungen dafür schaffen.

Diese Definition wurde zuletzt im Juli 2023 aktualisiert

Erfahren Sie mehr über IT-Berufe und Weiterbildung