alunablue - stock.adobe.com

Mit OpenRefine Daten bereinigen und zusammenführen

Das Open Source Tool OpenRefine ermöglicht Anwendern das Bereinigen und Aufbereiten von Daten aus verschiedenen Quellen. Wir zeigen in diesem Beitrag die Funktionen des Tools.

OpenRefine ist ein Open Source Tool auf Basis von Java, mit dem sich Daten aus unterschiedlichen Datenquellen bereinigen, aufbereiten, validieren und deduplizieren lassen. Bei der Transformation von Daten ist OpenRefine ein mächtiges Tool, welches keinen Server und nicht zwingend eine Installation erfordert. Es lassen sich sowohl lokale Daten als auch eine Vielzahl an Datenbanksystemen verknüpfen.

OpenRefine unterstützt dabei, Zusammenhänge zu erkennen, die in eine Analyse einfließen können. Die Anwendung lässt sich auf Computern mit Windows 10/11, macOS und Linux ausführen. OpenRefine ist nach wenigen Minuten Konfiguration einsatzbereit.

OpenRefine 01
Abbildung 1: OpenRefine ermöglicht es Anwendern, Daten aus verschiedenen Quellen zu verarbeiten.

OpenRefine ist ein Tool für kleine und große Datenmengen

Das Tool ist in der Lage, mit kleinen und großen Datensätzen zu arbeiten. Die Verarbeitungsleistung hängt allerdings von der Computer- oder Server-Performance ab, auf dem die Verarbeitung stattfindet. Wichtig ist ausreichend Arbeitsspeicher.

OpenRefine ist in der Lage, strukturierte und unstrukturierte Daten zu verarbeiten. Es lassen sich unterschiedliche On-Premises- und Cloud-Datenbanksysteme anbinden. Ebenso ist das Verarbeiten von Excel-Tabellen in Kombination mit Datenbanksystemen möglich.

Das Verarbeiten von personenbezogenen Daten ist mit OpenRefine unter Einhaltung der EU-DSGVO möglich. Die Anwendung versendet keine Daten zu einem externen Server. Die Verarbeitung läuft auf dem lokalen Rechner ab, es findet nur eine Verbindung zwischen Datenquelle und dem Rechner mit OpenRefine statt.

So kommen die Daten zu OpenRefine

Sobald OpenRefine auf einem Rechner zur Verfügung steht, lassen sich die Daten auf verschiedenen Wegen in das System integrieren. Lokale Daten, Tabellen oder Informationen aus der Zwischenablage können Anwender sofort in OpenRefine nutzen. Zu den unterstützten Formaten gehören CSV, *SV, Excel (.xls und .xlsx), JSON, XML, RDF, XML und Google Data. Es ist somit nicht notwendig, eine Datenquelle direkt anzubinden, sondern es funktioniert auch ein Export der Daten aus der Datenquelle und ein Import in OpenRefine.

Externe Datenquellen, also zum Beispiel Datenbanken im eigenen Rechenzentrum oder in Cloud, können über Konnektoren eingebunden werden. Die Verbindung zwischen den Datenbanken und dem jeweiligen Computer findet direkt statt. Es gibt keine dritte Verbindung zu einem Cloud-Dienst.

OpenRefine stellt eine portablen Version als Download zur Verfügung, die nicht installiert werden muss. In dieser ist Java bereits so implementiert, dass der Start von OpenRefine ohne weitere Schritte erfolgt. Wer OpenRefine installieren möchte, benötigt das Java Development Kit (JDK)

Nach dem Download erfolgt der Start der Umgebung mit der Datei refine.bat, wenn das Tool unter Windows zum Einsatz kommt. Für macOS und Linux gibt es entsprechende Startdateien. Die Verwendung des Tools erfolgt über einen Webbrowser, zunächst ohne SSL-Verschlüsselung über die Adresse http://127.0.0.1:3333.

Es ist möglich, über das Netzwerk auf den Webdienst zuzugreifen. Allerdings sollte in diesem Fall ein Administrator zunächst SSL aktivieren und eine Authentifizierungt integrieren. Standardmäßig ist OpenRefine allerdings kein Tool für die Zusammenarbeit, da es keine vorkonfigurierte Authentifizierung gibt.

Daten mit OpenRefine verarbeiten

In der Weboberfläche kann der Anwender sofort mit der Analyse beginnen. Dazu kann unter Dateien auswählen eine Datei zum Importieren eingebunden werden. Ein neues Analyseprojekt beginnt mit Create project. Über Web Addresses können Daten von Webseiten direkt in OpenRefine eingebunden werden.

OpenRefine 02
Abbildung 2: OpenRefine erlaubt das Importieren von Dateiendateien in der Weboberfläche.

Über den Menüpunkt Database lassen sich mit New Connection verschiedene Datenbanken mit OpenRefine verbinden, zum Beispiel MySQL, PostgreSQL, MariaDB oder SQLite. Nach Auswahl der Datenbankverbindung kann im Anschluss mit Connect die Verbindung getestet werden. Vorhandene Verbindungen lassen sich auf der linken Seite bei Saved Connections verwalten.

OpenRefine 03
Abbildung 3: An OpenRefine lassen sich verschiedene Datenbanksysteme anbinden.

Wenn die Daten zur Verfügung stehen, lassen sie sich direkt in OpenRefine verarbeiten, analysieren und filtern. Hierfür stehen verschiedene Menüpunkte zur Verfügung. Auch das Ersetzen von Daten und deren Transformation ist über das Menü möglich.

OpenRefine 04
Abbildung 4: OpenRefine unterstützt bei der Transformation der Daten.

Fazit

OpenRefine ist ein Tool für Datenwissenschaftler und Analysten, die aus verschiedenen Datenquellen Daten auslesen und zentral verwalten wollen. Hinzu kommen Tools zum Bearbeiten der zu analysierenden Daten.

Vor allem für die Datenaufbereitung, -transformation, -bereinigung und -analyse ist OpenRefine ein geeignetes Tool, da die Anbindung schnell und unkompliziert möglich ist und die Oberfläche zahlreiche Analyseoptionen bietet. Das Tool ist kostenlos und schnell einsatzbereit.

Erfahren Sie mehr über Big Data