Refugee Datathon Munich analysiert Big Data zu Flüchtlingen
Die Erfassung von Daten zu Flüchtlingen ist eine Marathonaufgabe. Der Refugee Datathon Munich erfasst und analysiert dieses Big Data mit verschiedenen Tools.
Die Erfassung von Daten, der in Deutschland ankommenden Flüchtlingen ist eine Marathonaufgabe. Zu den gesammelten Daten zählen unter anderem Personenangaben, Anträge, Asylentscheidungen und Quoten. Zusammen kommen Daten von Menschen aus fast 100 Herkunftsländern.
„Das ist nicht nur eine Menge Arbeit, es lässt sich auf einer Website auch nicht mehr vernünftig darstellen“, sagt Suny Kim, die sich für Refugee Datathon Munich engagiert. Kim ist IT-Contractor in München und unter anderem auf die Arbeit mit Unix, Linux, Datenbanken und Elasticsearch spezialisiert.
Zusammen mit anderen IT-Spezialisten betreut sie das Projekt, das sich der Aufnahme von Flüchtlingen in Deutschland aus IT- und Daten-Management-Perspektive annähert. Allerdings steckt für Kim in erster Linie der menschliche Aspekt dahinter: Sie engagiert sich seit Anfang der 1990er Jahre für Flüchtlinge, als Unterkünfte von Neonazis in Brand gesteckt wurden.
Im Interview erläutert sie die ehrenamtliche Arbeit beim Refugee Datathon Munich und welche Software-Tools bei der Datenanalyse zum Einsatz kommen.
Frau Kim, Sie betreuen zusammen mit anderen Mitstreitern aus der IT-Community das Projekt Refugee Datathon Munich. Was steckt hinter diesem Projekt?
Suny Kim: Hinter diesem Projekt stecken engagierte ITler/innen. Wir haben uns 2015/16 gefunden. Unsere Projekte leben stark von der engen Zusammenarbeit mit Flüchtlingsunterstützer/innen. Technisch kommt viel Input von der Open-Data-Bewegung.
Wer beteiligt sich an Refugee Datathon Munich?
Kim: Das ist verschieden. Zu unseren Treffen kann kommen, wer will. Wir brauchen nicht nur Techies, sondern auch Leute, die die inhaltliche Seite verstehen und wissen, was die wichtigen Fragen sind. Also, es kommen sowohl IT-Menschen als auch Flüchtlingsunterstützer/innen.
Beteiligen sich auch öffentliche beziehungsweise staatliche Akteure oder Menschen aus anderen Bereichen daran?
Kim: Nein, öffentliche oder staatliche Akteure sind nicht dabei. Wir machen das alles als Privatleute, in unserer Freizeit.
Welche Software-Tools verwenden Sie für die Auswertung der Daten?
Kim: Das ist ein ziemlich bunter Strauß: Tabula, um Daten aus PDF-Tabellen zu befreien. CSVkit wird von uns eingesetzt, um sie sauber weiterzuverarbeiten. Außerdem kommen R und Datawrapper zum Einsatz, um schöne Grafiken für Webpages zu generieren. Außerdem noch Node.js, Bash und Git sowieso. Schließlich Logstash, Elasticsearch und Kibana, also der Elastic Stack.
Sie verwenden, wie gerade erwähnt, die Daten-Management-Lösung von Elastic. Wie passt die Software zu einem solchen Projekt?
Kim: Das passt großartig, der Elastic Stack löst eine Menge Probleme für uns. Bei solchen Daten-Pipelines machen die Schnittstellen oft viel Arbeit, jetzt funktionieren Transport, Datenhaltung und Visualisierung reibungslos. Im Backend ist nicht viel zu tun, aber bei der Darstellung wird es richtig spannend.
Pro Herkunftsland sind drei Histogramme wichtig: Die Anträge pro Monat, die Entscheidungen pro Monat in absoluten Zahlen, und die Entscheidungen als Quote. Nun gibt es fast 100 Herkunftsländer. Jeden Monat kommen neue Daten. Das ist nicht nur eine Menge Arbeit, es lässt sich auf einer Website auch nicht mehr vernünftig darstellen. Von Eurostat kommen dann noch mehr Kategorien, Geschlecht und Altersklasse. Das sind ganz interessante Informationen, aber wie stellt man sie dar?
Ein interaktives Dashboard löst dieses Problem. Das ist aber noch sehr unüblich auf öffentlichen Websites, ich kenne nur drei öffentlich zugängliche Kibana Dashboards: Eins von Elastic selbst, eins von Mr. Robot, und unseres.
Das Dashboard können wir natürlich nur freigeben, weil unser Stack mit Elasticsearch Security geschützt ist. Unser Stack lebt in der Elastic Cloud, damit haben wir auch X-Pack und Security. Es passt übrigens nicht nur technisch, sondern auch von der Community her. Wir können immer jemanden fragen, und in den Code schauen.
„Wir brauchen nicht nur Techies, sondern auch Leute, die die inhaltliche Seite verstehen und wissen, was die wichtigen Fragen sind.“
Suny Kim, Refugee Datathon Munich
Welche Erkenntnisse konnten Sie bisher aus ihren statistischen Daten gewinnen?
Kim: Wir können Trends schneller und sicherer erkennen. Beispielsweise zum subsidiären Schutz. Das war bis zum März 2016 ein obskurer Status zwischen Anerkennung der Flüchtlingseigenschaft und Abschiebungsschutz, den nur wenige Asylsuchende bekamen. Dann gab es diesen Beschluss, dass Flüchtlinge mit diesem Status zwei Jahre lang keinen Familiennachzug beantragen können. Nicht so schlimm, dachten viele, das betrifft ja fast niemanden. Aber dann hörte man plötzlich von allen Seiten, dass auf syrische Anträge kein voller Flüchtlingsschutz mehr gegeben wurde, sondern nur noch subsidiärer Schutz.
Wir haben uns die Daten geholt und konnten sehen, dass das stimmt: Im Juli gab es schon mehr Entscheidungen für subsidiären Schutz als für die Flüchtlingseigenschaft. Das sind Entscheidungen, die aufgrund der Situation der Flüchtlinge getroffen werden, und diese Situation hatte sich nicht verändert. Nur die Rechtslage in Deutschland. Deshalb haben viele dagegen geklagt, meist erfolgreich.
Die Zahl der Asylsuchenden ist 2017 stark zurückgegangen – gab es 2016 noch rund 745.000 Erst- oder Folgeanträge, ging die Zahl auf rund 223.000 im vergangen Jahr zurück. Wie hat sich diese Entwicklung auf ihr Projekt ausgewirkt?
Kim: Vielleicht können wir bald unseren Elasticsearch Cluster verkleinern? Im Ernst, das hat sich gar nicht ausgewirkt.
Was sind die Ziele Ihres Projekts für 2018?
Kim: Wir haben viel vor. Es gibt Pläne, mit Refugio in München zusammenzuarbeiten. Und wir wollen ein Onlinequiz zu Flüchtlingsfakten bauen, im Stil von Gapminder. Außerdem sind wir kurz davor, Daten von Eurostat freizugeben – sie sind schon in Elasticsearch, brauchen aber noch eine Qualitätsprüfung. Dann sehen wir endlich Alter und Geschlecht der Flüchtlinge, und können die Daten mit anderen europäischen Ländern vergleichen. Außerdem wurden wir nach Entscheidungen in zweiter Instanz gefragt. An diese Daten kommt man schwer heran, aber einige haben wir.
Wenn wir mit R weiterkommen, wäre das spannend. Es gibt noch mehr Ideen, zum Beispiel die Aufnahme von Flüchtlingen weltweit in Beziehung zu Bevölkerung und Wirtschaftskraft der Aufnahmeländer zu setzen, also eine Art globaler Königsteiner Schlüssel. Oder per Bilderkennung zu untersuchen, wie sich die Darstellung der Flüchtlinge in den Medien verändert hat. Und beim nächsten Datathon entstehen wieder neue Ideen.