Production Perig - stock.adobe.c
Trifacta Preparation Tools verbinden mehrere Datenquellen
Unterschiedliche Datenquellen sind im Gesundheitswesen weit verbreitet. Ein Start-up das Data Preparation Tool von Trifacta und entlastet damit Data Scientists.
Anspruchsvolle Anwendungen sollen heutzutage Machine Learning und künstliche Intelligenz (KI) nutzen. Allerdings stoßen sie dabei auf mehrere Barrieren, mit denen Analytics-Anwendungen schon seit vielen Jahren kämpfen. Eine der wichtigsten dieser Barrieren sind unterschiedliche Datenquellen.
Mehrere Datenquellen sind deshalb ein Problem, weil sie vor ihrer Nutzung bereinigt und aufbereitet werden müssen – ein Prozess, der relativ viel Zeit und Arbeit in Anspruch nimmt. Dieser Aufwand behindert die effiziente Nutzung der neuen Bibliotheken für Machine Learning, die erforderlich sind, um mit den aktuellen Anforderungen mithalten zu können.
Die Nutzung mehrerer Datenquellen ist insbesondere im Gesundheitswesen weit verbreitet. Im Gesundheitswesen sind die Hoffnungen auf den Erfolg von KI besonders groß. Gleichzeitig ist man hier aber auch mit dem Problem konfrontiert, dass viele unterschiedliche Datenquellen die Dinge gehörig durcheinanderbringen können.
In dieser Situation wandte sich ein Healthcare Start-up an Trifacta, ein Unternehmen, das Self Service Data Preparation Tools anbietet. Von diesen Werkzeugen erhoffte sich das Start-up, medizinisches Fachpersonal über geeignete Maßnahmen für Patienten informieren zu können.
Datennutzer bedienen sich selbst
„Im Gesundheitswesen haben Daten typischerweise Silocharakter und sind chaotisch“, sagt Joe Schmid, CTO bei SymphonyRM, dem angesprochenen Start-up. Das Unternehmen beschäftigt sich mit der Anwendung von Machine Learning, um verschiedene Daten zu analysieren und die Interaktion der Mediziner mit Patienten zu verbessern.
Um dieses Ziel zu erreichen, hat Schmid sich für Werkzeuge entschieden, die Datenaufbereitungsfunktionen für Anwender bereitstellen, die keine professionellen Datenanalysten sind. Das SymphonyRM HealthOS-System analysiert eingehende Patientendaten und wendet fortschrittliche Techniken an, um klinische und postakute Entscheidungen zu treffen.
Das System verwendet in Python programmierte Machine-Learning-Bibliotheken. Es berücksichtigt nicht nur, welche Medikamente angewendet werden können, sondern priorisiert diese auch. Zudem stimmt es die Ergebnisse mit der Wahrscheinlichkeit ab, dass der Patient einer spezifischen medizinischen Beratung folgt.
Die von HealthOS analysierten Daten können in Form von klinischen Schadensfalldaten, demographischen Daten Dritter, Krankenhausdatenbanken und der immer noch verbreiteten Excel-Tabelle vorliegen. Die Vielfalt dieser Daten war für HealthOS eine große Herausforderung. Doch damit nicht genug.
Die Komplexität der Datenaufbereitung wurde noch dadurch erhöht, dass Datensätze in unterschiedlichen Zeitabständen ankamen, da sie unterschiedlich schnell erstellt wurden. Und selbst wenn unterschiedliche Datenquellen eng verwandt waren, konnten die individualisierten Formate leicht variieren und, so Schmid, „zu einem ziemlich arbeitsintensiven Prozess führen.“
Code für die Aufnahme
Um den üblichen, aber aufwendigen ETL-Prozess zu umgehen, der auf der Arbeit vieler Anwendungsentwickler aufbaut, setzte SymphonyRM die Data-Preparation-Software Trifacta Wrangler ein. Das Unternehmen habe diesen Weg eingeschlagen, sagt Schmid, damit Business-Analysten einen großen Teil der Datenaufbereitung übernehmen und so Entwicklerzeit eingespart wird.
Trifacta bedient mit seinen Tools einen Bereich, der sich auf Datenaufbereitung und Self Service konzentriert. Zu den Mitbewerbern gehören Datameer, Paxata, Tibco Software, Unifi Software und andere.
„Machine Learning ist wichtig, aber die Qualität der Daten ist entscheidend für ein gutes Ergebnis“, sagt Schmid. „Bevor wir Trifacta verwendeten, brachten wir unterschiedliche Datenquellen aus verschiedenen Systemen ein, und unsere Softwareentwickler haben den Code geschrieben, um diese Daten aufnehmen zu können.“
Er sagt, dass das Trifacta-System Data Scientists erlaubt, Schemata zu definieren. Wenn die Rohdaten dann in einen Data Lake gelangen, können sie von Analysten klassifiziert werden. Damit lässt sich das Zielschema befüllen.
„Trifacta hilft uns, die Daten schneller zu bekommen. Weil es ein visuelles Werkzeug ist, können wir jetzt die Arbeit von Entwicklern und Data Scientists auf Business-Analysten verlagern", sagt er.
Excel - immer noch das wichtigste Werkzeug
Obwohl es für einige Leute überraschend sein mag: Excel ist immer noch das primäre Werkzeug zur Datenaufbereitung. Laut einer von Trifacta beauftragten Umfrage unter 295 Datenprofis, die im Mai 2018 veröffentlicht wurde, nutzen Excel 37 Prozent der Datenanalysten und 30 Prozent der IT-Profis – und damit mehr als andere Tools zur Datenaufbereitung.
Das überraschte Schmid nicht. Zwar schätzt er die Bemühungen der Branche, über neue Austauschformate unterschiedlichen Daten umzugehen. Aber es gibt keinen vollständigen sofortigen Ersatz für Excel.
„Es wird zwar über modernere APIs gesprochen. Aber wir haben nicht den Luxus, nur mit den neuen APIs zu arbeiten“, sagt er. „In der Zwischenzeit ist Excel immer noch eine gute Alternativlösung.“
Was spricht sonst noch für Excel? Die Flexibilität beim Einlesen von Daten macht einen Unterschied, ebenso wie die Möglichkeit, das Datenproblem aus den Händen von teuren Entwicklern und in die Hände von ganz normalen Mitarbeitern zu verlagern, die die Daten am besten kennen.
Aufbereitung kritischer Daten
Es geht aber nicht nur darum, wie man mit etablierten Formaten wie Excel umgeht. Es geht auch um die Datenaufbereitung für noch wenige verwendete Formate. „Man muss wirklich die Breite der eingehenden Daten verstehen und nicht nur das, was man heute hat“, sagt Schmid.
Laut einer Umfrage der Dresner Advisory Services gewinnt Datenaufbereitung im Self Service zunehmend an Bedeutung. Die Umfrage ergab, dass 72 Prozent aller Teilnehmer die Datenaufbereitung durch Endbenutzer entweder als „kritisch“ oder „sehr wichtig“ bewerten.
Noch findet Self-Service-Datenaufbereitung erst statt, nachdem Spezialisten die Data Pipelines, die die Analytik speisen, entwickelt und getestet haben. Laut Adam Wilson, CEO von Trifacta, ist es entscheidend, dass innerhalb von Unternehmen Teams gebildet werden, um die Arbeit intelligent zu verteilen.
„Es gibt Millionen von Wissensarbeitern da draußen, denen gesagt wurde, dass sie datenorientiert arbeiten sollen“, sagt Wilson. „Sie sollten nicht komplett von einer kleinen Gruppe von Entwicklern abhängig sein, um mit der Datenanalyse beginnen zu können.“
Gesucht sind Datenspezialisten, die sicherstellen, dass die Datenanalyse richtig skalieren kann, wenn mehr und mehr Daten ankommen, sagt Wilson. Trifacta hat kürzlich die RapidTarget- und Automator-Funktionen veröffentlicht. Diese helfen Datenspezialisten, wiederholbare, skalierbare Pipelines für Daten, die Analysten brauchen, zu erstellen und zu pflegen.