Elnur - stock.adobe.com

Machine-Learning-Modelle mit Feature Engineering entwickeln

Machine-Learning-Algorithmen müssen im Vergleich zu konventionellen Algorithmen Regeln selbst erlernen und umsetzen. Zuvor müssen die verwendeten Daten aber formatiert werden.

Maschinelles Lernen ist mit traditioneller Softwareentwicklung nicht zu vergleichen. Während in der traditionellen Softwareentwicklung der Entwickler vorgibt, welche Maßnahmen eine Software unter welchen Bedingungen ergreifen muss, erlernt die Software beim Machine Learning diese Regeln selbst. Hierfür überwachen und trainieren Entwickler die Software auf Grundlage der verfügbaren Daten.

Dazu benötigt sie allerdings Machine-Learning-Algorithmen, die in der traditionellen Softwareentwicklung selten eingesetzt werden. Indem diese die notwendigen Bedingungen erlernt haben, entstehen Modelle.

Laut der von Crisp erhobenen Untersuchung Machine Learning in deutschen Unternehmen füttern 59 Prozent aller deutschen Unternehmen ihre Machine-Learning-Systeme mit Finanzdaten, gefolgt von Produktionsdaten (43 Prozent), wie sie üblicherweise entlang der Supply Chain anfallen. Doch bevor ein Unternehmen Machine-Learning-Algorithmen trainieren und einsetzen kann, muss es die notwendigen Daten durch Feature Engineering in numerische Formen bringen, um eine Verarbeitung durch das Model zu ermöglichen.

Sobald die Daten numerisch formatiert sind, beginnt der Algorithmus zu lernen, indem er alle vorhandenen Daten analysiert, miteinander vergleicht und sie bewertet. Auf dieser Basis sortiert der Machine-Learning-Algorithmus die Daten nach verschiedenen Vergleichs- und Ranking-Typen und erkennt darin Muster.

Diese Vergleichs- oder Ranking-Typen für Daten lassen sich in die vier Haupttypen nach Stanley Smith Stevens einteilen: Nominal, Ordinal, Intervall und Verhältnis. Auf diese verschiedenen Datentypen oder Skalen lassen sich bestimmte mathematische Operationsalgorithmen, anwenden. Diese mathematischen Operationen sind der nächste Schritt zu einer vollständigen Machine-Learning-Analyse, die die Art von Mustern erzeugt, die Menschen nützlich finden.

Die Vier Vergleichstypen für Daten

  1. Nominaldaten sind Informationen, die sich nicht miteinander vergleichen lassen, aber zu einer übergeordneten Kategorie gehören. Das sind im Unternehmen zum Beispiel die Namen oder Standorte von Firmen, Mitarbeitern, Ansprechpartnern oder Software. Diese Namen allein lassen sich nicht von klein nach groß oder nach ihrer Wichtigkeit für das Unternehmen sortieren. Nominaldaten wird der mathematische Operationsalgorithmus „=” zugeordnet.
  2. Ordinaldaten sind Daten, die in eine bestimmte Reihenfolge gebracht werden können. Allerdings ist bei Ordinaldaten nicht genau festgelegt, wie viel größer jeder einzelne Datenwert gegenüber dem vorherigen ist. Beispielsweise lassen sich Partnerunternehmen in verschieden hohen Stufen einteilen (Silber-, Gold-, Platin-Partner), dabei bleibt jedoch unklar, wie viel wertvoller Gold-Partner gegenüber Silber-Partnern sind. Mathematisch gesehen können die Operatoren „=" sowie „<" oder „>" auf sie angewendet werden.
  3. Intervalldaten können wie Ordinaldaten verglichen werden. Allerdings ist bei Intervalldaten der Abstand zwischen zwei Werten auf einer Skala mit quantifizierten Abständen messbar. So lassen sich zum Beispiel Arbeitsstunden der Mitarbeiter oder Verkaufsbilanzen verschiedener Produkte konkret abstufen. Darüber hinaus können Intervalldaten addiert oder subtrahiert werden. Mathematisch gesehen werden die Operatoren „=", „<", „>", „+" und "-" verwendet.
  4. Verhältnisdaten sind genauso mit festen Abständen versehen wie Intervalldaten. Sie unterscheiden sich jedoch dadurch, dass Verhältnisdaten einen echten Nullpunkt haben. Lieferzeiten setzen zum Beispiel bei null (nicht ausgeliefert) an und steigern sich in Minuten-/Stunden-Intervallen bis zur Zustellung. Verhältnisdaten können alle vorherigen Operationen sowie Multiplikation und Division mit den Operatoren „=", „<", „>", „+", „-", „x" und „/" durchlaufen.

Feature Engineering: Daten für Machine Learning aufbereiten

Feature Engineering ist der Prozess, bei dem sogenannte Features aus den Rohdaten eines Unternehmens erstellt werden. Diese Features ermöglichen den Lernprozess und die Arbeit von Machine-Learning-Algorithmen. Sinnvoll aufbereitete Datensätze, nach den zuvor beschriebenen Datentypen, verbessern die Vorhersagekraft und Genauigkeit von Machine-Learning-Algorithmen. Dazu ist es von entscheidender Bedeutung, über große, relevante Datensätze zu verfügen und diese fachgerecht und sinnvoll aufzubereiten. Die Wahl des Machine-Learning-Algorithmus ist hierbei eher zweitrangig, jedoch auch nicht zu vernachlässigen.

Damit Algorithmen mit den Daten arbeiten können, müssen die Datensätze und ihre Merkmale in für die Algorithmen nutzbare Werte umgewandelt werden. Da Machine-Learning-Algorithmen mathematische Funktionen sind, die nicht direkt am Text arbeiten können, werden sie durch numerische Variablen ersetzt.

Stadt

numerischer Wert

New York

1

Paris

2

Sydney

3

Mit diesen zugewiesenen Codes – den Features im Sinne des maschinellen Lernens – können die Algorithmen arbeiten und die Features gemäß der Operationsalgorithmen in Relation zueinander setzen.

Diese Grundregeln haben Auswirkungen darauf, welche Algorithmen verwendet werden können und wie diese Algorithmen mit den vorliegenden Daten umgehen. So manifestieren sich zum Beispiel nominale oder kategorische Variablen in der Regel als Klassifizierungsprobleme, so dass eine Naive-Bayes-Klassifikation, ein Entscheidungsbaum, k-Nearest-Neighbor-Algorithmen (kNN) oder ein Ensemble als mögliche Optionen zur Verfügung stehen.

Feature Engineering und Machine Learning als agiler Entwicklungstreiber

Auch der zunehmende Einsatz von IoT-Lösungen (Internet of Things) ist ein Treiber für Machine Learning. Oftmals bilden gerade IoT-Daten (66 Prozent, laut der Crisp-Studie) die Grundlage für die Entwicklung entsprechender Modelle und Algorithmen für das Machine Learning.

Harry Underwood, OpenText

„Damit Algorithmen mit den Daten arbeiten können, müssen die Datensätze und ihre Merkmale in für die Algorithmen nutzbare Werte umgewandelt werden.“

Harry Underwood, OpenText

Durch die Analyse dieser Daten erhalten Unternehmen zahlreiche Quantifizierungsmöglichkeiten und Bewertungsmethoden, die Aufschluss über bestimmte Prozesse oder aber Mitarbeiter geben können. So können Unternehmen zum Beispiel den Verschleiß von Bauteilen überwachen und den Wartungsplan automatisiert optimieren.

Das ist nicht nur die Grundlage für eine nachhaltige Datenstrategie im Unternehmen, sondern kann eine neue Produktivitätsquelle im Sinne einer agilen Entwicklung darstellen. Dabei liegt der Fokus ganz auf der Entwicklung neuer Anwendungen, die für das Unternehmen neue Umsatz- und Gewinnquellen erschließen sollen.

Über den Autor:
Harry Underwood ist Senior Solution Consultant für Künstliche Intelligenz bei OpenText.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder und entsprechen nicht unbedingt denen von ComputerWeekly.de.

Nächste Schritte

Welche sozialen Auswirkungen Machine Learning haben kann.

Datenaustausch von Entwicklerteams und Machine Learning.

Wie man Predictive Modeling mit Machine Learning realisiert.

Erfahren Sie mehr über Datenanalyse