kirill_makarov - stock.adobe.com

Der Einsatz kleiner Datensätze für Machine Learning nimmt zu

Große Datensätze ermöglichen ein relativ einfaches Machine-Learning-Modelltraining. Entwickler forschen aber auch an Modellen, die mit kleinen Datensätzen funktionieren.

Frühere Generationen von Machine-Learning-Werkzeugen erforderten riesige Datensätze, um brauchbare Ergebnisse zu generieren. Das schränkte die Arten von Machine-Learning-Modellen ein, die erstellt werden konnten. Gegenwärtig entwickeln Forscher und Anbieter jedoch neue KI-Anwendungen, die eine Vielzahl von Techniken nutzen, um die erforderliche Datenmenge zu reduzieren.

Mit Few-Shot- und n-Shot-Trainingsansätzen können auch Machine-Learning-Modelle mit kleinen Datensätzen trainiert werden. Wissenschaftler erforschen aber auch Zero-Shot-Learning-Techniken, die aus verwandten Daten oder Beschreibungen dessen, was in den Daten zu suchen ist, lernen können – ohne bestimmte Datensätze.

Die Entwicklung von Trainingsmodellen, die nur kleine Datensätze benötigen, kann es Unternehmen erleichtern, eigene KI-Strategien zu entwickeln.

Grow more versus know more

Nate Nichols, Distinguished Principal bei der KI-Firma Narrative Science, verweist darauf, dass es zwei umfangreiche Ansätze gibt, um mit kleinen Trainingsdatensätzen Erfolg zu haben – grow more (mehr wachsen) oder know more (mehr wissen).

Grow-more-Ansätze, wie Simulationen oder Generative Adversarial Networks (GANs), lassen die Datenmengen anwachsen, von denen das Modell lernen kann. Simulationen eignen sich hervorragend für Probleme im Zusammenhang mit Benutzerverhalten oder physikalischen Prozessen.

Viele Unternehmen sitzen auf riesigen Schätzen nicht gekennzeichneter Daten. Few-shot-Ansätze können ebenfalls dazu beitragen, Datensätze für die Machine-Learning-Modellierung zu bereinigen, zu kennzeichnen und mehr Daten zu erzeugen. Die Fähigkeit, mit gekennzeichneten Daten in kleinem Umfang zu lernen, eröffnet neue Möglichkeiten und erlaubt es Unternehmen, große Pools von ansonsten unbrauchbaren Daten zu nutzen, um innovativ zu sein.

„Unternehmen sitzen typischerweise auf großen Datenpools, aber die meisten dieser Daten haben keine Labels und können nicht zur Erstellung eines Modells verwendet werden“, sagt Bethann Noble, Director of Product Marketing für Machine Learning bei Cloudera.

Know-more-Ansätze, wie Lerntransfer oder vortrainierte Modelle, setzen darauf, dass das Modell aus einem breiteren Datenbestand lernt als nur aus Trainingsdaten. Beim Lerntransfer wird ein neues Modell auf einem früheren Modell mit vorhandenen Daten trainiert. Das Modell muss dann laut Nichols nicht das eigentliche Problem von Grund auf lösen, sondern muss nur den Unterschied zwischen dem Problem, an dem es ursprünglich trainiert wurde, und dem Problem, an dem man es jetzt trainiert, lernen, wofür oft weniger Trainingsdaten erforderlich sind.

Facebook hat zum Beispiel erfolgreich sein Übersetzungssystem mit Lerntransfers trainiert. Nachdem das System bei der Übersetzung von Englisch nach Spanisch (das viele Daten enthält) gute Leistungen erbrachte, konnte Facebook Texte mit deutlich weniger Daten von Englisch nach Urdu übersetzen lassen. Ähnliche Probleme wie VGG-Face für die Gesichtserkennung, Mask R-CNN für das Auffinden von Objekten in einem Foto oder word2vec für das Sprachverständnis können ebenfalls mit Lerntransfer oder vorab trainierten Modellen gelöst werden.

„Aktives Lernen ist ein weiterer Know-more-Ansatz, der darauf abzielt, neue Feedback-Schleifen für eine effizientere Kennzeichnung von Daten zu schaffen“, sagt Noble. Beim aktiven Lernen (Active Learning) identifiziert das Modell den Datenpunkt, bei dem es die größten Probleme hat, und fordert ein Label an, das ein Mensch eingeben und bereitstellen kann. Wenn es die Labels für diese Datenpunkte kennt, kann das Modell die Lücke zwischen verschiedenen Schritten des Prozesses verkürzen.

Metalernen (Meta Learning) ist ein weiterer Ansatz, der den Fokus darauf verschiebt, Machine-Learning-Modelle mit kleineren Datensätzen zu trainieren. Beim traditionellen Machine Learning konzentriert man sich darauf, viele Beispiele einer Klasse zu sammeln.

Beim Metalernen verlagert sich der Schwerpunkt auf das Sammeln vieler Aufgaben. Indirekt bedeutet dies die Notwendigkeit, Daten für viele verschiedene Klassen zu sammeln. Metalernen ist für Unternehmen dann praktisch, wenn die zugrunde liegenden Algorithmen in Anwendungsfällen wie der Produktklassifikation oder der Klassifikation seltener Krankheiten ausgereift sind, bei denen die Daten viele Klassen aufweisen, aber jede Klasse nur einige wenige Beispiele hat.

Kleine Datensätze für Machine Learning ins rechte Licht rücken

„Es gibt eine Vielzahl von Problemen, auf die Entwickler stoßen können, wenn sie mit kleineren Datensätzen arbeiten. Entwickler können diese Bedenken allerdings durch einen First-Principles-Model-Ansatz verringern“, sagt Greg Makowski, Leiter des Bereichs Data Science Solutions bei FogHorn, einem Anbieter von IoT-Plattformen. Wenn man zum Beispiel physikalische oder chemische Gleichungen kennt, braucht man nicht so viele Beispiele, um effektive Machine-Learning-Modell zu entwickeln, die darauf zurückgreifen.

Insbesondere Entwickler und Forscher haben Mühe, Modelle zu erstellen, die Ausreißer mit einbeziehen. Anomalien kommen per Definition nicht so oft vor, was bedeutet, dass die Datensätze klein sind und oft nicht variieren. Das Lernen mit wenigen Mausklicks hilft Datenforschungsteams, den Aufwand zu reduzieren, der mit dem Sammeln eines großen Satzes der richtigen Daten und der Bezahlung für die Berechnung eines Modells auf diesem großen Datensatz verbunden ist.

„Das sind sowohl harte als auch teure Unternehmungen“, sagt Nichols. „Wenn das ‚Few-shot learning‘ bei vielen Aufgaben wirklich funktioniert, dann wird es die Anzahl der Aufgaben, auf die maschinelles Lernen angewendet werden kann, beträchtlich erweitern.“

Mit kleineren Problemen beginnen

Arijit Sengupta, CEO der Machine-Learning-Plattform Aible, ist überzeugt, dass Entwickler wahrscheinlich die besten Ergebnisse mit kleinen Datensätzen erzielen, wenn sie Wege finden, ein Projekt in kleinere Probleme oder kleinere Modelle zu zerlegen. Ein Ansatz ist die Schaffung einer fokussierten KI für einen spezifischen Anwendungsfall wie einen Produkttyp, ein Land oder eine Branche.

„Wenn Sie das Problem eingrenzen, können Sie die KI auf einem kleineren Datensatz trainieren und wissen, dass Sie die meisten Beispiele für diesen sehr fokussierten Fall abgedeckt haben“, sagt er.

Der traditionelle KI-Ansatz besteht darin, viele große Modelle einzusetzen, aber das ist teuer und zeitaufwendig. Mit den Fortschritten beim automatisierten maschinellen Lernen und der Modellbereitstellung ist es nun möglich, viele kleine Modelle zu einem allgemeinen Vorhersagemodell zusammenzufügen. Das ist weniger exotisch als einige der neuen Techniken, aber diese Ansätze werden besser verstanden, und sie schaffen laut Sengupta einen unmittelbaren Mehrwert.

Ein weiterer vielversprechender Ansatz ist der Einsatz evolutionärer Techniken, die mit einem einfachen Modell beginnen, das durch Simulation und populationsbasiertes Lernen verfeinert wird, wenn traditionelle Modelle suboptimal oder die Datensätze zu klein sind, um KI anzuwenden.

„Dies ist wesentlich schneller und effizienter als andere Methoden und führt zu optimaleren Modellen mit viel weniger Ausgangsdaten“, sagt Bret Greenstein, Head of AI & Analytics für Cognizant Digital Business.

Trulia lernt aus neuen Dokumenten

Die meisten Machine-Learning-Modelle erfordern entweder ausreichend gekennzeichnete Daten oder damit zusammenhängende, unbeaufsichtigte Daten, um eine stabile Datenverteilung zu erlernen. Dies ist erforderlich, um sicherzustellen, dass die Modelle gut verallgemeinert sind und die erwartete Testleistung erbringen.

Jyoti Prakash Maheswari, angewandter Wissenschaftler beim Immobiliendienstleister Trulia, wendet künstliche Intelligenz und maschinelles Lernen an, um das Verständnis von Dokumenten auf gescannten Transaktionsdokumenten zu dokumentieren.

Angesichts der großen Unterschiede zwischen diesen Dokumenten kann es schwierig sein, genügend kommentierte Daten für jeden Dokumenttyp und die zunehmende Häufigkeit neuer Dokumenttypen zu sichern. „Von der großen Anzahl von Dokumenttypen kommen nur wenige so häufig vor, wie sie typischerweise zum Trainieren eines Modells erforderlich sind“, sagte Maheswari.

Techniken wie Lerntransfer und multimodaler Wissenstransfer helfen beim Erlernen und Anwenden von Schlüsseldaten auf neue Bereiche. Schwach überwachte oder halb überwachte Techniken helfen sowohl bei der Datenerstellung als auch beim Training. Datenerweiterung und aktives Lernen mit dem Menschen in der Schleife sind ebenfalls vielversprechende Techniken der intelligenten Datenerzeugung.

Abbildung 1: Wie ein Machine-Learning-Prozess abläuft.
Abbildung 1: Wie ein Machine-Learning-Prozess abläuft.

Trulia, und im weiteren Sinne auch das Mutterunternehmen Zillow, hat diese Techniken zur Erstellung von Schulungsdatensätzen mit Bildern und Textbeschreibungen in Verbindung mit Immobilienangeboten verwendet. Sie haben eine Transfertechnik verwendet, um Szenenklassifizierungs- und Immobilienattribut-Erkennungsmodelle zu trainieren, und unbeaufsichtigte und selbstüberwachte Lerntechniken bieten kreative Möglichkeiten, Datendarstellung und Worteinbettungen zu erlernen und Schlüsselwörter aus einer Beschreibung zu extrahieren.

Erklärbarkeit erforderlich

Few-Shot- und n-Shot-Trainingsalgorithmen erfordern ein Verständnis für eine Deep-Learning-Architektur und mathematische Formulierungen. Die Umsetzung dieser Algorithmen in die Praxis erfordert die Definition des Ziels, den Aufbau einer Deep-Learning-Architektur und die richtige Platzierung der Lernart in der Architektur. Mainstream-Bibliotheken für Deep Learning, wie Keras und PyTorch, unterstützen diese Algorithmen derzeit nicht in einer Weise, die sofort in Produktion gehen kann.

Heute werden die in Modulen und Klassen verfügbaren Algorithmen mit handgeschriebenen Skripten kombiniert. In Zukunft könnten die Algorithmen in den Tools als APIs enthalten sein, die direkt in die Produktion gehen können. „Im Moment ist es wichtig, auch in diese APIs eine bessere Erklärbarkeit zu integrieren“, sagt Bradley Hayes, CTO bei Circadence, einer Cyber-Security-Firma.

„Solange wir keine erklärbaren KI-Techniken entwickeln können, die es uns ermöglichen, die den Modellen zugrunde liegende Logik zu untersuchen, und sei es auch nur in einem intuitiven Sinne, ist es unverantwortlich, sie in unserem Namen handeln zu lassen“, sagt Hayes.

Langfristig wird es für das Lernen aus kleinen Datensätzen von Vorteil sein, neue Algorithmen und Ansätze zu finden, um die Kraft des Deep Learnings mit den expliziten Gründen und der Semantik der traditionellen KI zu kombinieren.

Erfahren Sie mehr über Softwareentwicklung