Einführung in Ensemble-Methoden im maschinellen Lernen

In diesem Artikel wird ein Überblick über Ensemble-Methoden im maschinellen Lernen gegeben. Ensemble-Lernen ist eine Kombination verschiedener maschineller Lerntechniken zu einem Vorhersagemodell, um die Vorhersage zu verbessern. Ensemble-Lernen wird erworben, um die Varianz in den Vorhersagedaten zu verringern. Diese Art des Lernens soll die Verzerrung des Modells minimieren. Ensemble-Lernen ist ein System mit mehreren Modellen, bei dem verschiedene Klassifikatoren oder Techniken strategisch kombiniert werden, um Statistiken aus dem komplexen Problem genauer zu klassifizieren oder vorherzusagen. Das Ziel eines solchen Lernens ist es, die Wahrscheinlichkeit einer schlechten Auswahl aus dem Modell zu minimieren. Es bestätigt das Vertrauen in die vom Modell getroffene Entscheidung. Die Idee, optimale Features auszuwählen, wurde beim Lernen von Ensembles verwirklicht.

Arten von Ensemble-Methoden im maschinellen Lernen

Ensemble-Methoden helfen, mehrere Modelle zu erstellen und diese zu kombinieren, um bessere Ergebnisse zu erzielen. Einige Ensemble-Methoden werden in die folgenden Gruppen eingeteilt:

1. Sequenzielle Methoden

Bei dieser Art von Ensemble-Methode gibt es sequenziell generierte Basislerner, in denen sich die Datenabhängigkeit befindet. Alle anderen Daten im Basislerner sind in gewisser Weise von vorherigen Daten abhängig. Daher werden die zuvor falsch beschrifteten Daten basierend auf ihrem Gewicht optimiert, um die Leistung des Gesamtsystems zu verbessern.

Beispiel : Boosting

2. Parallele Methode

Bei dieser Art von Ensemble-Methode wird der Basislerner in einer parallelen Reihenfolge generiert, in der keine Datenabhängigkeit besteht. Alle Daten im Basislerner werden unabhängig generiert.

Beispiel : Stapeln

3. Homogenes Ensemble

Eine solche Ensemble-Methode ist eine Kombination der gleichen Arten von Klassifikatoren. Der Datensatz ist jedoch für jeden Klassifikator unterschiedlich. Dadurch wird das kombinierte Modell nach der Aggregation der Ergebnisse aus jedem Modell präziser. Diese Art von Ensemble-Methode funktioniert mit einer großen Anzahl von Datensätzen. Bei der homogenen Methode ist die Merkmalsauswahlmethode für verschiedene Trainingsdaten gleich. Es ist rechenintensiv.

Beispiel: Beliebte Methoden wie Absacken und Boosten gehören zum homogenen Ensemble.

4. Heterogenes Ensemble

Ein solches Ensemble-Verfahren ist die Kombination verschiedener Arten von Klassifikatoren oder maschinellen Lernmodellen, bei denen jeder Klassifikator auf denselben Daten basiert. Eine solche Methode funktioniert für kleine Datensätze. In heterogener Form unterscheidet sich die Merkmalsauswahlmethode für dieselben Trainingsdaten. Das Gesamtergebnis dieser Ensemblemethode wird durch Mitteln aller Ergebnisse jedes kombinierten Modells ausgeführt.

Beispiel : Stapeln

Technische Klassifikation von Ensemble-Methoden

Nachfolgend finden Sie die technische Klassifizierung der Ensemble-Methoden:

1. Absacken

Diese Ensemble-Methode kombiniert zwei maschinelle Lernmodelle, dh Bootstrapping und Aggregation, zu einem einzigen Ensemble-Modell. Ziel der Absackmethode ist es, die hohe Varianz des Modells zu reduzieren. Die Entscheidungsbäume haben Varianz und geringe Verzerrung. Der große Datensatz wird unterabgetastet (z. B. 1000 Abtastungen) (z. B. tragen 10 Unterabtastungen jeweils 100 Datenabtastungen). Die Mehrfachentscheidungsbäume werden auf Basis der Trainingsdaten für jede Unterprobe erstellt. Während die unterabgetasteten Daten auf die verschiedenen Entscheidungsbäume aufgeteilt werden, wird die Sorge einer Überanpassung der Trainingsdaten auf jeden Entscheidungsbaum verringert. Für die Effizienz des Modells wird jeder einzelne Entscheidungsbaum mit unterabgetasteten Trainingsdaten tief verwachsen. Die Ergebnisse jedes Entscheidungsbaums werden aggregiert, um die endgültige Vorhersage zu verstehen. Die Varianz der aggregierten Daten verringert sich. Die Genauigkeit der Vorhersage des Modells bei der Absackmethode hängt von der Anzahl der verwendeten Entscheidungsbäume ab. Die verschiedenen Unterproben von Probendaten werden beim Ersetzen zufällig ausgewählt. Die Ausgabe jedes Baums weist eine hohe Korrelation auf.

2. Steigerung

Das Boosting-Ensemble kombiniert auch verschiedene gleiche Klassifikatortypen. Boosting ist eine der sequentiellen Ensemble-Methoden, bei denen jedes Modell oder jeder Klassifikator basierend auf Features ausgeführt wird, die vom nächsten Modell verwendet werden. Auf diese Weise unterscheidet die Auffrischungsmethode ein stärkeres Lernermodell von schwachen Lernermodellen, indem ihre Gewichte gemittelt werden. Mit anderen Worten, ein stärker trainiertes Modell hängt von mehreren schwach trainierten Modellen ab. Ein schwacher Lernender oder ein von Verschleiß geschultes Modell ist ein Modell, das mit einer echten Klassifizierung weniger korreliert. Der nächste schwache Lernende korreliert jedoch etwas mehr mit der tatsächlichen Klassifizierung. Die Kombination derart unterschiedlicher schwacher Lernender ergibt einen starken Lernenden, der gut mit der wahren Klassifikation korreliert.

3. Stapeln

Diese Methode kombiniert auch mehrere Klassifikationen oder Regressionstechniken unter Verwendung eines Metaklassifikators oder eines Metamodells. Die Modelle der unteren Ebenen werden mit dem vollständigen Trainingsdatensatz trainiert, und dann wird das kombinierte Modell mit den Ergebnissen von Modellen der unteren Ebene trainiert. Im Gegensatz zum Boosten wird jedes untergeordnete Modell einem parallelen Training unterzogen. Die Vorhersage aus den Modellen der unteren Ebene wird als Eingabe für das nächste Modell als Trainingsdatensatz verwendet und bildet einen Stapel, in dem die obere Ebene des Modells stärker trainiert wird als die untere Ebene des Modells. Das Top-Layer-Modell weist eine gute Vorhersagegenauigkeit auf und basiert auf Modellen niedrigerer Ebene. Der Stapel steigt so lange an, bis die beste Vorhersage mit einem minimalen Fehler ausgeführt wird. Die Vorhersage des kombinierten Modells oder Metamodells basiert auf der Vorhersage der verschiedenen schwachen Modelle oder Modelle der unteren Schicht. Es konzentriert sich darauf, ein weniger verzerrtes Modell zu erzeugen.

4. Zufälliger Wald

Der zufällige Wald unterscheidet sich geringfügig vom Absacken, da tiefe Bäume verwendet werden, die auf Bootstrap-Mustern angebracht sind. Die Ausgabe jeder Locke wird kombiniert, um die Varianz zu verringern. Während wir jeden Baum vergrößern, anstatt ein Bootstrap-Beispiel basierend auf der Beobachtung im Dataset zu generieren, testen wir das Dataset auch basierend auf Features und verwenden nur eine zufällige Teilmenge eines solchen Beispiels, um den Baum zu erstellen. Mit anderen Worten, die Abtastung des Datensatzes erfolgt auf der Grundlage von Merkmalen, die die Korrelation verschiedener Ausgaben verringern. Die zufällige Gesamtstruktur ist gut für die Entscheidung für fehlende Daten. Zufällige Gesamtstruktur bedeutet die zufällige Auswahl einer Teilmenge einer Stichprobe, wodurch die Wahrscheinlichkeit verringert wird, dass verwandte Vorhersagewerte ermittelt werden. Jeder Baum hat eine andere Struktur. Zufällige Wälder führen zu einer leichten Zunahme der Neigung des Waldes, aber aufgrund der Mittelung aller weniger verwandten Vorhersagen von verschiedenen Bäumen nimmt die resultierende Varianz ab und ergibt insgesamt eine bessere Leistung.

Fazit

Der Multi-Modell-Ansatz von Ensemble wird durch Deep-Learning-Modelle realisiert, in denen komplexe Daten durch derart unterschiedliche Kombinationen des Klassifikators untersucht und verarbeitet wurden, um eine bessere Vorhersage oder Klassifizierung zu erhalten. Die Vorhersage jedes Modells beim Lernen von Ensembles muss unkorrelierter sein. Dadurch werden die Abweichung und Varianz des Modells so gering wie möglich gehalten. Das Modell wird effizienter sein und die Ausgabe bei minimalem Fehler vorhersagen. Das Ensemble ist ein beaufsichtigter Lernalgorithmus, da das Modell zuvor mit dem Datensatz trainiert wurde, um die Vorhersage zu treffen. Beim Lernen von Ensembles sollte die Anzahl der Komponentenklassifizierer der Anzahl der Klassenbeschriftungen entsprechen, um eine hohe Genauigkeit zu erzielen.

Empfohlene Artikel

Dies ist eine Anleitung zu Ensemble-Methoden im maschinellen Lernen. Hier diskutieren wir die wichtigen Arten von Ensemble-Methoden im maschinellen Lernen zusammen mit der technischen Klassifizierung. Sie können auch unsere anderen Artikelvorschläge durchgehen, um mehr zu erfahren -

  1. Einführung in die Ensemble-Techniken
  2. Lebenszyklus des maschinellen Lernens mit Vorteilen
  3. Algorithmen für maschinelles Lernen
  4. Die 24 häufigsten Fragen zum maschinellen Lernen

Kategorie: