Entscheidungsbaum erstellen - Einfache Möglichkeiten zur Visualisierung des Entscheidungsbaumdiagramms

Inhaltsverzeichnis:

Anonim

Einführung in das Erstellen eines Entscheidungsbaums

Angesichts des rasanten Anstiegs der von Informationssystemen generierten Datenmenge bei der Verarbeitung großer Datenmengen besteht ein erheblicher Bedarf für den Entscheidungsbaum, um die Komplexität der Berechnung zu verringern. Ein Entscheidungsbaum kann als der wichtigste Ansatz zur Darstellung von Klassifikatoren angesehen werden. Mit anderen Worten, wir können sagen, dass die Daten mithilfe einer Divide and Conquer-Strategie strukturiert sind. Bis jetzt haben wir nur erforscht. Ein Entscheidungsbaum ist als Rahmen strukturiert, um die Werte und die Wahrscheinlichkeit von Ergebnisentscheidungen zu präzisieren

Auf jeder Ebene des Knotens können Entscheidungsträger die richtigen Vorhersagen unter den verschiedenen unangemessenen Daten auswählen. In diesem Artikel erfahren Sie, wie Sie auf einfache Weise einen Entscheidungsbaum basierend auf Beispieldaten erstellen.

Was ist der Entscheidungsbaum?

Ein Entscheidungsbaum ist eine binäre hierarchische Struktur, die angibt, wie jeder Knoten einen Datensatz basierend auf verschiedenen Bedingungen aufteilt. Erstellen eines optimalen Baums mit einem Modellansatz zur Klassifizierung einer Antwortvariablen, die den Wert einer Zielvariablen mit einfachen Entscheidungsregeln vorhersagt (if-then-else-Anweisungen). Der Ansatz ist überwachtes Lernen, das hauptsächlich bei Klassifizierungsproblemen eingesetzt wird und als sehr effektives Vorhersagemodell gilt. Sie werden in verschiedenen Anwendungsbereichen wie Spieltheorie, Künstliche Intelligenz, Maschinelles Lernen, Data Mining und in Bereichen wie Sicherheit und Medizin eingesetzt.

Wie erstelle ich einen Entscheidungsbaum?

Ein Entscheidungsbaum wird auf einfache Weise von oben nach unten erstellt. Sie bestehen aus Knoten, die einen gerichteten Knoten mit Wurzelknoten ohne ankommende Kanten bilden. Alle anderen Knoten werden als Entscheidungsknoten (interne Knoten und Blattknoten, die Attribut- und Klassenbezeichnungen entsprechen) mit mindestens einer ankommenden Kante bezeichnet. Das Hauptziel der Datensätze besteht darin, die Verallgemeinerungsfehler zu minimieren, indem die optimale Lösung im Entscheidungsbaum gefunden wird.

Ein Beispiel für einen Entscheidungsbaum wird im Folgenden mit einem Beispieldatensatz erläutert. Ziel ist es, anhand der Attribute Leben und Wettbewerb vorherzusagen, ob der Gewinn steigt oder fällt. Hier sind die Entscheidungsbaumvariablen kategorisch (Ja, Nein).

Der Datensatz

Leben Wettbewerb Art Profitieren
Alt Ja Software Nieder
Alt Nein Software Nieder
Alt Nein Hardware Nieder
Mid Ja Software Nieder
Mid Ja Hardware Nieder
Mid Nein Hardware Oben
Mid Nein Software Oben
Neu Ja Software Oben
Neu Nein Hardware Oben
Neu Nein Software Oben

Aus dem obigen Datensatz: Leben, Wettbewerb, Typ sind die Prädiktoren und das Attribut Gewinn ist das Ziel. Es gibt verschiedene Algorithmen zum Implementieren eines Entscheidungsbaums, aber der beste Algorithmus zum Erstellen eines Entscheidungsbaums ist ID3, wobei der Schwerpunkt auf einem gierigen Suchansatz liegt. Der Entscheidungsbaum folgt der Entscheidungsschlussregel oder der disjunktiven Normalform (^).

Entscheidungsbaum

Zu Beginn wird das gesamte Trainingsattribut als Root betrachtet. Die Reihenfolgepriorität für die Platzierung der Attribute als Root wird nach dem folgenden Ansatz festgelegt. Dieser Prozess ist der Attributauswahl bekannt, um zu identifizieren, welches Attribut auf jeder Ebene als Stammknoten festgelegt wird. Der Baum folgt zwei Schritten: Konstruktion eines Baumes, Baumschnitt. Die Daten wurden in alle Entscheidungsknoten aufgeteilt.

Informationsgewinn

Es ist das Maß für die Änderung der Entropie basierend auf der unabhängigen Variablen. Der Entscheidungsbaum muss den höchsten Informationsgewinn finden.

Entropie

Die Entropie ist definiert als die endliche Menge, das Maß für die Zufälligkeit von Daten oder die Vorhersagbarkeit von Ereignissen. Wenn die Stichprobe ähnliche Werte aufweist, ist die Entropie Null und wenn sie gleichmäßig mit der Stichprobe geteilt ist, ist sie Eins.

Entropie für die Klasse

Wobei p die Wahrscheinlichkeit ist, dass Gewinn "Ja" und N "Verlust" ist, sagen Sie "Nein".

daher ist Entropie = 1

Sobald der Entropiewert berechnet ist, muss ein Wurzelknoten aus dem Attribut bestimmt werden.

Entropie des Alters

Entsprechend dem Datensatz für das Attribut "Leben" haben wir alt = 3 nach unten, mittel = 2 nach unten und eins nach oben in Bezug auf die Gewinnkennzeichnung.

Leben Pi ni Ich (pi, ni)
Alt 0 3 0
Mid 2 2 1
Neu 3 0 0

Gewinn = Klassenentropie - Entropie des Lebens = 1 - 0, 4 = 0, 6

Entropie (Konkurrenz) = 0, 87

Wettbewerb Pi ni Ich (pi, ni)
Ja 1 3 0.8
Nein 4 2 0.9

Gewinn = Klassenentropie - Entropie des Lebens = 1 - 0, 87 = 0, 12

Jetzt tritt das Problem im Attribut Leben auf, bei dem die Mitte eine gleiche Wahrscheinlichkeit für Auf und Ab hat. Daher ist die Entropie 1. In ähnlicher Weise wird sie für das Typattribut berechnet. Die Entropie ist 1 und die Verstärkung ist 0. Nun wurde eine vollständige Entscheidung getroffen, um ein genaues Ergebnis für den Mittelwert zu erhalten.

Vorteile von Decision Tree

  • Sie sind leicht zu verstehen und die generierten Regeln sind flexibel. Hat wenig Aufwand für die Datenaufbereitung.
  • Ein visueller Ansatz zur Darstellung von Entscheidungen und Ergebnissen ist sehr hilfreich.
  • Der Entscheidungsbaum behandelt den Trainingsdatensatz mit Fehlern und fehlenden Werten.
  • Sie können mit diskreten Werten und einem numerischen Attribut umgehen. Es arbeitet mit kategorialen und kontinuierlichen Variablen für die Eingabe und Ausgabe.
  • Sie sind ein nützliches Werkzeug für den Geschäftsbereich, der nach einer Analyse unter bestimmten Bedingungen Entscheidungen treffen muss.

Nachteile von Decision Tree

  • Die Lernenden können in Abhängigkeit von den trainierten Daten einen komplexen Entscheidungsbaum erstellen. Dieser Prozess wird als Überanpassung bezeichnet, ein schwieriger Prozess in Entscheidungsbaummodellen.
  • Die bevorzugten Werte sind kategorisch, wenn sie kontinuierlich sind, verliert der Entscheidungsbaum Informationen, was zu fehleranfälligen Ergebnissen führt. Das exponentielle Berechnungswachstum ist während der Analyse höher.
  • Viele Klassenbeschriftungen führen zu falschen komplexen Berechnungen und ergeben eine geringe Vorhersagegenauigkeit des Datensatzes.
  • Informationen, die mit dem DT-Algorithmus gewonnen wurden, geben eine verzerrte Antwort auf kategorisch höhere Werte.

Fazit

Zusammenfassend stellen Entscheidungsbäume daher eine praktische und einfache Lernmethode dar und gelten als effiziente Werkzeuge für maschinelles Lernen, da sie in kurzer Zeit eine gute Leistung mit großen Datenmengen erbringen. Es ist eine Lernaufgabe, die einen statistischen Ansatz verwendet, um eine verallgemeinerte Schlussfolgerung zu ziehen. Jetzt ist es besser zu verstehen, warum der Entscheidungsbaum in der Vorhersagemodellierung verwendet wird, und für die Datenwissenschaftler sind sie das mächtige Werkzeug.

Empfohlene Artikel

Dies ist eine Anleitung zum Erstellen eines Entscheidungsbaums. Hier wird erläutert, wie Sie einen Entscheidungsbaum mit verschiedenen Vor- und Nachteilen erstellen. Sie können auch unsere anderen Artikelvorschläge durchgehen, um mehr zu erfahren -

  1. Überblick über den Entscheidungsbaum in R
  2. Was ist der Entscheidungsbaum-Algorithmus?
  3. Einführung in die Tools für künstliche Intelligenz
  4. Die 10 häufigsten Fragen zum Thema Künstliche Intelligenz