Einführung in den KNN-Algorithmus in R

In dem KNN-Algorithmus in R steht KNN für K Nearest Neighbour Algorithmus und R ist eine Programmiersprache. Es soll der einfachste Algorithmus für maschinelles Lernen sein. KNN ist ein überwachter Algorithmus, der Datenpunkte in eine Zielklasse klassifiziert, indem Features mit dem nächsten Nachbarn verglichen werden.

Beispiel: Angenommen, Sie möchten einen Touchscreen und ein Tastaturtelefon klassifizieren. Es gibt verschiedene Faktoren, die zur Unterscheidung beider Telefone führen. Der Faktor, der beide Telefone unterscheidet, ist jedoch die Tastatur. Also, wenn wir einen Datenpunkt erhalten (zB Telefon). Wir vergleichen es mit den ähnlichen Merkmalen der benachbarten Datenpunkte, um es als Tastatur oder Touchphone zu klassifizieren.

Funktionen des KNN-Algorithmus

Hier werden wir die Funktionen des KNN-Algorithmus untersuchen:

  • Der KNN-Algorithmus verwendet Eingabedaten, um gesetzte Ausgabedatenpunkte vorherzusagen.
  • Der Algorithmus kann auf verschiedene Arten von Problemen angewendet werden.
  • Konzentriert sich auf die Ähnlichkeit der Funktionen, um die Daten zu klassifizieren.
  • Der KNN-Algorithmus verarbeitet realistische Daten und macht keine Annahmen über die Datenpunkte.
  • KNN speichert den Trainingsdatensatz und ist nicht intuitiv. Auch kann gesagt werden, dass es einen faulen Ansatz hat.
  • Es kann Klassifizierungs- und Regressionsprobleme lösen.

Beheben von Problemen im KNN-Algorithmus in R

Folgendes Adressierungsproblem:

1. Klassifizierungsproblem

In der Klassifizierungsaufgabe sind die Werte so diskret, als ob Sie Pizza mit oder ohne Belag essen möchten. Es gibt Gemeinsamkeiten. Der KNN-Algorithmus hilft bei der Lösung eines solchen Problems.

2. Regressionsproblem

Das Regressionsproblem tritt auf, wenn wir eine abhängige Variable und eine unabhängige Variable haben. Bsp .: BMI-Index. In der Regel enthält jede Zeile einen Beobachtungs- oder Datenpunkt und ein Beispiel.

Der KNN-Algorithmus in R

Sehen wir uns die Schritte im Algorithmus an, die befolgt werden müssen:

Schritt 1: Laden Sie die Eingabedaten.

Schritt 2: Initialisieren Sie K mit der Anzahl der nächsten Nachbarn.

Schritt 3: Berechnen der Daten (dh Entfernung zwischen dem aktuellen und dem nächsten Nachbarn)

Schritt 4: Hinzufügen des Abstands zum aktuell bestellten Datensatz.

Schritt 5: K Einträge aufnehmen und beschriften.

Schritt 6: Geben Sie den Mittelwert für das Regressionsproblem zurück.

Schritt 7: Geben Sie den Moduswert für Klassifizierungsprobleme zurück.

Bei der Implementierung des KNN-Algorithmus zu beachtende Punkte

  • Wir sollten sicherstellen, dass der K-Wert größer als eins ist, da dies die Vorhersage der Genauigkeit behindert.
  • Je höher der K-Wert, desto genauer kann die Vorhersage aufgrund der Mehrheit sein.
  • Es ist vorzuziehen, K als ungerade Zahl zu haben. Andernfalls kann es zu einem Kabelbruch kommen.

KNN Pseudocode

In der folgenden Formel stellt Variablen dar und stellt Datenpunkte dar, bei denen (i = 1, 2, 3….)

Set(, )

Anwendungsfälle

Im Folgenden sind die Anwendungsfälle im KNN-Algorithmus in R aufgeführt:

1. Produktvergleich und Hilfe bei Einkaufsempfehlungen

Wenn wir einen Laptop oder Computer von einer Online-E-Commerce-Website kaufen, sehen wir auch Einkaufsempfehlungen wie den Kauf von Antivirensoftware oder Lautsprechern. All dies liegt daran, dass ein früherer Kunde einen Laptop meist zusammen mit Antivirenprogrammen oder Lautsprechern kauft. Maschinelles Lernen hilft bei E-Commerce-Empfehlungen.

2. Speiseempfehlungen

Maschinelles Lernen hilft auch bei Empfehlungen, die auf zuvor bestellten Lebensmitteln basieren, und schlägt Restaurants entsprechend vor.

Beispiel des KNN-Algorithmus

Es folgen die Beispiele für den KNN-Algorithmus:

1. Daten importieren

Lassen Sie uns die Dummy-Daten über uns nehmen und anhand von Größe und Gewicht die T-Shirt-Größe eines Mannes vorhersagen.

Höhe (cm) Gewicht (kg) Größe
140 58 S
140 59 S
140 63 S
150 59 M
152 60 M
153 60 M
154 61 M
155 64 M
156 64 M
157 61 M
160 62 L
161 65 L
162 62 L
163 63 L
163 66 L
165 63 L
165 64 L
165 68 L

2. Finden der Ähnlichkeiten durch Abstandsberechnung

Wir können sowohl Manhattan als auch Euklidische Distanz verwenden, da die Daten kontinuierlich sind. Wir berechnen den Abstand zwischen der neuen Stichprobe und dem Trainingsdatensatz und finden dann K-am nächsten.

Beispiel: Angenommen, 'Raj' hat eine Höhe von 165 cm und ein Gewicht von 63 kg. Wir berechnen den euklidischen Abstand anhand der ersten Beobachtung mit der neuen Stichprobe: SQRT ((165-140) 2 + (63-58) 2)

3. Finden der nächsten K-Nachbarn

Angenommen, K = 4. Es gibt 4 Kunden, von denen 3 mittelgroß und 1 groß waren. Die beste Prognose ist mittelgroße Anzüge Raj.

Unterschied zwischen KNN und K-Mittelwert

Es folgen die Unterschiede:

  • KNN ist ein überwachter Algorithmus (abhängige Variable), während K-mean ein nicht überwachter Algorithmus ist (keine abhängige Variable).
  • K-mean verwendet eine Clustertechnik, um Datenpunkte in K-Cluster aufzuteilen. KNN verwendet K-nächstgelegene Nachbarn, um Datenpunkte zu klassifizieren und zu kombinieren.

Vor- und Nachteile von KNN

Im Folgenden sind die Vorteile aufgeführt:

  • Der KNN-Algorithmus ist vielseitig und kann für Klassifizierungs- und Regressionsprobleme verwendet werden.
  • Es ist kein vorheriges Modell erforderlich, um den KNN-Algorithmus zu erstellen.
  • Einfach und leicht zu implementieren.

Im Folgenden sind die Nachteile aufgeführt:

  • Der Algorithmus erhöht sich mit der Anzahl der Stichproben (dh mit der Anzahl der Variablen)

Empfohlene Artikel

Dies ist eine Anleitung zum KNN-Algorithmus in R. Hier werden Funktionen, Beispiele, Pseudocodes und Schritte erläutert, die im KNN-Algorithmus auszuführen sind. Sie können auch unsere anderen verwandten Artikel durchgehen, um mehr zu erfahren.

  1. Datenwissenschaftliche Algorithmen
  2. Was ist ein genetischer Algorithmus?
  3. Routing-Algorithmen
  4. Neuronale Netzwerkalgorithmen
  5. C ++ Algorithmus | Beispiele für den C ++ - Algorithmus

Kategorie: