Deep Learning Algorithmen - Top 7 Architekturmethoden für Deep Learning

Inhaltsverzeichnis:

Anonim

Einführung in Deep Learning-Algorithmen

Deep Learning ist ein Schritt, um der künstlichen Intelligenz näher zu kommen, die Entscheidungen wie das menschliche Gehirn treffen kann, dh die Fähigkeit hat, wie Menschen durch Versuch und Irrtum zu lernen. Das menschliche Gehirn hat Milliarden von Neuronen (rund 86 Milliarden; Quelle: Wikipedia). Bei künstlichen Neuronen hilft tiefes Lernen auch dabei, den menschlichen Geist zu imitieren. Um die Informationen zu verarbeiten und die Entscheidung über künstliche neuronale Netze zu treffen, gibt es einige Algorithmen, sogenannte Deep-Learning-Algorithmen. Algorithmen lernen in jeder Schicht progressiv dh; Die Features in der nächsten Ebene bieten zusätzlichen Mehrwert. Ein Deep-Learning-Modell kann zu stark angepasst werden, wenn die Daten zu klein, unvollständig oder zu einfach sind. Deep-Learning-Algorithmen sind bei umfangreichen Daten effektiv.

Deep Learning-Algorithmen

Um ein Deep-Learning-Modell zu erstellen, müssen Sie mehrere Algorithmen schreiben, diese mischen und ein Netz von Neuronen erstellen. Tiefes Lernen hat einen hohen Rechenaufwand. Um Deep-Learning-Modellen zu helfen, gibt es Deep-Learning-Plattformen wie Tensor Flow, Py-Torch, Chainer, Keras usw. Beim Deep-Learning haben wir versucht, das menschliche neuronale Netzwerk durch ein künstliches neuronales Netzwerk zu replizieren Deep-Learning-Modell. Wir verbinden diese Perceptron-Einheiten miteinander, um ein neuronales Netzwerk zu erstellen. Es besteht aus drei Abschnitten:

  1. Eingabeebene
  2. Versteckte Schichten
  3. Ausgabeschicht

Ein Perzeptron hat Eingangsknoten (Dendriten im menschlichen Gehirn), eine Betätigungsfunktion zum Treffen einer kleinen Entscheidung und Ausgangsknoten (Axon im menschlichen Gehirn). Wir werden sehen, wie ein Perzeptron funktioniert, und es wird ein Modell des tiefen Lernens schaffen, indem wir es miteinander verbinden. Eingangsinformationen (Anzahl der Eingangsvariablen / Merkmale) werden mit einem gewissen Gewicht versehen und der Betätigungsfunktion zugeführt. Die Ansteuerungsfunktion trifft eine Entscheidung und sendet eine Ausgabe. Die Ausgabe dieses Perzeptrons wird in andere Neuronen eingegeben. Sobald die Charge abgearbeitet ist, wird mit Hilfe einer Kostenfunktion / Kreuzentropie bei jedem Neuron ein Backpropagation-Fehler berechnet. Auf diese Weise werden Eingabegewichte neu zugewiesen und der gesamte Prozess wird fortgesetzt, bis die Querentropie die Bedingung erfüllt.

Wir haben verschiedene Betätigungsfunktionen wie Sigmoid-Funktionen, Hyperbeltangensfunktion, Rectified Linear Unit (ReLU), um eine kleine Entscheidung zu treffen. Ein Deep-Learning-Modell benötigt eine große Datenmenge, um ein gutes Modell zu erstellen. Im Allgemeinen wird ein Modell mit mehr als 3 verborgenen Schichten als tiefes neuronales Netzwerk behandelt. Grundsätzlich ist Deep Learning eine Reihe von Neuronen mit einer Reihe von Parametern, die für jede Schicht definiert sind. Um das Deep Learning-Modell zu erstellen, sind die gängigen Architekturen RNN, CNN usw.

Architekturmethoden für Deep-Learning-Algorithmen

Um diese Architektur aufzubauen, werden folgende Algorithmen verwendet:

1. Back Propagation

In diesem Algorithmus berechnen wir partielle Ableitungen. In der Regel werden zur Optimierung der Gradientenabstiegsmethode Ableitungen (Gradienten) bei jeder Iteration berechnet. In Deep Learning sind Funktionen nicht einfach, sie setzen sich aus verschiedenen Funktionen zusammen. In diesem Fall ist es schwierig, Gradienten zu berechnen, daher verwenden wir eine ungefähre Differenzierung, um Ableitungen zu berechnen. Je mehr Parameter vorhanden sind, desto teurer ist die ungefähre Differenzierung.

2. Stochastischer Gradientenabstieg

Beim Gradienten-Abstieg besteht das Ziel darin, globale Minima oder eine optimale Lösung zu finden. Aber um das zu erreichen, müssen wir auch lokale Minima-Lösungen berücksichtigen (nicht wünschenswert). Wenn die Zielfunktion eine konvexe Funktion ist, ist es einfach, die globalen Minima zu finden. Der Anfangswert für die Funktion und die Lernrate sind entscheidende Parameter zum Auffinden globaler Minima. Dies kann leicht verstanden werden, wenn man einen Fluss betrachtet, der von der Bergspitze kommt und nach dem Vorgebirge sucht (globale Minima). Aber im Weg gibt es einige Höhen und Tiefen (lokale Minima), die vermieden werden müssen. Der Ausgangspunkt und die Geschwindigkeit des Flusses (Anfangswert und Lernrate in unserem Fall) sind entscheidende Faktoren, um globale Minima zu finden.

3. Lernrate

Die Lernrate ist wie die Geschwindigkeit des Flusses, sie kann die Trainingszeit verkürzen und die Leistung steigern. Um eine Technik / Sportart zu erlernen, ist die Lernrate am Anfang relativ hoch als am Ende, wenn man sie beherrschen will. Nach dem Zwischenstadium wird das Lernen langsam sein, der Fokus wird auf der Feinabstimmung liegen. Das gleiche gilt für tiefes Lernen. Zu große Veränderungen werden durch eine höhere Lernrate und durch langsames Verringern der Lernrate später zur Feinabstimmung bewältigt.

4. Batch-Normalisierung

Beim Deep-Learning-Anfangswert von Gewicht (zufällig ausgewählt) und Lernen wird die Rate für eine Mini-Charge definiert. Am Anfang würde es viele Ausreißer geben, und während der Rückübertragung müssen diese Ausreißer kompensiert werden, um die Gewichte zu berechnen, die ausgegeben werden sollen. Diese Kompensation führt zu zusätzlichen Epochen. Um dies zu vermeiden, verwenden wir die Batch-Normalisierung.

5. Aussteigen

Beim tiefen Lernen stoßen wir im Allgemeinen auf das Problem der Überanpassung. Eine Überanpassung in großen Netzwerken mit mehreren Parametern erschwert die Vorhersage von Testdaten. Um dies zu vermeiden, verwenden wir die Dropout-Methode, bei der zufällige Einheiten während des Trainings gelöscht werden, indem verschiedene "verdünnte Netzwerke" erstellt werden. Beim Testen dieser ausgedünnten Netzwerke werden die Vorhersagen gemittelt, um eine Überanpassung zu vermeiden.

6. Tasche der Wörter

Wir verwenden eine fortlaufende Wortmenge, um das nächste Wort vorherzusagen. Zum Beispiel sehen wir in E-Mails, dass die Autosuggestion zur Vervollständigung des Satzes Teil von NLP ist. Dies geschieht durch Berücksichtigung vieler Sätze und für ein bestimmtes Wort, das Wörter umgibt, die erfasst werden. Diese spezifischen Wörter und umgebenden Wörter werden dem neuronalen Netz zugeführt. Nach dem Trainingsmodell kann es das spezifische Wort basierend auf den umgebenden Wörtern vorhersagen.

7. Langes Kurzzeitgedächtnis

LSTM ist sehr nützlich bei Problemen mit der Sequenzvorhersage wie der Sprachübersetzung, der Umsatzvorhersage und der Ermittlung des Aktienkurses. LSTM hat Vorteile gegenüber anderen Techniken, da es in der Lage ist, vorherige Daten zu berücksichtigen. LSTM modifiziert nach dem Mechanismus der Zellzustände. Es erinnert sich, Dinge zu vergessen. Die 3 Hauptaspekte von LSTM heben es von anderen Deep-Learning-Techniken ab. Erstens, wenn das Neuron Eingaben haben soll, zweitens, wenn es sich an frühere Daten erinnert und was es zu vergessen gilt, und drittens, wenn es Ausgaben weitergibt.

Fazit

Ein Deep-Learning-Modell ist ein Schritt in Richtung Replikation des menschlichen Geistes. Anstelle von biologischen Neuronen wird beim Tiefenlernen ein künstliches neuronales Netzwerk verwendet. Deep Learning hat hohe Rechenkosten, die durch die Verwendung von Deep-Learning-Frameworks wie Tensor Flow und Py-Torch usw. gesenkt werden können. RNN, CNN sind Architekturmethoden für Deep-Learning-Modelle. In diesem Artikel werden verschiedene Deep-Learning-Algorithmen erläutert, die in diesen Architekturen verwendet werden.

Empfohlene Artikel

Dies ist eine Anleitung zu Deep Learning-Algorithmen. Hier diskutieren wir die Architekturmethoden für Deep Learning-Algorithmen zusammen mit Ebenen. Sie können auch unsere anderen Artikelvorschläge durchgehen, um mehr zu erfahren -

  1. Einführung in maschinelle Lernalgorithmen
  2. Top 14 Anwendungen des maschinellen Lernens
  3. Künstliche Intelligenz vs Maschinelles Lernen vs Deep Learning
  4. Top 13 Nützliche Deep Learning Interview Fragen und Antworten