Einführung in Hadoop Scheduler

Wenn wir über Hadoop sprechen, sind die Big Data das erste, was uns in den Sinn kommt. Aber haben wir uns jemals gefragt, ob Hadoop an sich nicht nur eine Technologie ist, sondern viele Tools und Techniken beinhaltet, wie genau wir in der Lage sind, das zu erreichen, was mit Hadoop automatisch beabsichtigt ist. Die Antwort auf diese Frage erfolgt mithilfe von Hadoop-Schedulern.

Es ermöglicht einen hohen Verarbeitungsgrad des Systems und wird auch als Allzwecksystem bezeichnet, das auf die Verteilungsebene eines Daten- und Informationssatzes einwirkt. Es ist ein Multitasking-System, mit dem mehrere Datensätze für viele Benutzer und Jobs gleichzeitig verarbeitet werden. Früher wurde nur ein Scheduler für alle Tasks verwendet, jetzt werden Hadoop-Scheduler zusammen mit der JobTracker-Logik verwendet und auch von Hadoop unterstützt.

Top 4 Hadoop Scheduler-Typen

Es gibt verschiedene Arten von Hadoop-Schedulern, die wir häufig verwenden:

1. Hadoop First in First out Scheduler

  • Wie der Name schon sagt, ist dies einer der ältesten Job Scheduler, der nach dem Prinzip des First-In und First-Out arbeitet. Wenn wir über den Prozess wie den von JobTracker sprechen, geht es im Grunde darum, Jobs aus der Warteschlange zu ziehen, die oft als Arbeitswarteschlange bezeichnet wird.
  • Entsprechend dieser Warteschlange wird der Job, der der älteste ist, dh derjenige, der der erste war, derjenige sein, der auch der erste ist, der ausgeführt wird.
  • Es wurde immer davon ausgegangen, dass dies ein viel einfacherer Ansatz ist als andere Planungstechniken, und daher wurde nicht viel darüber nachgedacht, diese Technik nur zu schaben, um neuere Ansätze mit besseren Planungsfähigkeiten zu finden, da sie auch Konzepte zur Größenbestimmung und Priorität des Auftrags enthielten.

2. Hadoop Capacity Scheduler

  • Der Hadoop Capacity Scheduler ähnelt mehr oder weniger dem FIFO-Ansatz, nutzt jedoch auch die Priorisierung des Jobs. Dieser Ansatz ist etwas anders, wenn wir über die Multi-User-Ebene der Terminplanung sprechen.
  • Es ist bekannt, dass dieser einen separaten MapReduce-Cluster für jede Organisation oder jeden Benutzer plant und simuliert und dies zusammen mit dem FIFO-Zeitplantyp erfolgt.

3. Hadoop Fair Type Scheduler

  • Wenn eine separate und angemessene Menge an Cluster-Kapazität mit Zeit und Zeitraum bereitgestellt werden muss, verwenden wir den Hadoop Fair Scheduler. Es ist hilfreich, um alle Cluster abzurufen, auch wenn ein bestimmter Job ausgeführt wird.
  • Darüber hinaus werden alle freien Slots des Clusters für alle Jobs auf eine Weise bereitgestellt, dass jeder Benutzer einen normalisierten Anteil seines Clusterteils erhält, wenn die Übermittlung von mehr Jobs nützlich wird.
  • Wenn es einen Pool gibt, der seinen Teil des fairen Anteils noch nicht erhalten hat, und einen normalisierten Anteil für einen angemessenen Zeitraum, dann kommt die Vorrangstellung ins Spiel, wodurch alle gepoolten Aufgaben getötet werden und die Kapazität zur Bereitstellung dieses Pools zur Verfügung steht Slots laufen unter der Kapazität.
  • Darüber hinaus ist dies auch als Contrib-Modul bekannt. Dies bedeutet, dass durch Kopieren des auf Control und Fair Scheduler basierenden Verzeichnisses von Hadoop in das lib-basierte Verzeichnis und Platzieren der JAR-Datei an der entsprechenden Position diese Planungstechnik aktiviert werden kann. Das einzige, was getan werden muss, ist das Einrichten der Eigenschaft des Task-Schedulers auf mapred.FairScheduler.

4. Andere Herangehensweisen an Scheduler

  • Hadoop stellt die Bereitstellung virtueller Cluster sicher, sodass der Bedarf an physischen tatsächlichen Clustern minimiert werden kann. Diese Technik wird als HOD (Hadoop on Demand) bezeichnet.
  • Es verwendet den auf Drehmoment basierenden Ressourcenmanager, um die Knoten und deren Zuordnung gemäß den Anforderungen des virtuellen Clusters aufrecht zu erhalten.
  • Es wird verwendet, um die Last und das System zu initialisieren, die auf den bestimmten Knoten innerhalb des virtuellen und nicht physischen Clusters und auch zusammen mit den zugewiesenen Knoten basieren, sobald die Konfigurationsdateien automatisch vorbereitet wurden.
  • Der HOD-Cluster könnte nach erfolgter Initialisierung auch vergleichsweise selbständig genutzt werden. Kurz gesagt, ein Kurzmodell, das für die Bereitstellung dieser großen Hadoop-Cluster verwendet wird, befindet sich in der Cloud-Infrastruktur und wird als HOD bezeichnet. Es teilt sich im Vergleich eine geringere Anzahl von Knoten und bietet daher ein höheres Maß an Sicherheit.

Wichtigkeit der Verwendung von Hadoop-Schedulern

  1. Anhand der Hadoop Scheduler-Typen sollte klar sein, wo die Bedeutung der Verwendung dieser Hadoop Scheduler liegt. Wenn Sie einen großen Cluster mit unterschiedlichen Auftragstypen, unterschiedlichen Prioritäten und Größen zusammen mit mehreren Clients ausführen, sollten Sie die richtige Art von Hadoop-Scheduler auswählen, um wichtig zu werden.
  2. Dies ist wichtig, da durch eine effiziente Priorisierung der Jobs in den Warteschlangen der garantierte Zugriff auf das nicht genutzte Kapazitätsniveau und eine optimale Auslastung der Ressourcen sichergestellt wird. Obwohl dieser Teil der Hadoop-Scheduler vergleichsweise einfach ist, ist die Verwendung von Fair-Schedulern meist die richtige Wahl, wenn es einen Unterschied zwischen der Anzahl und den Typen von Clustern gibt, die in einer einzelnen Organisation ausgeführt werden.
  3. Dieser Messeplaner kann weiterhin zur Bereitstellung und ungleichmäßigen Verteilung der Job-Pool-Kapazität verwendet werden und ist viel einfacher und konfigurierbarer. Der Messeplaner kommt uns auch zu Hilfe, wenn wir über das Vorhandensein diversifizierter Arten von Aufträgen sprechen, da er verwendet werden kann, um höhere Reaktionszeiten für vergleichsweise kleinere Aufträge bereitzustellen, die mit den größeren Arten von Aufträgen gemischt werden, und die Unterstützung für diese ist in enthalten die interaktive Verwendung von Modellen.
  4. Kapazitätsplaner sind hilfreich, wenn Sie sich mehr um die Warteschlangen anstatt um die Ebene der erstellten Pools kümmern und auch die konfigurierbare Ebene der Zuordnung und die Reduzierung der Jobtyp-Slots verfügbar sind und die Warteschlange es sich leisten kann, eine garantierte Kapazität des Clusters zu erhalten.

Fazit

In diesem Beitrag lesen wir über die Hadoop-Scheduler, ihre Bedeutung, Einführung, Typen von Hadoop-Schedulern, ihre Funktionen und auch über die Bedeutung dieser Hadoop-Scheduler. Wenn es um das Big-Data-Ökosystem und die Umgebung geht, werden Hadoop-Scheduler oft nicht erwähnt, haben aber höchste Bedeutung und können nicht als solche betrachtet werden. Ich hoffe, Ihnen hat unser Artikel gefallen.

Empfohlene Artikel

Dies ist eine Anleitung zu Hadoop Schedulers. Hier besprechen wir die Einführung und die vier wichtigsten Arten von Hadoop-Schedulern mit der Wichtigkeit, sie zu verwenden. Sie können sich auch die folgenden Artikel ansehen, um mehr zu erfahren.

  1. Swing-Komponenten in Java
  2. JTabbedPane in Java
  3. Geschütztes Schlüsselwort in Java
  4. JTextArea in Java

Kategorie: