10 Essential Data Analytics-Interviewfragen (Aktualisiert für 2019)

Inhaltsverzeichnis:

Anonim

Einführung in Data Analytics Interview Fragen und Antworten

Sie haben also endlich Ihren Traumjob in Data Analytics gefunden und fragen sich, wie Sie das Data Analytics-Interview 2019 knacken können und welche Fragen möglicherweise zu Data Analytics-Vorstellungsgesprächen vorliegen. Jedes Data Analytics-Interview ist anders und der Umfang eines Jobs ist auch anders. In Anbetracht dessen haben wir die häufigsten Fragen und Antworten für Data Analytics-Vorstellungsgespräche zusammengestellt, um Ihnen den Erfolg Ihres Data Analytics-Vorstellungsgesprächs zu erleichtern.

Nachstehend finden Sie die wichtigsten Fragen zu Data Analytics für 2019, die in einem Interview am häufigsten gestellt werden

1. Was ist der Unterschied zwischen Data Mining und Datenanalyse?

Antworten:

Data MiningDatenanalyse
Für Data Mining ist keine Hypothese erforderlichDie Datenanalyse beginnt mit einer Hypothese.
Data Mining erfordert saubere und gut dokumentierte Daten.Datenanalyse beinhaltet Datenbereinigung.
Die Ergebnisse des Data Mining sind nicht immer leicht zu interpretieren.Datenanalysten interpretieren die Ergebnisse und präsentieren sie den Stakeholdern.
Data Mining-Algorithmen entwickeln automatisch Gleichungen.Datenanalysten müssen ihre eigenen Gleichungen entwickeln.

2. Nennen Sie die verschiedenen Schritte in einem Analyseprojekt.

Antworten:
Die Datenanalyse beschäftigt sich mit dem Sammeln, Bereinigen, Transformieren und Modellieren von Daten, um wertvolle Erkenntnisse zu gewinnen und eine bessere Entscheidungsfindung in einem Unternehmen zu unterstützen. Der Datenanalyseprozess umfasst die folgenden Schritte:

Datenexploration - Nachdem ein Datenanalyst das Geschäftsproblem untersucht hat, muss er die Grundursache des Problems analysieren.
Datenvorbereitung - In diesem Schritt des Datenanalyseprozesses finden wir Datenanomalien wie fehlende Werte in den Daten.
Datenmodellierung - Der Modellierungsschritt beginnt, nachdem die Daten vorbereitet wurden. Die Modellierung ist ein iterativer Prozess, bei dem das Modell zur Verbesserung wiederholt ausgeführt wird. Die Datenmodellierung stellt sicher, dass das bestmögliche Ergebnis für ein Geschäftsproblem erzielt wird.
Validierung - In diesem Schritt werden das vom Kunden bereitgestellte Modell und das vom Datenanalysten entwickelte Modell gegeneinander validiert, um festzustellen, ob das entwickelte Modell die Geschäftsanforderungen erfüllt.
Implementierung des Modells und Nachverfolgung - In diesem letzten Schritt der Datenanalyse wird die Implementierung des Modells durchgeführt und anschließend wird die Nachverfolgung durchgeführt, um sicherzustellen, dass das Modell korrekt implementiert ist oder nicht?

3.Was liegt in der Verantwortung eines Datenanalysten?

Antworten:
• Beheben Sie geschäftsbezogene Probleme für Kunden und führen Sie Datenprüfungsvorgänge durch.
• Interpretieren Sie Daten mithilfe statistischer Techniken.
• Identifizieren Sie Bereiche für Verbesserungsmöglichkeiten.
• Analysieren, identifizieren und interpretieren Sie Trends oder Muster in komplexen Datensätzen.
• Erfassen Sie Daten aus primären oder sekundären Datenquellen.
• Pflege von Datenbanken / Datensystemen.
• Lokalisieren und korrigieren Sie Codeprobleme mithilfe von Leistungsindikatoren.
• Sichern der Datenbank durch Entwicklung eines Zugriffssystems.

4.Was sind Hash-Tabellen-Kollisionen? Wie wird es vermieden?

Antworten:
Eine Hash-Tabellen-Kollision tritt auf, wenn zwei verschiedene Schlüssel auf den gleichen Wert gehasht werden. Es gibt viele Techniken, um Hash-Tabellen-Kollisionen zu vermeiden. Hier sind zwei aufgeführt:
Separate Verkettung: Es wird die Datenstruktur verwendet, die auf denselben Steckplatz gehasht wird, um mehrere Elemente zu speichern.
Offene Adressierung: Sucht mit einer zweiten Funktion nach anderen Slots und speichert Artikel im ersten leeren Slot.

5. Liste der besten Tools, die für die Datenanalyse nützlich sein können?

Antworten:
• Tableau
• RapidMiner
• OpenRefine
• KNIME
• Google-Suchoperatoren
•Löser
• NodeXL
• io
• Wolfram Alpha's
• Google Fusion Tables

6.Was ist der Unterschied zwischen Data Mining und Datenprofilerstellung?

Antworten:
Der Unterschied zwischen Data Mining und Data Profiling ist wie folgt:
• Datenprofilerstellung: Sie zielt auf die sofortige Analyse einzelner Attribute ab, z. B. Preisschwankungen, unterschiedliche Preise und deren Häufigkeit, Häufigkeit von Nullwerten, Datentyp, Länge usw.
• Data Mining: Es konzentriert sich auf Abhängigkeiten, Sequenzerkennung, Beziehung zwischen mehreren Attributen, Clusteranalyse, Erkennung ungewöhnlicher Datensätze usw.

7. Erklären Sie K-Mean-Algorithmus und hierarchischen Clustering-Algorithmus?

Antworten:
K-Mean-Algorithmus - K mean ist eine bekannte Partitionierungsmethode. Im K-Mean-Algorithmus sind die Cluster kugelförmig, dh die Datenpunkte in einem Cluster sind auf diesen Cluster zentriert. Auch die Varianz der Cluster ist ähnlich, dh jeder Datenpunkt gehört zum nächsten Cluster
Hierarchischer Clustering-Algorithmus - Der hierarchische Clustering-Algorithmus kombiniert und unterteilt vorhandene Gruppen und erstellt eine hierarchische Struktur, um die Reihenfolge anzuzeigen, in der die Gruppen unterteilt sind.

8.Was ist Datenbereinigung? Erwähnen Sie einige bewährte Methoden, die Sie bei der Datenbereinigung befolgen müssen?

Antworten:
Ausgehend von einem bestimmten Datensatz ist es äußerst wichtig, die für die Datenanalyse erforderlichen Informationen zu sortieren. Die Datenbereinigung ist ein entscheidender Schritt, bei dem Daten auf Anomalien überprüft, sich wiederholende und falsche Informationen entfernt usw. Bei der Datenbereinigung werden keine vorhandenen Informationen aus der Datenbank entfernt. Sie verbessert lediglich die Datenqualität, sodass sie für die Analyse verwendet werden können .
Zu den Best Practices für die Datenbereinigung gehören:
• Entwickeln eines Datenqualitätsplans, um festzustellen, wo Fehler mit maximaler Datenqualität auftreten, damit Sie die Grundursache abschätzen und entsprechend planen können.
• Befolgen Sie eine übliche Methode, um die erforderlichen Informationen zu konkretisieren, bevor sie in die Informationen eingegeben werden.
• Identifizieren Sie doppelte Daten und überprüfen Sie die Richtigkeit der Daten, da dies während der Analyse viel Zeit spart.
• Es ist unglaublich wichtig, alle an den Informationen durchgeführten Verbesserungsvorgänge nachzuverfolgen, damit Sie Vorgänge nach Bedarf wiederholen oder entfernen können.

9.Welche statistischen Methoden sind für Datenanalysten nützlich?

Antworten:
Statistische Methoden, die für Datenwissenschaftler nützlich sind, sind
• Bayes'sche Methode
• Markov-Prozess
• Raum- und Clusterprozesse
• Rangstatistik, Perzentil, Ausreißererkennung
• Imputationstechniken usw.
• Simplex-Algorithmus
• Mathematische Optimierung

10. Erklären Sie, was Unterstellung ist. Verschiedene Arten von Imputationstechniken auflisten? Welche Anrechnungsmethode ist günstiger?

Antworten:
Während der Imputation besteht die Tendenz, fehlende Informationen durch ersetzte Werte zu ersetzen. Die Arten von Imputationstechniken umfassen:
• Einzelne Imputation: Einzelne Imputation bedeutet, dass der fehlende Wert durch einen Wert ersetzt wird. Bei dieser Methode wird der Stichprobenumfang ermittelt.
• Hot-Deck-Imputation: Ein fehlender Wert wird mithilfe einer Lochkarte aus einem zufällig ausgewählten ähnlichen Datensatz imputiert
• Cold-Deck-Imputation: Funktioniert wie die Hot-Deck-Imputation, ist jedoch etwas fortgeschrittener und wählt Spender aus anderen Datensätzen aus
• Mittlere Imputation: Hierbei werden fehlende Werte durch die vorhergesagten Werte anderer Variablen ersetzt.
• Regressionsimputation: Hierbei wird der fehlende Wert in Abhängigkeit von anderen Variablen durch die vorhergesagten Werte eines bestimmten Werts ersetzt.
• Stochastische Regression: Entspricht der Regressionsimputation, fügt jedoch der Regressionsimputation die übliche Regressionsvarianz hinzu
• Multiple Imputation: Im Gegensatz zur einfachen Imputation werden bei multiplen Imputationen die Werte mehrfach geschätzt

Obwohl die Einzelimputation weit verbreitet ist, spiegelt sie nicht die Unsicherheit wider, die durch das zufällige Fehlen von Daten entsteht. Daher sind Mehrfachzuschreibungen günstiger als Einzelzuschreibungen, wenn Daten zufällig fehlen.

Empfohlene Artikel

Dies ist ein umfassender Leitfaden für die Fragen und Antworten zu Data Analytics-Vorstellungsgesprächen, damit der Kandidat diese Fragen zu Data Analytics-Vorstellungsgesprächen problemlos durchgreifen kann. Sie können sich auch die folgenden Artikel ansehen, um mehr zu erfahren -

  1. 10 nützliche Fragen und Antworten zu agilen Interviews
  2. 8 Awesome Algorithm Interview Fragen
  3. 25 Die wichtigsten Fragen zum Thema Informatik
  4. 10 Amazing Data Engineer Interview Fragen und Antworten