it-swarm.com.de

Kann Apache Spark ohne Hadoop laufen?

Gibt es Abhängigkeiten zwischenSparkundHadoop?

Wenn nicht, gibt es Funktionen, die ich vermisse, wenn ichSparkohneHadooplaufe?

63
tourist

Spark kann ohne Hadoop ausgeführt werden, einige Funktionen sind jedoch auf den Code von Hadoop angewiesen (z. B. Behandlung von Parkettdateien). Wir verwenden Spark für Mesos und S3, was ein wenig kompliziert einzurichten war, aber es funktioniert wirklich gut, wenn Sie fertig sind (Sie können eine Zusammenfassung dessen lesen, was erforderlich ist, um es richtig einzustellen hier ). 

33

Spark ist eine verteilte In-Memory-Computing-Engine.

Hadoop ist ein Framework für verteilte Speicherung (HDFS) und verteilte Verarbeitung (ARN).

Spark kann mit oder ohne Hadoop-Komponenten (HDFS/YARN) laufen)


Verteilter Speicher:

Da Spark über kein eigenes verteiltes Speichersystem verfügt, muss es sich bei einem verteilten Computing auf eines dieser Speichersysteme verlassen. 

S3 - Nicht dringende Stapeljobs. S3 eignet sich für sehr spezifische Anwendungsfälle, bei denen die Datenlokalität nicht kritisch ist.

Cassandra - Perfekt für die Streaming-Datenanalyse und einen Overkill für Stapeljobs.

HDFS - Sehr gut geeignet für Stapeljobs ohne Kompromisse bei der Datenlokalität.


Verteilte Verarbeitung:

Sie können Spark in drei verschiedenen Modi ausführen: Standalone, YARN und Mesos

In der folgenden SE-Frage finden Sie detaillierte Informationen zu verteilter Speicherung und verteilter Verarbeitung. 

Welchen Clustertyp sollte ich für Spark wählen?

71
Ravindra babu

Standardmäßig verfügt Spark nicht über einen Speichermechanismus. 

Um Daten zu speichern, ist ein schnelles und skalierbares Dateisystem erforderlich. Sie können S3 oder HDFS oder ein anderes Dateisystem verwenden. Hadoop ist aufgrund der geringen Kosten eine kostengünstige Option. 

Wenn Sie Tachyon verwenden, erhöht dies zusätzlich die Leistung mit Hadoop. Es wird dringend empfohlen, Hadoop für Apache spark processing . zu verwenden. enter image description here

20
Venu A Positive

Ja, der Funke kann ohne hadoop laufen. Alle Kernfunkenfunktionen werden weiterhin funktionieren, aber Sie werden Dinge wie das einfache Verteilen aller Dateien (Code sowie Daten) an alle Knoten im Cluster über HDFS usw. verpassen.

4
quantum_random

Ja, Sie können den Spark ohne den Hadoop installieren Das wäre etwas schwierig Sie können einen Link verwenden, um Parkett zu verwenden, um ihn auf S3 als Datenspeicher zu konfigurieren http://arnon.me/2015/08/funkenparkett-s3/

Spark führt nur die Verarbeitung durch und verwendet dynamischen Speicher, um die Aufgabe auszuführen, aber um die Daten zu speichern, benötigen Sie ein Datenspeichersystem. Hier hatte hadoop die Rolle von Spark übernommen, es stellt den Speicher für Spark bereit. Ein weiterer Grund für die Verwendung von Hadoop mit Spark ist, dass sie Open Source sind und beide sich problemlos miteinander integrieren lassen, verglichen mit anderen Datenspeichersystemen. Für andere Speicher wie S3 sollte es schwierig sein, ihn wie oben erwähnt zu konfigurieren.

Hadoop hat jedoch auch eine Verarbeitungseinheit namens Mapreduce.

Willst du den Unterschied in beiden wissen?

Überprüfen Sie diesen Artikel: https://www.dezyre.com/article/hadoop-mapreduce-vs-Apache-spark-who-wins-the-battle/83

Ich denke, dieser Artikel wird Ihnen helfen zu verstehen 

  • was zu benutzen,

  • wann man und benutzt 

  • wie benutzt man !!!

3
Abhijit Kumar

Gemäß der Spark-Dokumentation kann Spark ohne Hadoop ausgeführt werden.

Sie können es als Standalone-Modus ohne Ressourcenmanager ausführen.

Wenn Sie jedoch mit mehreren Knoten arbeiten möchten, benötigen Sie einen Ressourcenmanager wie YARN oder Mesos und ein verteiltes Dateisystem wie HDFS, S3 usw.

2
user2359003

Ja bitte. Spark ist ein unabhängiges Berechnungssystem. Hadoop ist ein Distributionsspeichersystem (HDFS) mit MapReduce-Berechnungsframework. Spark kann Daten von HDFS sowie von jeder anderen Datenquelle wie JDBC (Traditional Database), Kafka oder sogar lokaler Festplatte abrufen.

1
ssnijik

Ja, Spark kann mit oder ohne Hadoop-Installation ausgeführt werden. Weitere Informationen finden Sie unter - https://spark.Apache.org/docs/latest/

0
Hadoop_Expert