it-swarm.com.de

Welche wählen Sie für Apache Oozie oder Apache Airflow? Brauche einen Vergleich

Ich bin neu bei Job Schedulers und habe nach einem Job gesucht, der Jobs auf Big Data Clustern ausführt. Ich war ziemlich verwirrt mit den verfügbaren Entscheidungen. Es wurde festgestellt, dass Oozie im Vergleich zu den bereits vorhandenen Einschränkungen wie TWS, Autosys usw. viele Einschränkungen aufweist.

Benötigen Sie einige Vergleichspunkte für Oozie vs. Airflow.

Schätze deine Hilfe.

16
Vishal786btc

Nach meiner Erfahrung ist Airflow derzeit die beste Datenpipeline. Es eignet sich am besten für die Verwaltung komplexer, lang laufender Workflows. Benutzeroberfläche und Modularität sind übertrieben.

Luftstrom

  • + Python Code für DAGs
  • + Verfügt über Konnektoren für alle wichtigen Service-/Cloud-Anbieter
  • + Vielseitiger
  • + Erweiterte Metriken
  • + Bessere Benutzeroberfläche und API
  • + Kann extrem komplexe Workflows erstellen
  • + Jinja Templating
  • + Kann als Orchestrator für das Tensorflow Extended-Ökosystem verwendet werden
  • = Kann parallelisiert werden
  • = Native Verbindungen zu HDFS, Hive, PIG etc ..
  • = Grafik als DAG

Oozie

  • --- Java oder XML für DAGs
  • - Schwierig, komplexe Pipelines zu bauen
  • - kleinere, weniger aktive Community
  • - schlechtere WEB GUI
  • - Java API
  • = Kann parallelisiert werden
  • = Native Verbindungen zu HDFS, Hive, PIG etc ..
  • = Grafik als DAG

Wie Sie sehen, ist Airflow eine einfachere, vielseitigere und leistungsstärkere Option als Oozie (insbesondere in großen Heterogenoeus-Teams).

Wie gesagt: geh mit Airflow.

Artikel, den du vielleicht interessant findest