it-swarm.com.de

Wie bekomme ich Schema-/Spaltennamen aus der Parkettdatei?

Ich habe eine Datei in HDFS als part-m-00000.gz.parquet gespeichert.

Ich habe versucht, hdfs dfs -text dir/part-m-00000.gz.parquet auszuführen, aber es ist komprimiert, also habe ich gunzip part-m-00000.gz.parquet ausgeführt, aber die Datei wird nicht dekomprimiert, da die Erweiterung .parquet nicht erkannt wird. 

Wie erhalte ich die Schema-/Spaltennamen für diese Datei?

12
Super_John

Sie können die Datei nicht mit einem hdfs-dfs -text "öffnen", da sie keine Textdatei ist. Parkettdateien werden im Vergleich zu Textdateien sehr unterschiedlich auf die Festplatte geschrieben.

Das Parquet-Projekt stellt für die gleiche Angelegenheit Parkett-Tools zur Verfügung, mit denen Sie Ihre Aufgaben erledigen können. Öffnen Sie und sehen Sie das Schema, die Daten, Metadaten usw.

Schauen Sie sich das Parkett-Tool-Projekt an (das einfach eine JAR-Datei ist) Parkett-Tools

Auch Cloudera, das Parkett stark unterstützt und stark beiträgt, hat auch eine Nizza-Seite mit Beispielen zur Verwendung von Parkettwerkzeugen. Ein Beispiel von dieser Seite für Ihren Anwendungsfall ist

parquet-tools schema part-m-00000.parquet

Überprüfen Sie die Cloudera-Seite. Verwenden des Parkett-Dateiformats mit Impala, Bienenstock, Schwein, HBase und MapReduce

19

Wenn sich Ihre Parkettdateien in HDFS oder S3 wie ich befinden, können Sie Folgendes versuchen:

HDFS

parquet-tools schema hdfs://<YOUR_NAME_NODE_IP>:8020/<YOUR_FILE_PATH>/<YOUR_FILE>.parquet

S3

parquet-tools schema s3://<YOUR_BUCKET_PATH>/<YOUR_FILE>.parquet

Ich hoffe es hilft.

3
pdm

Da es sich nicht um eine Textdatei handelt, können Sie keinen "-text" für sie erstellen. Sie können sie problemlos über Hive lesen, auch wenn Sie die Parkett-Tools nicht installiert haben, wenn Sie diese Datei in eine Hive laden können Tabelle.

0
Daya Venkatesan