it-swarm.com.de

PySpark 2.0 Die Größe oder Form eines DataFrame

Ich versuche, die Größe/Form eines DataFrame in PySpark herauszufinden. Ich sehe keine einzige Funktion, die dies kann.

In Python kann ich das machen

data.shape()

Gibt es eine ähnliche Funktion in PySpark? Dies ist meine aktuelle Lösung, aber ich suche nach einem Element

row_number = data.count()
column_number = len(data.dtypes)

Die Berechnung der Spaltenanzahl ist nicht ideal ...

31
Xi Liang
print((df.count(), len(df.columns)))
35
George Fisher

Verwenden Sie df.count(), um die Anzahl der Zeilen abzurufen. 

25
Learner

Fügen Sie dies Ihrem Code hinzu:

def spark_shape(self):
    return (self.count(), len(self.columns))
pyspark.sql.dataframe.DataFrame.shape = spark_shape

Dann kannst du es tun

>>> df.shape()
(10000, 10)

Denken Sie jedoch daran, dass .count() für sehr große Datensätze sehr langsam sein kann.

1
Louis Yang

Ich denke, es gibt keine ähnliche Funktion wie data.shape in Spark. Ich werde jedoch len(data.columns) anstelle von len(data.dtypes) verwenden.

1
Y.C.