Jak usunąć kolumny w ramce danych pyspark

Question 1

>>> a
DataFrame[id: bigint, julian_date: string, user_id: bigint]
>>> b
DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint]
>>> a.join(b, a.id==b.id, 'outer')
DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint]

Są dwa id: biginti chcę usunąć jeden. Jak mam to zrobić?

Question 2

Czytając dokumentację Sparka znalazłem łatwiejsze rozwiązanie.

Od wersji 1.4 Spark istnieje funkcja, drop(col)której można użyć w pysparku na ramce danych.

Możesz go używać na dwa sposoby

df.drop('age').collect()
df.drop(df.age).collect()

Dokumentacja Pyspark - Drop

Question 3

Dodając do odpowiedzi @ Patricka, możesz użyć poniższego, aby upuścić wiele kolumn

columns_to_drop = ['id', 'id_copy']
df = df.drop(*columns_to_drop)

Question 4

Łatwym sposobem, aby to zrobić, to użytkownik „ select” i uświadomić sobie, można uzyskać listę wszystkich columnsdla dataframe, dfzdf.columns

drop_list = ['a column', 'another column', ...]

df.select([column for column in df.columns if column not in drop_list])

Question 5

Możesz jawnie nazwać kolumny, które chcesz zachować, na przykład:

keep = [a.id, a.julian_date, a.user_id, b.quan_created_money, b.quan_created_cnt]

Lub w bardziej ogólnym podejściu uwzględnisz wszystkie kolumny z wyjątkiem konkretnej za pomocą rozumienia listy. Na przykład w ten sposób (z wyłączeniem idkolumny z b):

keep = [a[c] for c in a.columns] + [b[c] for c in b.columns if c != 'id']

Na koniec dokonujesz wyboru wyniku dołączenia:

d = a.join(b, a.id==b.id, 'outer').select(*keep)

Question 6

Możesz użyć dwóch sposobów:

1: Po prostu zachowaj niezbędne kolumny:

drop_column_list = ["drop_column"]
df = df.select([column for column in df.columns if column not in drop_column_list])

2: To jest bardziej elegancki sposób.

df = df.drop("col_name")

Powinieneś unikać wersji collect (), ponieważ wyśle ona do mastera kompletny zestaw danych, będzie to wymagało dużego wysiłku obliczeniowego!

Question 7

Może trochę poza tematem, ale oto rozwiązanie wykorzystujące Scala. Utwórz Arrayz nazw kolumn ze swojego oldDataFramei usuń kolumny, które chcesz usunąć ("colExclude"). Następnie przekaż Array[Column]go selecti rozpakuj.

val columnsToKeep: Array[Column] = oldDataFrame.columns.diff(Array("colExclude"))
                                               .map(x => oldDataFrame.col(x))
val newDataFrame: DataFrame = oldDataFrame.select(columnsToKeep: _*)

Question 8

Rozważ 2 ramki dataFrames:

>>> aDF.show()
+---+----+
| id|datA|
+---+----+
|  1|  a1|
|  2|  a2|
|  3|  a3|
+---+----+

i

>>> bDF.show()
+---+----+
| id|datB|
+---+----+
|  2|  b2|
|  3|  b3|
|  4|  b4|
+---+----+

Aby osiągnąć to, czego szukasz, istnieją 2 sposoby:

1. Różne warunki łączenia. Zamiast mówić aDF.id == bDF.id

aDF.join(bDF, aDF.id == bDF.id, "outer")

Napisz to:

aDF.join(bDF, "id", "outer").show()
+---+----+----+
| id|datA|datB|
+---+----+----+
|  1|  a1|null|
|  3|  a3|  b3|
|  2|  a2|  b2|
|  4|null|  b4|
+---+----+----+

To automatycznie pozbędzie się dodatkowego procesu upuszczania.

2. Użyj aliasingu: w tym przypadku utracisz dane związane z określonymi identyfikatorami B.

>>> from pyspark.sql.functions import col
>>> aDF.alias("a").join(bDF.alias("b"), aDF.id == bDF.id, "outer").drop(col("b.id")).show()

+----+----+----+
|  id|datA|datB|
+----+----+----+
|   1|  a1|null|
|   3|  a3|  b3|
|   2|  a2|  b2|
|null|null|  b4|
+----+----+----+

Question 9

Możesz usunąć kolumnę w ten sposób:

df.drop("column Name).columns

W Twoim przypadku :

df.drop("id").columns

Jeśli chcesz upuścić więcej niż jedną kolumnę, możesz zrobić:

dfWithLongColName.drop("ORIGIN_COUNTRY_NAME", "DEST_COUNTRY_NAME")

Answer 1

>>> a
DataFrame[id: bigint, julian_date: string, user_id: bigint]
>>> b
DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint]
>>> a.join(b, a.id==b.id, 'outer')
DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint]

Są dwa id: biginti chcę usunąć jeden. Jak mam to zrobić?

Answer 2

122

Czytając dokumentację Sparka znalazłem łatwiejsze rozwiązanie.

Od wersji 1.4 Spark istnieje funkcja, drop(col)której można użyć w pysparku na ramce danych.

Możesz go używać na dwa sposoby

df.drop('age').collect()
df.drop(df.age).collect()

Dokumentacja Pyspark - Drop

Patrick C.
źródło

26

gdy rozmiar danych jest duży, metoda collect () może powodować błąd miejsca na sterty. możesz również utworzyć nową ramkę danych, upuszczając dodatkowe pole przezndf = df.drop('age')

mnis.p

1

To naprawdę powinna być pierwsza odpowiedź

vishalv2050

Answer 3

26

gdy rozmiar danych jest duży, metoda collect () może powodować błąd miejsca na sterty. możesz również utworzyć nową ramkę danych, upuszczając dodatkowe pole przezndf = df.drop('age')

mnis.p

Answer 4

1

To naprawdę powinna być pierwsza odpowiedź

vishalv2050

Answer 5

97

Dodając do odpowiedzi @ Patricka, możesz użyć poniższego, aby upuścić wiele kolumn

columns_to_drop = ['id', 'id_copy']
df = df.drop(*columns_to_drop)

Clock Slave
źródło

4

Musiałem ponownie przypisać wyniki upuszczania z powrotem do ramki danych: df = df.drop (* columns_to_drop)

avgbody

1

Zauważ, że nie otrzymasz błędu, jeśli kolumna nie istnieje

Guido

TreeNodeException: Binding attribute, tree: _gen_alias_34#34Po upuszczeniu kolumny pojawia się błąd i używam.show()

frlzjosh

Answer 6

4

Musiałem ponownie przypisać wyniki upuszczania z powrotem do ramki danych: df = df.drop (* columns_to_drop)

avgbody

Answer 7

1

Zauważ, że nie otrzymasz błędu, jeśli kolumna nie istnieje

Guido

Answer 8

TreeNodeException: Binding attribute, tree: _gen_alias_34#34Po upuszczeniu kolumny pojawia się błąd i używam.show()

frlzjosh

Answer 9

28

Łatwym sposobem, aby to zrobić, to użytkownik „ select” i uświadomić sobie, można uzyskać listę wszystkich columnsdla dataframe, dfzdf.columns

drop_list = ['a column', 'another column', ...]

df.select([column for column in df.columns if column not in drop_list])

ev.per.baryon
źródło

1

Dziękuję-ty, to działa świetnie dla mnie do usuwania zduplikowanych kolumny o tej samej nazwie, jak nazwa innej kolumnie, w której używam df.select([df.columns[column_num] for column_num in range(len(df.columns)) if column_num!=2]), gdzie kolumna Chcę usunąć posiada indeks 2.

Shane Halloran

Answer 10

1

Dziękuję-ty, to działa świetnie dla mnie do usuwania zduplikowanych kolumny o tej samej nazwie, jak nazwa innej kolumnie, w której używam df.select([df.columns[column_num] for column_num in range(len(df.columns)) if column_num!=2]), gdzie kolumna Chcę usunąć posiada indeks 2.

Shane Halloran

Answer 11

12

Możesz jawnie nazwać kolumny, które chcesz zachować, na przykład:

keep = [a.id, a.julian_date, a.user_id, b.quan_created_money, b.quan_created_cnt]

Lub w bardziej ogólnym podejściu uwzględnisz wszystkie kolumny z wyjątkiem konkretnej za pomocą rozumienia listy. Na przykład w ten sposób (z wyłączeniem idkolumny z b):

keep = [a[c] for c in a.columns] + [b[c] for c in b.columns if c != 'id']

Na koniec dokonujesz wyboru wyniku dołączenia:

d = a.join(b, a.id==b.id, 'outer').select(*keep)

karlson
źródło

Myślę, że mam odpowiedź. Wybierz, aby pobrać listę ciągów, a nie listę kolumn. Więc zrób to: keep = [c for c in a.columns] + [c for c in b.columns if c != 'id'] d = a.join(b, a.id==b.id, 'outer').select(*keep)

deusxmach1na

Cóż, powinno to zrobić dokładnie to samo, co moja odpowiedź, ponieważ jestem prawie pewien, że selectakceptuje ciągi znaków LUB kolumny ( spark.apache.org/docs/latest/api/python/ ... ). Przy okazji, w twoim wierszu keep = ...nie ma potrzeby używania wyrażenia listowego dla a: a.columns + [c for c in b.columns if c != 'id']powinno osiągnąć dokładnie to samo, co a.columnsjuż jest listze stringów.

karlson

@ deusxmach1na W rzeczywistości wybór kolumny oparty na łańcuchach nie może działać dla OP, ponieważ nie rozwiązałoby to niejednoznaczności idkolumny. W takim przypadku musisz użyć Columninstancji w select.

karlson

Wszystkie dobre strony. Wypróbowałem Twoje rozwiązanie w Spark 1.3 i otrzymałem błędy, więc to, co opublikowałem, faktycznie zadziałało. Aby rozwiązać niejednoznaczność id, zmieniłem nazwę mojej kolumny id przed złączeniem, a następnie porzuciłem ją po złączeniu, używając listy zachowania. HTH kogokolwiek innego, kto utknął tak jak ja.

deusxmach1na

Answer 12

Myślę, że mam odpowiedź. Wybierz, aby pobrać listę ciągów, a nie listę kolumn. Więc zrób to: keep = [c for c in a.columns] + [c for c in b.columns if c != 'id'] d = a.join(b, a.id==b.id, 'outer').select(*keep)

deusxmach1na

Answer 13

Cóż, powinno to zrobić dokładnie to samo, co moja odpowiedź, ponieważ jestem prawie pewien, że selectakceptuje ciągi znaków LUB kolumny ( spark.apache.org/docs/latest/api/python/ ... ). Przy okazji, w twoim wierszu keep = ...nie ma potrzeby używania wyrażenia listowego dla a: a.columns + [c for c in b.columns if c != 'id']powinno osiągnąć dokładnie to samo, co a.columnsjuż jest listze stringów.

karlson

Answer 14

@ deusxmach1na W rzeczywistości wybór kolumny oparty na łańcuchach nie może działać dla OP, ponieważ nie rozwiązałoby to niejednoznaczności idkolumny. W takim przypadku musisz użyć Columninstancji w select.

karlson

Answer 15

Wszystkie dobre strony. Wypróbowałem Twoje rozwiązanie w Spark 1.3 i otrzymałem błędy, więc to, co opublikowałem, faktycznie zadziałało. Aby rozwiązać niejednoznaczność id, zmieniłem nazwę mojej kolumny id przed złączeniem, a następnie porzuciłem ją po złączeniu, używając listy zachowania. HTH kogokolwiek innego, kto utknął tak jak ja.

deusxmach1na

Answer 16

Możesz użyć dwóch sposobów:

1: Po prostu zachowaj niezbędne kolumny:

drop_column_list = ["drop_column"]
df = df.select([column for column in df.columns if column not in drop_column_list])

2: To jest bardziej elegancki sposób.

df = df.drop("col_name")

Powinieneś unikać wersji collect (), ponieważ wyśle ona do mastera kompletny zestaw danych, będzie to wymagało dużego wysiłku obliczeniowego!

Answer 17

Może trochę poza tematem, ale oto rozwiązanie wykorzystujące Scala. Utwórz Arrayz nazw kolumn ze swojego oldDataFramei usuń kolumny, które chcesz usunąć ("colExclude"). Następnie przekaż Array[Column]go selecti rozpakuj.

val columnsToKeep: Array[Column] = oldDataFrame.columns.diff(Array("colExclude"))
                                               .map(x => oldDataFrame.col(x))
val newDataFrame: DataFrame = oldDataFrame.select(columnsToKeep: _*)

Answer 18

Rozważ 2 ramki dataFrames:

>>> aDF.show()
+---+----+
| id|datA|
+---+----+
|  1|  a1|
|  2|  a2|
|  3|  a3|
+---+----+

i

>>> bDF.show()
+---+----+
| id|datB|
+---+----+
|  2|  b2|
|  3|  b3|
|  4|  b4|
+---+----+

Aby osiągnąć to, czego szukasz, istnieją 2 sposoby:

1. Różne warunki łączenia. Zamiast mówić aDF.id == bDF.id

aDF.join(bDF, aDF.id == bDF.id, "outer")

Napisz to:

aDF.join(bDF, "id", "outer").show()
+---+----+----+
| id|datA|datB|
+---+----+----+
|  1|  a1|null|
|  3|  a3|  b3|
|  2|  a2|  b2|
|  4|null|  b4|
+---+----+----+

To automatycznie pozbędzie się dodatkowego procesu upuszczania.

2. Użyj aliasingu: w tym przypadku utracisz dane związane z określonymi identyfikatorami B.

>>> from pyspark.sql.functions import col
>>> aDF.alias("a").join(bDF.alias("b"), aDF.id == bDF.id, "outer").drop(col("b.id")).show()

+----+----+----+
|  id|datA|datB|
+----+----+----+
|   1|  a1|null|
|   3|  a3|  b3|
|   2|  a2|  b2|
|null|null|  b4|
+----+----+----+

Answer 19

-2

Możesz usunąć kolumnę w ten sposób:

df.drop("column Name).columns

W Twoim przypadku :

df.drop("id").columns

Jeśli chcesz upuścić więcej niż jedną kolumnę, możesz zrobić:

dfWithLongColName.drop("ORIGIN_COUNTRY_NAME", "DEST_COUNTRY_NAME")

techgeek
źródło

1

Spark 2.4 (i najmniej wersje) nie akceptuje więcej niż jednej nazwy kolumny.

seufagner

Czy można upuszczać kolumny według indeksu?

Horbaje

@seufagner po prostu przekazuje to jako listę

Dee,

Answer 20

1

Spark 2.4 (i najmniej wersje) nie akceptuje więcej niż jednej nazwy kolumny.

seufagner

Answer 21

Czy można upuszczać kolumny według indeksu?

Horbaje

Answer 22

@seufagner po prostu przekazuje to jako listę

Dee,

Jak usunąć kolumny w ramce danych pyspark

Odpowiedzi: