Pandy DataFrame: zamień wszystkie wartości w kolumnie na podstawie warunku

132

Mam prostą ramkę DataFrame, taką jak poniżej:

Pandas DataFrame

Chcę wybrać wszystkie wartości z kolumny „Pierwszy sezon” i zastąpić te, które są powyżej 1990 r., 1. W tym przykładzie tylko Baltimore Ravens zastąpiłoby rok 1996 wartością 1 (pozostawiając resztę danych w stanie nienaruszonym).

Użyłem następujących:

df.loc[(df['First Season'] > 1990)] = 1

Ale zastępuje wszystkie wartości w tym wierszu 1, a nie tylko wartości z kolumny „Pierwszy sezon”.

Jak mogę zamienić tylko wartości z tej kolumny?

ichimok
źródło

Odpowiedzi:

226

Musisz wybrać tę kolumnę:

In [41]:
df.loc[df['First Season'] > 1990, 'First Season'] = 1
df

Out[41]:
                 Team  First Season  Total Games
0      Dallas Cowboys          1960          894
1       Chicago Bears          1920         1357
2   Green Bay Packers          1921         1339
3      Miami Dolphins          1966          792
4    Baltimore Ravens             1          326
5  San Franciso 49ers          1950         1003

Oto składnia:

df.loc[<mask>(here mask is generating the labels to index) , <optional column(s)> ]

Możesz sprawdzić dokumenty, a także 10 minut do pand, które pokazują semantykę

EDYTOWAĆ

Jeśli chcesz, aby wygenerować wskaźnik logiczną następnie można po prostu użyć warunku logiczną wygenerować logiczną serię i rzucać dtype do inttego będzie konwertować Truei Falsena 1i 0odpowiednio:

In [43]:
df['First Season'] = (df['First Season'] > 1990).astype(int)
df

Out[43]:
                 Team  First Season  Total Games
0      Dallas Cowboys             0          894
1       Chicago Bears             0         1357
2   Green Bay Packers             0         1339
3      Miami Dolphins             0          792
4    Baltimore Ravens             1          326
5  San Franciso 49ers             0         1003
EdChum
źródło
40

Trochę spóźniony na imprezę, ale nadal - wolę używać numpy gdzie:

import numpy as np
df['First Season'] = np.where(df['First Season'] > 1990, 1, df['First Season'])
Amir F.
źródło
2
Szukałem rozwiązania warunkowego nadpisywania wartości kolumn, ale na podstawie wartości innej kolumny, na przykład: df ['col1'] = np.where (df ['id'] == '318431682259014', 'NEW', df ['col1']) To było rozwiązanie tego problemu.
user582175
Próbuję to zrobić dla wielu takich warunków, ale wciąż otrzymuję ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all(). Zasadniczo próbuję zrobić df['A'] = np.where(df['B'] in some_values, df['A']*2, df['A]. Czy ktoś ma na to pomysł?
M.Schalk
6
df['First Season'].loc[(df['First Season'] > 1990)] = 1

dziwne, że nikt nie ma tej odpowiedzi, jedyną brakującą częścią twojego kodu jest [„Pierwszy sezon”] zaraz po df i po prostu usuń nawiasy klamrowe w środku.

Odz
źródło
To daje „SettingWithCopyWarning”: Lepiej jest używać .loc do całej rzeczy, jak w odpowiedzi EdChum.
ambitiousdonut
2

dla pojedynczego warunku, tj. ( 'employrate'] > 70 )

       country        employrate alcconsumption
0  Afghanistan  55.7000007629394            .03
1      Albania  51.4000015258789           7.29
2      Algeria              50.5            .69
3      Andorra                            10.17
4       Angola  75.6999969482422           5.57

Użyj tego:

df.loc[df['employrate'] > 70, 'employrate'] = 7

       country  employrate alcconsumption
0  Afghanistan   55.700001            .03
1      Albania   51.400002           7.29
2      Algeria   50.500000            .69
3      Andorra         nan          10.17
4       Angola    7.000000           5.57

dlatego składnia jest następująca:

df.loc[<mask>(here mask is generating the labels to index) , <optional column(s)> ]

W przypadku wielu warunków, tj. (df['employrate'] <=55) & (df['employrate'] > 50)

Użyj tego:

df['employrate'] = np.where(
   (df['employrate'] <=55) & (df['employrate'] > 50) , 11, df['employrate']
   )

out[108]:
       country  employrate alcconsumption
0  Afghanistan   55.700001            .03
1      Albania   11.000000           7.29
2      Algeria   11.000000            .69
3      Andorra         nan          10.17
4       Angola   75.699997           5.57

dlatego składnia jest następująca:

 df['<column_name>'] = np.where((<filter 1> ) & (<filter 2>) , <new value>, df['column_name'])
Harshit Jain
źródło
0
df.loc[df['First season'] > 1990, 'First Season'] = 1

Wyjaśnienie:

df.locprzyjmuje dwa argumenty, „indeks wiersza” i „indeks kolumny”. Sprawdzamy, czy wartość jest większa niż 27 wartości każdego wiersza w kolumnie „Pierwszy sezon”, a następnie zastępujemy ją 1.

Abdullah shafi
źródło