Mogę użyć pandas
dropna()
funkcji, aby usunąć wiersze z niektórymi lub wszystkimi kolumnami ustawionymi jako NA
's. Czy istnieje równoważna funkcja do usuwania wierszy ze wszystkimi kolumnami o wartości 0?
P kt b tt mky depth
1 0 0 0 0 0
2 0 0 0 0 0
3 0 0 0 0 0
4 0 0 0 0 0
5 1.1 3 4.5 2.3 9.0
W tym przykładzie chcielibyśmy usunąć pierwsze 4 wiersze z ramki danych.
dzięki!
Odpowiedzi:
Okazuje się, że można to ładnie wyrazić w sposób zwektoryzowany:
> df = pd.DataFrame({'a':[0,0,1,1], 'b':[0,1,0,1]}) > df = df[(df.T != 0).any()] > df a b 1 0 1 2 1 0 3 1 1
źródło
df = df[(df.T != 0).any()]
rows with all columns having value 0
, ale można wywnioskowaćall
metodę.Jednowierszowy. Nie potrzeba transpozycji:
df.loc[~(df==0).all(axis=1)]
A dla tych, którzy lubią symetrię, działa to również ...
df.loc[(df!=0).any(axis=1)]
źródło
df.loc[(df != 0).any(1)]
. Praca zespołowa!axis=1
jest wyraźna; bardziej pythonowy moim zdaniemdf
df = df.loc[(df!=0).all(axis=1)]
idf = df.loc[(df!=0).any(axis=1)]
usunąć wiersze z zerami, tak jak byłby rzeczywisty odpowiednik dropna ().Sprawdzam to pytanie mniej więcej raz w miesiącu i zawsze muszę wyciągać najlepszą odpowiedź z komentarzy:
df.loc[(df!=0).any(1)]
Dzięki Dan Allan!
źródło
Zamień zera na,
nan
a następnie upuść wiersze ze wszystkimi wpisami jakonan
. Następnie zamień nanan
zera.import numpy as np df = df.replace(0, np.nan) df = df.dropna(how='all', axis=0) df = df.replace(np.nan, 0)
źródło
Myślę, że to rozwiązanie jest najkrótsze:
df= df[df['ColName'] != 0]
źródło
Kilka rozwiązań, które okazały się pomocne, szukając tego, szczególnie w przypadku większych zestawów danych:
df[(df.sum(axis=1) != 0)] # 30% faster df[df.values.sum(axis=1) != 0] # 3X faster
Kontynuując przykład z @ U2EF1:
In [88]: df = pd.DataFrame({'a':[0,0,1,1], 'b':[0,1,0,1]}) In [91]: %timeit df[(df.T != 0).any()] 1000 loops, best of 3: 686 µs per loop In [92]: df[(df.sum(axis=1) != 0)] Out[92]: a b 1 0 1 2 1 0 3 1 1 In [95]: %timeit df[(df.sum(axis=1) != 0)] 1000 loops, best of 3: 495 µs per loop In [96]: %timeit df[df.values.sum(axis=1) != 0] 1000 loops, best of 3: 217 µs per loop
W przypadku większego zbioru danych:
In [119]: bdf = pd.DataFrame(np.random.randint(0,2,size=(10000,4))) In [120]: %timeit bdf[(bdf.T != 0).any()] 1000 loops, best of 3: 1.63 ms per loop In [121]: %timeit bdf[(bdf.sum(axis=1) != 0)] 1000 loops, best of 3: 1.09 ms per loop In [122]: %timeit bdf[bdf.values.sum(axis=1) != 0] 1000 loops, best of 3: 517 µs per loop
źródło
df[~(df.values.prod(axis=1) == 0) | ~(df.values.sum(axis=1)==0)]
bdf[np.square(bdf.values).sum(axis=1) != 0]
import pandas as pd df = pd.DataFrame({'a' : [0,0,1], 'b' : [0,0,-1]}) temp = df.abs().sum(axis=1) == 0 df = df.drop(temp)
Wynik:
>>> df a b 2 1 -1
źródło
ValueError: labels [True ... ] not contained in matrix
df = df.drop(temp)
używaćdf = df.drop(df[temp].index)
Możesz użyć szybkiej
lambda
funkcji, aby sprawdzić, czy wszystkie wartości w danym wierszu są0
. Następnie możesz użyć wyniku zastosowania tegolambda
jako sposobu na wybranie tylko wierszy, które pasują lub nie spełniają tego warunku:import pandas as pd import numpy as np np.random.seed(0) df = pd.DataFrame(np.random.randn(5,3), index=['one', 'two', 'three', 'four', 'five'], columns=list('abc')) df.loc[['one', 'three']] = 0 print df print df.loc[~df.apply(lambda row: (row==0).all(), axis=1)]
Plony:
a b c one 0.000000 0.000000 0.000000 two 2.240893 1.867558 -0.977278 three 0.000000 0.000000 0.000000 four 0.410599 0.144044 1.454274 five 0.761038 0.121675 0.443863 [5 rows x 3 columns] a b c two 2.240893 1.867558 -0.977278 four 0.410599 0.144044 1.454274 five 0.761038 0.121675 0.443863 [3 rows x 3 columns]
źródło
Inna alternatywa:
# Is there anything in this row non-zero? # df != 0 --> which entries are non-zero? T/F # (df != 0).any(axis=1) --> are there 'any' entries non-zero row-wise? T/F of rows that return true to this statement. # df.loc[all_zero_mask,:] --> mask your rows to only show the rows which contained a non-zero entry. # df.shape to confirm a subset. all_zero_mask=(df != 0).any(axis=1) # Is there anything in this row non-zero? df.loc[all_zero_mask,:].shape
źródło
to działa dla mnie
new_df = df[df.loc[:]!=0].dropna()
źródło
U mnie ten kod:
df.loc[(df!=0).any(axis=0)]
nie działał. Zwrócił dokładny zestaw danych.Zamiast tego użyłem
df.loc[:, (df!=0).any(axis=0)]
i usunąłem wszystkie kolumny z wartościami 0 w zestawie danychFunkcja
.all()
usunęła wszystkie kolumny, w których znajdują się jakiekolwiek wartości zerowe w moim zbiorze danych.źródło
df = df [~( df [ ['kt' 'b' 'tt' 'mky' 'depth', ] ] == 0).all(axis=1) ]
Wypróbuj to polecenie, które działa doskonale.
źródło
Aby usunąć wszystkie kolumny z wartościami 0 w dowolnym wierszu:
new_df = df[df.loc[:]!=0].dropna()
źródło