Jak uzyskać listę wszystkich zduplikowanych elementów za pomocą pand w Pythonie?

127

Mam listę elementów, które prawdopodobnie mają problemy z eksportem. Chciałbym uzyskać listę zduplikowanych elementów, aby móc je ręcznie porównać. Kiedy próbuję użyć metody zduplikowanej pandy , zwraca ona tylko pierwszy duplikat. Czy istnieje sposób na zdobycie wszystkich duplikatów, a nie tylko pierwszego?

Mała podsekcja mojego zbioru danych wygląda następująco:

ID,ENROLLMENT_DATE,TRAINER_MANAGING,TRAINER_OPERATOR,FIRST_VISIT_DATE
1536D,12-Feb-12,"06DA1B3-Lebanon NH",,15-Feb-12
F15D,18-May-12,"06405B2-Lebanon NH",,25-Jul-12
8096,8-Aug-12,"0643D38-Hanover NH","0643D38-Hanover NH",25-Jun-12
A036,1-Apr-12,"06CB8CF-Hanover NH","06CB8CF-Hanover NH",9-Aug-12
8944,19-Feb-12,"06D26AD-Hanover NH",,4-Feb-12
1004E,8-Jun-12,"06388B2-Lebanon NH",,24-Dec-11
11795,3-Jul-12,"0649597-White River VT","0649597-White River VT",30-Mar-12
30D7,11-Nov-12,"06D95A3-Hanover NH","06D95A3-Hanover NH",30-Nov-11
3AE2,21-Feb-12,"06405B2-Lebanon NH",,26-Oct-12
B0FE,17-Feb-12,"06D1B9D-Hartland VT",,16-Feb-12
127A1,11-Dec-11,"064456E-Hanover NH","064456E-Hanover NH",11-Nov-12
161FF,20-Feb-12,"0643D38-Hanover NH","0643D38-Hanover NH",3-Jul-12
A036,30-Nov-11,"063B208-Randolph VT","063B208-Randolph VT",
475B,25-Sep-12,"06D26AD-Hanover NH",,5-Nov-12
151A3,7-Mar-12,"06388B2-Lebanon NH",,16-Nov-12
CA62,3-Jan-12,,,
D31B,18-Dec-11,"06405B2-Lebanon NH",,9-Jan-12
20F5,8-Jul-12,"0669C50-Randolph VT",,3-Feb-12
8096,19-Dec-11,"0649597-White River VT","0649597-White River VT",9-Apr-12
14E48,1-Aug-12,"06D3206-Hanover NH",,
177F8,20-Aug-12,"063B208-Randolph VT","063B208-Randolph VT",5-May-12
553E,11-Oct-12,"06D95A3-Hanover NH","06D95A3-Hanover NH",8-Mar-12
12D5F,18-Jul-12,"0649597-White River VT","0649597-White River VT",2-Nov-12
C6DC,13-Apr-12,"06388B2-Lebanon NH",,
11795,27-Feb-12,"0643D38-Hanover NH","0643D38-Hanover NH",19-Jun-12
17B43,11-Aug-12,,,22-Oct-12
A036,11-Aug-12,"06D3206-Hanover NH",,19-Jun-12

Mój kod wygląda obecnie tak:

df_bigdata_duplicates = df_bigdata[df_bigdata.duplicated(cols='ID')]

Jest tam kilka zduplikowanych przedmiotów. Ale kiedy używam powyższego kodu, otrzymuję tylko pierwszą pozycję. W dokumentacji API widzę, jak mogę uzyskać ostatni element, ale chciałbym mieć je wszystkie, aby móc je wizualnie sprawdzić, aby zobaczyć, dlaczego otrzymuję rozbieżności. Tak więc w tym przykładzie chciałbym uzyskać wszystkie trzy wpisy A036 i oba wpisy 11795 oraz wszelkie inne zduplikowane wpisy, zamiast tylko pierwszego. Każda pomoc jest jak najbardziej doceniana.

BigHandsome
źródło
1
„Duplikaty” mogą oznaczać różne rzeczy „W Twoim przypadku pod uwagę należy wziąć tylko duplikaty w jednej kolumnieID , a nie„ identyczne wiersze w wielu lub we wszystkich kolumnach ”.
smci

Odpowiedzi:

170

Metoda nr 1: wydrukuj wszystkie wiersze, w których identyfikator jest jednym z identyfikatorów w zduplikowanych:

>>> import pandas as pd
>>> df = pd.read_csv("dup.csv")
>>> ids = df["ID"]
>>> df[ids.isin(ids[ids.duplicated()])].sort("ID")
       ID ENROLLMENT_DATE        TRAINER_MANAGING        TRAINER_OPERATOR FIRST_VISIT_DATE
24  11795       27-Feb-12      0643D38-Hanover NH      0643D38-Hanover NH        19-Jun-12
6   11795        3-Jul-12  0649597-White River VT  0649597-White River VT        30-Mar-12
18   8096       19-Dec-11  0649597-White River VT  0649597-White River VT         9-Apr-12
2    8096        8-Aug-12      0643D38-Hanover NH      0643D38-Hanover NH        25-Jun-12
12   A036       30-Nov-11     063B208-Randolph VT     063B208-Randolph VT              NaN
3    A036        1-Apr-12      06CB8CF-Hanover NH      06CB8CF-Hanover NH         9-Aug-12
26   A036       11-Aug-12      06D3206-Hanover NH                     NaN        19-Jun-12

ale nie mogłem wymyślić dobrego sposobu na uniknięcie powtarzania się idstyle razy. Wolę metodę nr 2: groupbyna dowodzie osobistym.

>>> pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)
       ID ENROLLMENT_DATE        TRAINER_MANAGING        TRAINER_OPERATOR FIRST_VISIT_DATE
6   11795        3-Jul-12  0649597-White River VT  0649597-White River VT        30-Mar-12
24  11795       27-Feb-12      0643D38-Hanover NH      0643D38-Hanover NH        19-Jun-12
2    8096        8-Aug-12      0643D38-Hanover NH      0643D38-Hanover NH        25-Jun-12
18   8096       19-Dec-11  0649597-White River VT  0649597-White River VT         9-Apr-12
3    A036        1-Apr-12      06CB8CF-Hanover NH      06CB8CF-Hanover NH         9-Aug-12
12   A036       30-Nov-11     063B208-Randolph VT     063B208-Randolph VT              NaN
26   A036       11-Aug-12      06D3206-Hanover NH                     NaN        19-Jun-12
DSM
źródło
11
Metoda nr 2 jest po prostu idealna! Dziękuję bardzo.
BigHandsome
4
Metoda nr 2 zawodzi („Brak obiektów do konkatenacji”), jeśli nie ma duplikatów
CPBL,
4
Co ma g for _ zrobić?
user77005
5
@ user77005 może już zorientowali się już, ale dla dobra wszystkich, to brzmi tak: g for (placeholder, g) in df.groupby('bla') if 'bla'; podkreślenie jest typowym symbolem zastępczym nieuniknionego argumentu, w którym nie chcemy go używać do niczego w wyrażeniu podobnym do lambda.
stucash
7
Metoda nr 1 musi zostać zaktualizowana: sortzostała uznana za przestarzałą dla DataFrames na rzecz jednej sort_valueslub sort_index powiązanej z nią pytań i odpowiedzi
tatlar
138

W wersji 0.17 Pandy możesz ustawić „keep = False” w funkcji zduplikowanej, aby uzyskać wszystkie zduplikowane elementy.

In [1]: import pandas as pd

In [2]: df = pd.DataFrame(['a','b','c','d','a','b'])

In [3]: df
Out[3]: 
       0
    0  a
    1  b
    2  c
    3  d
    4  a
    5  b

In [4]: df[df.duplicated(keep=False)]
Out[4]: 
       0
    0  a
    1  b
    4  a
    5  b
user666
źródło
3
Bingo, jest odpowiedź. Więc: str lub str lub boolean ... dziwny wybór API. 'all'byłaby bardziej logiczna i intuicyjna IMO.
Jarad,
92
df[df.duplicated(['ID'], keep=False)]

zwróci z powrotem wszystkie zduplikowane wiersze.

Zgodnie z dokumentacją :

keep: {'first', 'last', False}, default 'first'

  • pierwszy: Oznacz duplikaty jako Prawda z wyjątkiem pierwszego wystąpienia.
  • last: Oznacz duplikaty jako True z wyjątkiem ostatniego wystąpienia.
  • Fałsz: oznacz wszystkie duplikaty jako prawdziwe.
Kelly ChowChow
źródło
@dreme to nie jest poprawne składniowo ani nie działa. Niedopasowanie „]” i również nie zwraca tego, czego potrzebują. Jest krótszy, ale zły.
FinancialRadDeveloper
Ups, masz rację @FinancialRadDeveloper, w obu przypadkach. Usunę mój komentarz. Dzięki za informację o błędzie.
dreme
3
df [df ['ID']. duplicated () == True] To zwróci wszystkie duplikaty
Hariprasad
12

Ponieważ nie jestem w stanie komentować, zamieszczam jako oddzielną odpowiedź

Aby znaleźć duplikaty na podstawie więcej niż jednej kolumny, podaj nazwę każdej kolumny, jak poniżej, a otrzymasz wszystkie zduplikowane zestawy wierszy:

df[df[['product_uid', 'product_title', 'user']].duplicated() == True]
Deepak
źródło
10
df[df['ID'].duplicated() == True]

To zadziałało dla mnie

Hariprasad
źródło
2
Właściwie nie musisz dodawać == True, .duplicated()już zwraca tablicę bool.
Jakub Wagner
3

Używając elementu logicznego lub i ustawiając argument take_last metody pandas duplicate na True i False, możesz uzyskać zestaw z ramki danych, który zawiera wszystkie duplikaty.

df_bigdata_duplicates = 
    df_bigdata[df_bigdata.duplicated(cols='ID', take_last=False) |
               df_bigdata.duplicated(cols='ID', take_last=True)
              ]
Oshbocker
źródło
2

Może to nie jest rozwiązanie tego pytania, ale zilustrowanie przykładów:

import pandas as pd

df = pd.DataFrame({
    'A': [1,1,3,4],
    'B': [2,2,5,6],
    'C': [3,4,7,6],
})

print(df)
df.duplicated(keep=False)
df.duplicated(['A','B'], keep=False)

Wyjścia:

   A  B  C
0  1  2  3
1  1  2  4
2  3  5  7
3  4  6  6

0    False
1    False
2    False
3    False
dtype: bool

0     True
1     True
2    False
3    False
dtype: bool
yoonghm
źródło
2

sort("ID")wydaje się, że teraz nie działa, wydaje się być przestarzała zgodnie z dokumentem sortowania , więc użyj sort_values("ID")zamiast tego do sortowania po zduplikowanym filtrze, w następujący sposób:

df[df.ID.duplicated(keep=False)].sort_values("ID")
Nafeez Quraishi
źródło
2

Dla mojej bazy danych zduplikowana (keep = False) nie działała, dopóki kolumna nie została posortowana.

data.sort_values(by=['Order ID'], inplace=True)
df = data[data['Order ID'].duplicated(keep=False)]
LetzerWille
źródło
1

df[df.duplicated(['ID'])==True].sort_values('ID')

PREM JILLA
źródło
4
Czy możesz rozszerzyć swoją odpowiedź o bardziej szczegółowe wyjaśnienie? Będzie to bardzo przydatne do zrozumienia. Dziękuję Ci!
vezunchik
Witamy w Stack Overflow i dziękujemy za Twój wkład! Byłoby miło, gdybyś mógł rozszerzyć swoją odpowiedź o wyjaśnienie. Tutaj znajdziesz poradnik Jak udzielić dobrej odpowiedzi . Dzięki!
David