Znajdź przecięcie dwóch zagnieżdżonych list?

468

Wiem, jak uzyskać przecięcie dwóch płaskich list:

b1 = [1,2,3,4,5,9,11,15]
b2 = [4,5,6,7,8]
b3 = [val for val in b1 if val in b2]

lub

def intersect(a, b):
    return list(set(a) & set(b))

print intersect(b1, b2)

Ale kiedy muszę znaleźć przecięcie list zagnieżdżonych, zaczynają się moje problemy:

c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

Na koniec chciałbym otrzymać:

c3 = [[13,32],[7,13,28],[1,6]]

Czy możecie mi w tym pomóc?

Związane z

elfuego1
źródło
Jakie byłoby twoje przecięcie dla c1 przecięcie c2? Czy chcesz po prostu sprawdzić, czy c1 jest w c2? A może chcesz znaleźć wszystkie elementy w C1, które pojawiają się gdziekolwiek w C2?
Brian R. Bondy
Przeczytaj to i zagraj w tłumaczu.
Pithikos,

Odpowiedzi:

177

Jeśli chcesz:

c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
c3 = [[13, 32], [7, 13, 28], [1,6]]

Oto twoje rozwiązanie dla Python 2:

c3 = [filter(lambda x: x in c1, sublist) for sublist in c2]

W Python 3 filterzwraca iterowalną zamiast list, więc musisz zawijać filterwywołania list():

c3 = [list(filter(lambda x: x in c1, sublist)) for sublist in c2]

Wyjaśnienie:

Część filtrująca bierze element każdej podlisty i sprawdza, czy znajduje się na liście źródeł c1. Zrozumienie listy jest wykonywane dla każdej podlisty w c2.

Brian R. Bondy
źródło
35
Możesz użyć filter(set(c1).__contains__, sublist)dla wydajności. btw, zaletą tego rozwiązania jest to, że filter()zachowuje typy łańcuchów i krotek.
jfs
3
podoba mi się ta metoda, ale na mojej wynikowej liście robię się pusta
Jonathan Ong
Dodałem tutaj kompatybilność z Python 3, ponieważ używam tego jako duplikatu dla dupe pytania Python 3
Antti Haapala
9
To lepiej odczytuje IMO z zagnieżdżonymi pojęciami:c3 = [[x for x in sublist if x in c1] for sublist in c2]
Eric,
894

Nie musisz definiować skrzyżowania. To już pierwsza część zestawu.

>>> b1 = [1,2,3,4,5,9,11,15]
>>> b2 = [4,5,6,7,8]
>>> set(b1).intersection(b2)
set([4, 5])
S.Lott
źródło
3
Czy będzie to wolniejsze niż lambda z powodu konwersji na set?
Ciro Santilli 26 冠状 病 六四 事件 法轮功
32
@ S.Lott, coś nie tak z set(b1) & set(b2)? IMO jest odkurzaczem, aby móc korzystać z operatora.
gwg
4
Ponadto użycie setspowoduje szybszy kod o rząd wielkości. Oto przykładowy test porównawczy®: gist.github.com/andersonvom/4d7e551b4c0418de3160
andersonvom
5
Działa tylko, jeśli wynik nie musi być zamawiany.
Borbag,
7
Więc ... ta odpowiedź w żaden sposób nie odpowiada na pytanie, prawda? Ponieważ działa to teraz z listami zagnieżdżonymi .
Mayou36,
60

Dla osób, które chcą znaleźć przecięcie dwóch list, Pytający podał dwie metody:

b1 = [1,2,3,4,5,9,11,15]
b2 = [4,5,6,7,8]
b3 = [val for val in b1 if val in b2]

i

def intersect(a, b):
     return list(set(a) & set(b))

print intersect(b1, b2)

Istnieje jednak metoda hybrydowa, która jest bardziej wydajna, ponieważ wystarczy wykonać tylko jedną konwersję między listą / zestawem, a nie trzema:

b1 = [1,2,3,4,5]
b2 = [3,4,5,6]
s2 = set(b2)
b3 = [val for val in b1 if val in s2]

To będzie działać w O (n), podczas gdy jego oryginalna metoda obejmująca zrozumienie listy będzie działać w O (n ^ 2)

Zack Burt
źródło
Ponieważ „jeśli val w s2” działa w O (N), proponowana złożoność fragmentu kodu to także O (n ^ 2)
Romeno
8
Przeciętny przypadek „val in s2” to O (1) według wiki.python.org/moin/TimeComplexity#set - a zatem w przypadku n operacji oczekiwany czas to O (n) (czy najgorszym przypadkiem jest O ( n) lub O (n ^ 2) zależy od tego, czy ten średni przypadek reprezentuje zamortyzowany czas, czy nie, ale nie jest to bardzo ważne w praktyce).
D Coetzee,
2
Środowisko uruchomieniowe ma wartość O (N) nie dlatego, że jest amortyzowane, ale ponieważ członkostwo w zestawie wynosi średnio O (1) (na przykład przy użyciu tabeli skrótów), to duża różnica, na przykład dlatego, że gwarantowany jest czas amortyzacji.
miroB,
28

Podejście funkcjonalne:

input_list = [[1, 2, 3, 4, 5], [2, 3, 4, 5, 6], [3, 4, 5, 6, 7]]

result = reduce(set.intersection, map(set, input_list))

i można go zastosować do bardziej ogólnego przypadku list 1+

rozdymka tygrysia
źródło
aby umożliwić pustą listę wejściowego: set(*input_list[:1]).intersection(*input_list[1:]). Wersja iterator ( it = iter(input_list)) reduce(set.intersection, it, set(next(it, []))). Obie wersje nie wymagają konwersji wszystkich list wejściowych do ustawienia. Ta ostatnia jest bardziej wydajna pod względem pamięci.
jfs
Użyj, from functools import reduceaby użyć go w Pythonie 3. Lub jeszcze lepiej, użyj jawnej forpętli.
TrigonaMinima,
27

Wersja z czystym listem

>>> c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
>>> c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
>>> c1set = frozenset(c1)

Wariant spłaszczenia:

>>> [n for lst in c2 for n in lst if n in c1set]
[13, 32, 7, 13, 28, 1, 6]

Wariant zagnieżdżony:

>>> [[n for n in lst if n in c1set] for lst in c2]
[[13, 32], [7, 13, 28], [1, 6]]
jfs
źródło
20

Operator & przecina dwa zestawy.

{1, 2, 3} & {2, 3, 4}
Out[1]: {2, 3}
aflaisler
źródło
W porządku, ale ten temat dotyczy list!
Rafa0809
3
Wynik przecięcia dwóch list jest zbiorem, więc ta odpowiedź jest całkowicie poprawna.
shrewmouse
Lista może zawierać zduplikowane wartości, ale zestawy nie.
diewland
13

Pytonicznym sposobem na przecięcie 2 list jest:

[x for x in list1 if x in list2]
Flying_ostrich
źródło
2
To pytanie dotyczy zagnieżdżonych list. Twoja odpowiedź nie odpowiada na pytanie.
Thomas
8

Powinieneś spłaszczyć używając tego kodu (wziętego z http://kogs-www.informatik.uni-hamburg.de/~meine/python_tricks ), kod nie został przetestowany, ale jestem pewien, że działa:


def flatten(x):
    """flatten(sequence) -> list

    Returns a single, flat list which contains all elements retrieved
    from the sequence and all recursively contained sub-sequences
    (iterables).

    Examples:
    >>> [1, 2, [3,4], (5,6)]
    [1, 2, [3, 4], (5, 6)]
    >>> flatten([[[1,2,3], (42,None)], [4,5], [6], 7, MyVector(8,9,10)])
    [1, 2, 3, 42, None, 4, 5, 6, 7, 8, 9, 10]"""

    result = []
    for el in x:
        #if isinstance(el, (list, tuple)):
        if hasattr(el, "__iter__") and not isinstance(el, basestring):
            result.extend(flatten(el))
        else:
            result.append(el)
    return result

Po spłaszczeniu listy wykonujesz skrzyżowanie w zwykły sposób:


c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

def intersect(a, b):
     return list(set(a) & set(b))

print intersect(flatten(c1), flatten(c2))
Geo
źródło
2
To trochę spłaszczający kod Geo, ale nie odpowiada na pytanie. Pytający wyraźnie oczekuje wyniku w postaci [[13,32], [7,13,28], [1,6]].
Rob Young
8

Od momentu intersectzdefiniowania wystarczy podstawowe zrozumienie listy:

>>> c3 = [intersect(c1, i) for i in c2]
>>> c3
[[32, 13], [28, 13, 7], [1, 6]]

Poprawa dzięki uwadze S. Lott i powiązanej uwadze TM:

>>> c3 = [list(set(c1).intersection(i)) for i in c2]
>>> c3
[[32, 13], [28, 13, 7], [1, 6]]
Emmanuel
źródło
5

Dany:

> c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]

> c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

Uważam, że następujący kod działa dobrze, a może bardziej zwięzły, jeśli używasz operacji set:

> c3 = [list(set(f)&set(c1)) for f in c2] 

Ma:

> [[32, 13], [28, 13, 7], [1, 6]]

W razie potrzeby:

> c3 = [sorted(list(set(f)&set(c1))) for f in c2] 

mamy:

> [[13, 32], [7, 13, 28], [1, 6]]

Nawiasem mówiąc, ten styl jest również w porządku dla bardziej pythonowego stylu:

> c3 = [ [i for i in set(f) if i in c1] for f in c2]
Steven
źródło
3

Nie wiem, czy spóźnię się z odpowiedzią na twoje pytanie. Po przeczytaniu twojego pytania wymyśliłem funkcję intersect (), która może działać zarówno na liście, jak i na liście zagnieżdżonej. Użyłem rekurencji do zdefiniowania tej funkcji, jest ona bardzo intuicyjna. Mam nadzieję, że tego właśnie szukasz:

def intersect(a, b):
    result=[]
    for i in b:
        if isinstance(i,list):
            result.append(intersect(a,i))
        else:
            if i in a:
                 result.append(i)
    return result

Przykład:

>>> c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
>>> c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
>>> print intersect(c1,c2)
[[13, 32], [7, 13, 28], [1, 6]]

>>> b1 = [1,2,3,4,5,9,11,15]
>>> b2 = [4,5,6,7,8]
>>> print intersect(b1,b2)
[4, 5]
Mrsky Boatin
źródło
2

Czy rozważasz [1,2]przecięcie się [1, [2]]? Czy to tylko liczby, na których Ci zależy, czy też struktura listy?

Jeśli tylko liczby, sprawdź, jak „spłaszczyć” listy, a następnie użyj set()metody.

rozwijać
źródło
Chciałbym pozostawić strukturę list bez zmian.
elfuego1
1

Szukałem również sposobu, aby to zrobić, a ostatecznie skończyło się tak:

def compareLists(a,b):
    removed = [x for x in a if x not in b]
    added = [x for x in b if x not in a]
    overlap = [x for x in a if x in b]
    return [removed,added,overlap]
Remco van Zuijlen
źródło
Jeśli nie korzystam z set.intersection, te proste linijki są również tym, co bym zrobił.
rzeź
0
c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]

c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

c3 = [list(set(c2[i]).intersection(set(c1))) for i in xrange(len(c2))]

c3
->[[32, 13], [28, 13, 7], [1, 6]]
użytkownik3105897
źródło
0

Możemy użyć do tego celu metod:

c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

   result = [] 
   for li in c2:
       res = set(li) & set(c1)
       result.append(list(res))

   print result
Birendra Kumar
źródło
0

Aby zdefiniować przecięcie, które poprawnie uwzględnia liczność elementów, użyj Counter:

from collections import Counter

>>> c1 = [1, 2, 2, 3, 4, 4, 4]
>>> c2 = [1, 2, 4, 4, 4, 4, 5]
>>> list((Counter(c1) & Counter(c2)).elements())
[1, 2, 4, 4, 4]
James Hirschorn
źródło
0
# Problem:  Given c1 and c2:
c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
# how do you get c3 to be [[13, 32], [7, 13, 28], [1, 6]] ?

Oto jeden ze sposobów ustawiania c3, który nie obejmuje zestawów:

c3 = []
for sublist in c2:
    c3.append([val for val in c1 if val in sublist])

Ale jeśli wolisz użyć tylko jednej linii, możesz to zrobić:

c3 = [[val for val in c1 if val in sublist]  for sublist in c2]

Jest to zrozumienie listy w ramach rozumienia listy, co jest trochę niezwykłe, ale myślę, że nie powinieneś mieć większych problemów z przestrzeganiem tego.

J L
źródło
0
c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
c3 = [list(set(i) & set(c1)) for i in c2]
c3
[[32, 13], [28, 13, 7], [1, 6]]

Dla mnie jest to bardzo elegancki i szybki sposób na to :)

Michał
źródło
0

z reducełatwością można sporządzić płaską listę .

Wystarczy użyć inicjalizatora - trzeci argument w reducefunkcji.

reduce(
   lambda result, _list: result.append(
       list(set(_list)&set(c1)) 
     ) or result, 
   c2, 
   [])

Powyższy kod działa zarówno dla python2, jak i python3, ale musisz zaimportować moduł zmniejsz jako from functools import reduce. Szczegółowe informacje znajdują się poniżej.

Raja Sakthiyan
źródło
-1

Prosty sposób na znalezienie różnicy i przecięcia między iteracjami

Użyj tej metody, jeśli powtórzenie ma znaczenie

from collections import Counter

def intersection(a, b):
    """
    Find the intersection of two iterables

    >>> intersection((1,2,3), (2,3,4))
    (2, 3)

    >>> intersection((1,2,3,3), (2,3,3,4))
    (2, 3, 3)

    >>> intersection((1,2,3,3), (2,3,4,4))
    (2, 3)

    >>> intersection((1,2,3,3), (2,3,4,4))
    (2, 3)
    """
    return tuple(n for n, count in (Counter(a) & Counter(b)).items() for _ in range(count))

def difference(a, b):
    """
    Find the symmetric difference of two iterables

    >>> difference((1,2,3), (2,3,4))
    (1, 4)

    >>> difference((1,2,3,3), (2,3,4))
    (1, 3, 4)

    >>> difference((1,2,3,3), (2,3,4,4))
    (1, 3, 4, 4)
    """
    diff = lambda x, y: tuple(n for n, count in (Counter(x) - Counter(y)).items() for _ in range(count))
    return diff(a, b) + diff(b, a)
Connor
źródło