Wybieranie określonych wierszy i kolumn z tablicy NumPy

98

Szaleję, próbując dowiedzieć się, jaką głupią rzecz robię źle.

Używam NumPy i mam określone indeksy wierszy i określone indeksy kolumn, z których chcę wybrać. Oto istota mojego problemu:

import numpy as np

a = np.arange(20).reshape((5,4))
# array([[ 0,  1,  2,  3],
#        [ 4,  5,  6,  7],
#        [ 8,  9, 10, 11],
#        [12, 13, 14, 15],
#        [16, 17, 18, 19]])

# If I select certain rows, it works
print a[[0, 1, 3], :]
# array([[ 0,  1,  2,  3],
#        [ 4,  5,  6,  7],
#        [12, 13, 14, 15]])

# If I select certain rows and a single column, it works
print a[[0, 1, 3], 2]
# array([ 2,  6, 14])

# But if I select certain rows AND certain columns, it fails
print a[[0,1,3], [0,2]]
# Traceback (most recent call last):
#   File "<stdin>", line 1, in <module>
# ValueError: shape mismatch: objects cannot be broadcast to a single shape

Dlaczego to się dzieje? Z pewnością powinienem być w stanie wybrać pierwszy, drugi i czwarty wiersz oraz pierwszą i trzecią kolumnę? Wynik, którego oczekuję, to:

a[[0,1,3], [0,2]] => [[0,  2],
                      [4,  6],
                      [12, 14]]
Mike C.
źródło
Otagowano numpy-slicing, aby poprawić wykrywalność. (Również terminy „plasterek” i „krojenie” nie występują w tekście jawnym, możemy użyć kilku duplikatów z tymi terminami zamkniętymi)
smci
To jest duplikat stackoverflow.com/questions/19161512/numpy-extract-submatrix
David John Coleman II,

Odpowiedzi:

88

Fantazyjne indeksowanie wymaga podania wszystkich wskaźników dla każdego wymiaru. Podajesz 3 indeksy dla pierwszego i tylko 2 dla drugiego, stąd błąd. Chcesz zrobić coś takiego:

>>> a[[[0, 0], [1, 1], [3, 3]], [[0,2], [0,2], [0, 2]]]
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

Pisanie tego jest oczywiście trudne, więc możesz pozwolić, aby nadawanie Ci pomogło:

>>> a[[[0], [1], [3]], [0, 2]]
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

Jest to znacznie prostsze, jeśli indeksujesz za pomocą tablic, a nie list:

>>> row_idx = np.array([0, 1, 3])
>>> col_idx = np.array([0, 2])
>>> a[row_idx[:, None], col_idx]
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])
Jaime
źródło
4
Dzięki, nie wiedziałem, że możesz to zrobić! Nadawanie jest dziwne i cudowne ... Po dwóch latach odrętwienia, wciąż się do tego przyzwyczajam.
Praveen,
2
Dzięki! Podczas gdy inne odpowiedzi odpowiedziały poprawnie na moje pytanie w zakresie zwracania wybranej macierzy, ta odpowiedź dotyczyła tego, jednocześnie odnosząc się do kwestii przypisania (jak ustawić [[0,1,3], [0,2]] = 0 , na przykład).
Mike C
1
@Jaime - Zaledwie wczoraj odkryłem wbudowaną jedną linijkę, aby wykonać dokładnie tę sztuczkę nadawczą, którą sugerujesz: np.ix_
Praveen
1
Czy ktoś mógłby wyjaśnić, dlaczego składnia działa w ten sposób? Jaki jest powód, dla którego działa to w obu pierwszych przykładach, ale nie w trzecim. A także, w jaki sposób hermetyzacja poszukiwanych indeksów na ich własnych listach rozwiązuje ten problem? Dziękuję
Aetos
2
Dlaczego wiersze muszą być zagnieżdżone, a kolumny nie?
AturSams
91

Jak sugeruje Toan, prosty siekać byłoby po prostu wybrać wiersze, a potem wybrać kolumny ponad to .

>>> a[[0,1,3], :]            # Returns the rows you want
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [12, 13, 14, 15]])
>>> a[[0,1,3], :][:, [0,2]]  # Selects the columns you want as well
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

[Edytuj] Wbudowana metoda: np.ix_

Niedawno odkryłem, że numpy zapewnia wbudowany, jednolinijkowy sposób robienia dokładnie tego , co sugerował @Jaime, ale bez konieczności używania składni nadawczej (która cierpi z powodu braku czytelności). Z dokumentów:

Używając ix_ można szybko skonstruować tablice indeksowe, które będą indeksować iloczyn krzyżowy. a[np.ix_([1,3],[2,5])]zwraca tablicę [[a[1,2] a[1,5]], [a[3,2] a[3,5]]].

Więc używasz tego w ten sposób:

>>> a = np.arange(20).reshape((5,4))
>>> a[np.ix_([0,1,3], [0,2])]
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

Sposób, w jaki to działa, polega na tym, że dba o wyrównanie tablic w sposób sugerowany przez Jaime, aby nadawanie przebiegało prawidłowo:

>>> np.ix_([0,1,3], [0,2])
(array([[0],
        [1],
        [3]]), array([[0, 2]]))

Ponadto, jak mówi MikeC w komentarzu, np.ix_ma tę zaletę, że zwraca widok, na który moja pierwsza ( przededytacyjna ) odpowiedź nie odpowiadała. Oznacza to, że możesz teraz przypisać do tablicy indeksowanej:

>>> a[np.ix_([0,1,3], [0,2])] = -1
>>> a    
array([[-1,  1, -1,  3],
       [-1,  5, -1,  7],
       [ 8,  9, 10, 11],
       [-1, 13, -1, 15],
       [16, 17, 18, 19]])
Praveen
źródło
4
W kilku testach okazało się również, że np.ix_jest szybsza niż metoda wybierania pierwszych kolumn, a następnie wierszy (zwykle około 2x szybciej w moich testach tablic kwadratowych o rozmiarach 1K-10K, w których ponownie indeksujesz wszystkie wiersze i kolumny).
Nathan
7

POSŁUGIWAĆ SIĘ:

 >>> a[[0,1,3]][:,[0,2]]
array([[ 0,  2],
   [ 4,  6],
   [12, 14]])

LUB:

>>> a[[0,1,3],::2]
array([[ 0,  2],
   [ 4,  6],
   [12, 14]])
Toan Nguyen
źródło
10
Chociaż jest to poprawne, powinieneś rozważyć zamieszczenie dodatkowych informacji wyjaśniających, dlaczego jest to poprawne.
ebarr
2

Używanie np.ix_jest najwygodniejszym sposobem na zrobienie tego (zgodnie z odpowiedziami innych), ale oto inny interesujący sposób, aby to zrobić:

>>> rows = [0, 1, 3]
>>> cols = [0, 2]

>>> a[rows].T[cols].T

array([[ 0,  2],
       [ 4,  6],
       [12, 14]])
Andreas K.
źródło