Jak dodać dodatkową kolumnę do tablicy NumPy

292

Powiedzmy, że mam tablicę NumPy a:

a = np.array([
    [1, 2, 3],
    [2, 3, 4]
    ])

I chciałbym dodać kolumnę zer, aby uzyskać tablicę b:

b = np.array([
    [1, 2, 3, 0],
    [2, 3, 4, 0]
    ])

Jak mogę to łatwo zrobić w NumPy?

Peter Smit
źródło

Odpowiedzi:

181

Myślę, że prostszym rozwiązaniem i szybszym uruchomieniem jest wykonanie następujących czynności:

import numpy as np
N = 10
a = np.random.rand(N,N)
b = np.zeros((N,N+1))
b[:,:-1] = a

I czasy:

In [23]: N = 10

In [24]: a = np.random.rand(N,N)

In [25]: %timeit b = np.hstack((a,np.zeros((a.shape[0],1))))
10000 loops, best of 3: 19.6 us per loop

In [27]: %timeit b = np.zeros((a.shape[0],a.shape[1]+1)); b[:,:-1] = a
100000 loops, best of 3: 5.62 us per loop
JoshAdel
źródło
16
Chcę dołączyć (985,1) kształt np. Araay do (985,2) np. Tablicy, aby uzyskać (985,3) tablicę np, ale to nie działa. Dostaję błąd „nie można nadawać tablicy wejściowej z kształtu (985) do kształtu (985,1)”. Co jest nie tak z moim kodem? Kod: np.hstack (data, data1)
Outlier
5
@Outlier powinieneś opublikować nowe pytanie zamiast zadawać jedno w komentarzach do tego.
JoshAdel,
4
@JoshAdel: Wypróbowałem twój kod na ipython i myślę, że wystąpił błąd składniowy. Możesz spróbować zmienić a = np.random.rand((N,N))naa = np.random.rand(N,N)
hlin117
Myślę, że to przesada w stosunku do tego, o co poprosił OP. Odpowiedź Op jest trafna!
lft93ryt
To tylko sztuczka polegająca na dodawaniu, wstawianiu lub stosie. i nie powinny być akceptowane jako odpowiedzi. Inżynierowie powinni rozważyć skorzystanie z poniższych odpowiedzi.
cinqS
325

np.r_[ ... ]i np.c_[ ... ] są użytecznymi alternatywami dla vstacki hstack, z nawiasami kwadratowymi [] zamiast round ().
Kilka przykładów:

: import numpy as np
: N = 3
: A = np.eye(N)

: np.c_[ A, np.ones(N) ]              # add a column
array([[ 1.,  0.,  0.,  1.],
       [ 0.,  1.,  0.,  1.],
       [ 0.,  0.,  1.,  1.]])

: np.c_[ np.ones(N), A, np.ones(N) ]  # or two
array([[ 1.,  1.,  0.,  0.,  1.],
       [ 1.,  0.,  1.,  0.,  1.],
       [ 1.,  0.,  0.,  1.,  1.]])

: np.r_[ A, [A[1]] ]              # add a row
array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.],
       [ 0.,  1.,  0.]])
: # not np.r_[ A, A[1] ]

: np.r_[ A[0], 1, 2, 3, A[1] ]    # mix vecs and scalars
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], [1, 2, 3], A[1] ]  # lists
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], (1, 2, 3), A[1] ]  # tuples
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], 1:4, A[1] ]        # same, 1:4 == arange(1,4) == 1,2,3
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

(Powodem nawiasów kwadratowych [] zamiast round () jest to, że Python rozwija np. 1: 4 w kwadracie - cuda przeciążenia.)

denis
źródło
7
właśnie szukałem informacji na ten temat i zdecydowanie jest to lepsza odpowiedź niż zaakceptowana, ponieważ obejmuje dodanie dodatkowej kolumny na początku i na końcu, nie tylko na końcu, jak inne odpowiedzi
Ay0,
2
@ Ay0 Dokładnie szukałem sposobu, aby dodać jednostkę uprzedzeń do mojej sztucznej sieci neuronowej partiami na wszystkich warstwach jednocześnie, i to jest idealna odpowiedź.
gaborous
A co jeśli chcesz dodać n kolumn na raz?
Riley
1
@ Riley, czy możesz podać przykład? Pyton 3 ma „Iterable rozpakowywanie”, np np.c_[ * iterable ]; zobacz listy wyrażeń .
denis
@denis, właśnie tego szukałem!
Riley
148

Użyj numpy.append:

>>> a = np.array([[1,2,3],[2,3,4]])
>>> a
array([[1, 2, 3],
       [2, 3, 4]])

>>> z = np.zeros((2,1), dtype=int64)
>>> z
array([[0],
       [0]])

>>> np.append(a, z, axis=1)
array([[1, 2, 3, 0],
       [2, 3, 4, 0]])
gemy
źródło
3
Jest to przydatne przy wstawianiu bardziej skomplikowanych kolumn.
Thomas Ahle
6
Jest to prostsze niż odpowiedź @JoshAdel, ale w przypadku dużych zestawów danych jest wolniejsze. Wybrałbym jedno z nich w zależności od znaczenia czytelności.
dj
3
appendfaktycznie właśnie nazywaconcatenate
RLL
53

Jednym ze sposobów korzystania z hstack jest:

b = np.hstack((a, np.zeros((a.shape[0], 1), dtype=a.dtype)))
Peter Smit
źródło
2
Myślę, że to najbardziej eleganckie rozwiązanie.
silvado,
2
+1 - tak bym to zrobił - pobiłeś mnie, że opublikowałem to jako odpowiedź :).
Blair,
3
Usuń dtypeparametr, nie jest potrzebny, a nawet niedozwolony. Chociaż Twoje rozwiązanie jest wystarczająco eleganckie, nie używaj go, jeśli chcesz często „dołączać” do tablicy. Jeśli nie możesz utworzyć całej tablicy na raz i wypełnić ją później, utwórz listę tablic i hstackto wszystko na raz.
eumiro
1
@eumiro Nie jestem pewien, jak udało mi się uzyskać dtype w niewłaściwym miejscu, ale np.zeros potrzebuje dtype, aby uniknąć sytuacji, w której wszystko stanie się zmiennoprzecinkowe (podczas gdy a jest int)
Peter Smit
42

Uważam, że następujące są najbardziej eleganckie:

b = np.insert(a, 3, values=0, axis=1) # Insert values before column 3

Zaletą insertjest to, że pozwala również wstawiać kolumny (lub wiersze) w innych miejscach wewnątrz tablicy. Zamiast wstawiać pojedynczą wartość, możesz łatwo wstawić cały wektor, na przykład zduplikować ostatnią kolumnę:

b = np.insert(a, insert_index, values=a[:,2], axis=1)

Który prowadzi do:

array([[1, 2, 3, 3],
       [2, 3, 4, 4]])

Jeśli chodzi o czas, insertmoże być wolniejszy niż rozwiązanie JoshAdel:

In [1]: N = 10

In [2]: a = np.random.rand(N,N)

In [3]: %timeit b = np.hstack((a, np.zeros((a.shape[0], 1))))
100000 loops, best of 3: 7.5 µs per loop

In [4]: %timeit b = np.zeros((a.shape[0], a.shape[1]+1)); b[:,:-1] = a
100000 loops, best of 3: 2.17 µs per loop

In [5]: %timeit b = np.insert(a, 3, values=0, axis=1)
100000 loops, best of 3: 10.2 µs per loop
Björn
źródło
1
To jest całkiem fajne. Szkoda, że ​​nie mogę insert(a, -1, ...)dołączyć kolumny. Chyba po prostu to przygotuję.
Thomas Ahle
2
@ThomasAhle Możesz dołączyć wiersz lub kolumnę, uzyskując rozmiar w tej osi za pomocą a.shape[axis]. I. e. jeśli dodajesz wiersz, robisz, np.insert(a, a.shape[0], 999, axis=0)a dla kolumny - tak np.insert(a, a.shape[1], 999, axis=1).
blubberdiblub
35

Byłem także zainteresowany tym pytaniem i porównałem prędkość

numpy.c_[a, a]
numpy.stack([a, a]).T
numpy.vstack([a, a]).T
numpy.ascontiguousarray(numpy.stack([a, a]).T)               
numpy.ascontiguousarray(numpy.vstack([a, a]).T)
numpy.column_stack([a, a])
numpy.concatenate([a[:,None], a[:,None]], axis=1)
numpy.concatenate([a[None], a[None]], axis=0).T

które wszystkie robią to samo dla dowolnego wektora wejściowego a. Terminy uprawy a:

wprowadź opis zdjęcia tutaj

Zauważ, że wszystkie niesąsiadujące warianty (w szczególności stack/ vstack) są ostatecznie szybsze niż wszystkie sąsiednie warianty. column_stack(ze względu na przejrzystość i szybkość) wydaje się dobrą opcją, jeśli potrzebujesz ciągłości.


Kod do odtworzenia fabuły:

import numpy
import perfplot

perfplot.save(
    "out.png",
    setup=lambda n: numpy.random.rand(n),
    kernels=[
        lambda a: numpy.c_[a, a],
        lambda a: numpy.ascontiguousarray(numpy.stack([a, a]).T),
        lambda a: numpy.ascontiguousarray(numpy.vstack([a, a]).T),
        lambda a: numpy.column_stack([a, a]),
        lambda a: numpy.concatenate([a[:, None], a[:, None]], axis=1),
        lambda a: numpy.ascontiguousarray(
            numpy.concatenate([a[None], a[None]], axis=0).T
        ),
        lambda a: numpy.stack([a, a]).T,
        lambda a: numpy.vstack([a, a]).T,
        lambda a: numpy.concatenate([a[None], a[None]], axis=0).T,
    ],
    labels=[
        "c_",
        "ascont(stack)",
        "ascont(vstack)",
        "column_stack",
        "concat",
        "ascont(concat)",
        "stack (non-cont)",
        "vstack (non-cont)",
        "concat (non-cont)",
    ],
    n_range=[2 ** k for k in range(20)],
    xlabel="len(a)",
    logx=True,
    logy=True,
)
Nico Schlömer
źródło
1
Niezły wykres! Pomyślałem, że chcesz wiedzieć, że pod maską, stack, hstack, vstack, column_stack, dstacksą wszystkie funkcje pomocnicze zbudowane na górze np.concatenate. Śledząc definicję stosu , znalazłem np.stack([a,a])to, które wywołuje np.concatenate([a[None], a[None]], axis=0). np.concatenate([a[None], a[None]], axis=0).TPrzydałoby się dodać dodatek do perfplot, aby pokazać, że np.concatenatezawsze może być co najmniej tak szybki, jak działa jego pomocnik.
unutbu
@unutbu Dodał to.
Nico Schlömer,
Ładna biblioteka, nigdy o niej nie słyszałem! Interesujące jest to, że dostałem te same wykresy, tyle że stos i konkat zmieniły miejsca (zarówno w wariancie ascont, jak i non-cont). Plus zamieniono także concat-column i column_stack.
Antony Hatchkins
1
Wow, uwielbiam te działki!
jhegedus
Wydaje się, że w przypadku rekurencyjnej operacji dołączania kolumny do tablicy, np. B = [b, a], niektóre polecenia nie działają (pojawia się błąd dotyczący nierównych wymiarów). Jedyne dwie, które wydają się działać z tablicami o różnej wielkości (tj gdy jeden jest macierzą, a drugi jest wektor 1d) są c_icolumn_stack
confounded
29

Myślę:

np.column_stack((a, zeros(shape(a)[0])))

jest bardziej elegancki.

użytkownik 2820502
źródło
12

np.concatenate również działa

>>> a = np.array([[1,2,3],[2,3,4]])
>>> a
array([[1, 2, 3],
       [2, 3, 4]])
>>> z = np.zeros((2,1))
>>> z
array([[ 0.],
       [ 0.]])
>>> np.concatenate((a, z), axis=1)
array([[ 1.,  2.,  3.,  0.],
       [ 2.,  3.,  4.,  0.]])
han4wluc
źródło
np.concatenatewydaje się 3 razy szybszy niż np.hstackdla matryc 2x1, 2x2 i 2x3. np.concatenatebyło również bardzo nieznacznie szybsze niż ręczne kopiowanie macierzy do pustej matrycy w moich eksperymentach. Jest to zgodne z odpowiedzią Nico Schlömer poniżej.
Lenar Hoyt
11

Zakładając, że Mndarray jest (100,3) i yjest to (100) ndarray, appendmożna go użyć w następujący sposób:

M=numpy.append(M,y[:,None],1)

Sztuką jest użycie

y[:, None]

Konwertuje yto na tablicę 2D (100, 1).

M.shape

teraz daje

(100, 4)
Roel Verhoeven
źródło
Jesteś bohaterem, wiesz o tym ?! Właśnie to ciągnę za włosy przez ostatnią godzinę! Ty!
John Doe,
8

Podoba mi się odpowiedź JoshAdela ze względu na nacisk na wydajność. Niewielkim ulepszeniem wydajności jest uniknięcie narzutu inicjowania zerami, tylko w celu ich zastąpienia. Ma to mierzalną różnicę, gdy N jest duże, puste są używane zamiast zer, a kolumna zer jest zapisywana jako oddzielny krok:

In [1]: import numpy as np

In [2]: N = 10000

In [3]: a = np.ones((N,N))

In [4]: %timeit b = np.zeros((a.shape[0],a.shape[1]+1)); b[:,:-1] = a
1 loops, best of 3: 492 ms per loop

In [5]: %timeit b = np.empty((a.shape[0],a.shape[1]+1)); b[:,:-1] = a; b[:,-1] = np.zeros((a.shape[0],))
1 loops, best of 3: 407 ms per loop
toddInPortland
źródło
Można użyć nadawanie wypełnić ostatnią kolumnę z zerami (lub dowolną inną wartość), która może być bardziej czytelny: b[:,-1] = 0. Ponadto przy bardzo dużych tablicach różnica w wydajności np.insert()staje się znikoma, co może być np.insert()bardziej pożądane ze względu na zwięzłość.
blubberdiblub
7

np.insert służy również celowi.

matA = np.array([[1,2,3], 
                 [2,3,4]])
idx = 3
new_col = np.array([0, 0])
np.insert(matA, idx, new_col, axis=1)

array([[1, 2, 3, 0],
       [2, 3, 4, 0]])

Wstawia wartości tutaj new_col, przed danym indeksem, tutaj idxwzdłuż jednej osi. Innymi słowy, nowo wstawione wartości zajmą idxkolumnę i przesuną to, co pierwotnie tam było, i później idx.

Tai
źródło
1
Zauważ, że insertnie jest na miejscu, jak można założyć, biorąc pod uwagę nazwę funkcji (patrz dokumenty połączone w odpowiedzi).
jneuendorf
5

Dodaj dodatkową kolumnę do tablicy numpy:

np.appendMetoda Numpy przyjmuje trzy parametry, pierwsze dwa są tablicami numpy 2D, a trzeci to parametr osi instruujący wzdłuż której osi dołączyć:

import numpy as np  
x = np.array([[1,2,3], [4,5,6]]) 
print("Original x:") 
print(x) 

y = np.array([[1], [1]]) 
print("Original y:") 
print(y) 

print("x appended to y on axis of 1:") 
print(np.append(x, y, axis=1)) 

Wydruki:

Original x:
[[1 2 3]
 [4 5 6]]
Original y:
[[1]
 [1]]
x appended to y on axis of 1:
[[1 2 3 1]
 [4 5 6 1]]
Hassan Bahaloo
źródło
Zauważ, że dodajesz tutaj y do x zamiast x do y - dlatego wektor kolumny y znajduje się po prawej stronie kolumn x w wyniku.
Brian Popeck
4

Trochę późno na imprezę, ale nikt jeszcze nie opublikował tej odpowiedzi, więc dla kompletności: możesz to zrobić za pomocą list, na zwykłej tablicy Python:

source = a.tolist()
result = [row + [0] for row in source]
b = np.array(result)
btk
źródło
4

Dla mnie następny sposób wygląda dość intuicyjnie i prosto.

zeros = np.zeros((2,1)) #2 is a number of rows in your array.   
b = np.hstack((a, zeros))
Shimon S.
źródło
3

W moim przypadku musiałem dodać kolumnę jedynek do tablicy NumPy

X = array([ 6.1101, 5.5277, ... ])
X.shape => (97,)
X = np.concatenate((np.ones((m,1), dtype=np.int), X.reshape(m,1)), axis=1)

Po X. kształt => (97, 2)

array([[ 1. , 6.1101],
       [ 1. , 5.5277],
...
Mircea Stanciu
źródło
1

Istnieje specjalnie do tego funkcja. Nazywa się numpy.pad

a = np.array([[1,2,3], [2,3,4]])
b = np.pad(a, ((0, 0), (0, 1)), mode='constant', constant_values=0)
print b
>>> array([[1, 2, 3, 0],
           [2, 3, 4, 0]])

Oto, co mówi w dokumentacji:

Pads an array.

Parameters
----------
array : array_like of rank N
    Input array
pad_width : {sequence, array_like, int}
    Number of values padded to the edges of each axis.
    ((before_1, after_1), ... (before_N, after_N)) unique pad widths
    for each axis.
    ((before, after),) yields same before and after pad for each axis.
    (pad,) or int is a shortcut for before = after = pad width for all
    axes.
mode : str or function
    One of the following string values or a user supplied function.

    'constant'
        Pads with a constant value.
    'edge'
        Pads with the edge values of array.
    'linear_ramp'
        Pads with the linear ramp between end_value and the
        array edge value.
    'maximum'
        Pads with the maximum value of all or part of the
        vector along each axis.
    'mean'
        Pads with the mean value of all or part of the
        vector along each axis.
    'median'
        Pads with the median value of all or part of the
        vector along each axis.
    'minimum'
        Pads with the minimum value of all or part of the
        vector along each axis.
    'reflect'
        Pads with the reflection of the vector mirrored on
        the first and last values of the vector along each
        axis.
    'symmetric'
        Pads with the reflection of the vector mirrored
        along the edge of the array.
    'wrap'
        Pads with the wrap of the vector along the axis.
        The first values are used to pad the end and the
        end values are used to pad the beginning.
    <function>
        Padding function, see Notes.
stat_length : sequence or int, optional
    Used in 'maximum', 'mean', 'median', and 'minimum'.  Number of
    values at edge of each axis used to calculate the statistic value.

    ((before_1, after_1), ... (before_N, after_N)) unique statistic
    lengths for each axis.

    ((before, after),) yields same before and after statistic lengths
    for each axis.

    (stat_length,) or int is a shortcut for before = after = statistic
    length for all axes.

    Default is ``None``, to use the entire axis.
constant_values : sequence or int, optional
    Used in 'constant'.  The values to set the padded values for each
    axis.

    ((before_1, after_1), ... (before_N, after_N)) unique pad constants
    for each axis.

    ((before, after),) yields same before and after constants for each
    axis.

    (constant,) or int is a shortcut for before = after = constant for
    all axes.

    Default is 0.
end_values : sequence or int, optional
    Used in 'linear_ramp'.  The values used for the ending value of the
    linear_ramp and that will form the edge of the padded array.

    ((before_1, after_1), ... (before_N, after_N)) unique end values
    for each axis.

    ((before, after),) yields same before and after end values for each
    axis.

    (constant,) or int is a shortcut for before = after = end value for
    all axes.

    Default is 0.
reflect_type : {'even', 'odd'}, optional
    Used in 'reflect', and 'symmetric'.  The 'even' style is the
    default with an unaltered reflection around the edge value.  For
    the 'odd' style, the extented part of the array is created by
    subtracting the reflected values from two times the edge value.

Returns
-------
pad : ndarray
    Padded array of rank equal to `array` with shape increased
    according to `pad_width`.

Notes
-----
.. versionadded:: 1.7.0

For an array with rank greater than 1, some of the padding of later
axes is calculated from padding of previous axes.  This is easiest to
think about with a rank 2 array where the corners of the padded array
are calculated by using padded values from the first axis.

The padding function, if used, should return a rank 1 array equal in
length to the vector argument with padded values replaced. It has the
following signature::

    padding_func(vector, iaxis_pad_width, iaxis, kwargs)

where

    vector : ndarray
        A rank 1 array already padded with zeros.  Padded values are
        vector[:pad_tuple[0]] and vector[-pad_tuple[1]:].
    iaxis_pad_width : tuple
        A 2-tuple of ints, iaxis_pad_width[0] represents the number of
        values padded at the beginning of vector where
        iaxis_pad_width[1] represents the number of values padded at
        the end of vector.
    iaxis : int
        The axis currently being calculated.
    kwargs : dict
        Any keyword arguments the function requires.

Examples
--------
>>> a = [1, 2, 3, 4, 5]
>>> np.pad(a, (2,3), 'constant', constant_values=(4, 6))
array([4, 4, 1, 2, 3, 4, 5, 6, 6, 6])

>>> np.pad(a, (2, 3), 'edge')
array([1, 1, 1, 2, 3, 4, 5, 5, 5, 5])

>>> np.pad(a, (2, 3), 'linear_ramp', end_values=(5, -4))
array([ 5,  3,  1,  2,  3,  4,  5,  2, -1, -4])

>>> np.pad(a, (2,), 'maximum')
array([5, 5, 1, 2, 3, 4, 5, 5, 5])

>>> np.pad(a, (2,), 'mean')
array([3, 3, 1, 2, 3, 4, 5, 3, 3])

>>> np.pad(a, (2,), 'median')
array([3, 3, 1, 2, 3, 4, 5, 3, 3])

>>> a = [[1, 2], [3, 4]]
>>> np.pad(a, ((3, 2), (2, 3)), 'minimum')
array([[1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [3, 3, 3, 4, 3, 3, 3],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1]])

>>> a = [1, 2, 3, 4, 5]
>>> np.pad(a, (2, 3), 'reflect')
array([3, 2, 1, 2, 3, 4, 5, 4, 3, 2])

>>> np.pad(a, (2, 3), 'reflect', reflect_type='odd')
array([-1,  0,  1,  2,  3,  4,  5,  6,  7,  8])

>>> np.pad(a, (2, 3), 'symmetric')
array([2, 1, 1, 2, 3, 4, 5, 5, 4, 3])

>>> np.pad(a, (2, 3), 'symmetric', reflect_type='odd')
array([0, 1, 1, 2, 3, 4, 5, 5, 6, 7])

>>> np.pad(a, (2, 3), 'wrap')
array([4, 5, 1, 2, 3, 4, 5, 1, 2, 3])

>>> def pad_with(vector, pad_width, iaxis, kwargs):
...     pad_value = kwargs.get('padder', 10)
...     vector[:pad_width[0]] = pad_value
...     vector[-pad_width[1]:] = pad_value
...     return vector
>>> a = np.arange(6)
>>> a = a.reshape((2, 3))
>>> np.pad(a, 2, pad_with)
array([[10, 10, 10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10, 10, 10],
       [10, 10,  0,  1,  2, 10, 10],
       [10, 10,  3,  4,  5, 10, 10],
       [10, 10, 10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10, 10, 10]])
>>> np.pad(a, 2, pad_with, padder=100)
array([[100, 100, 100, 100, 100, 100, 100],
       [100, 100, 100, 100, 100, 100, 100],
       [100, 100,   0,   1,   2, 100, 100],
       [100, 100,   3,   4,   5, 100, 100],
       [100, 100, 100, 100, 100, 100, 100],
       [100, 100, 100, 100, 100, 100, 100]])
Ivan Hoffmann
źródło