Keras, jak uzyskać wynik każdej warstwy?

155

Wyszkoliłem binarny model klasyfikacji w CNN, a oto mój kod

model = Sequential()
model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1],
                        border_mode='valid',
                        input_shape=input_shape))
model.add(Activation('relu'))
model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1]))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=pool_size))
# (16, 16, 32)
model.add(Convolution2D(nb_filters*2, kernel_size[0], kernel_size[1]))
model.add(Activation('relu'))
model.add(Convolution2D(nb_filters*2, kernel_size[0], kernel_size[1]))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=pool_size))
# (8, 8, 64) = (2048)
model.add(Flatten())
model.add(Dense(1024))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(2))  # define a binary classification problem
model.add(Activation('softmax'))

model.compile(loss='categorical_crossentropy',
              optimizer='adadelta',
              metrics=['accuracy'])
model.fit(x_train, y_train,
          batch_size=batch_size,
          nb_epoch=nb_epoch,
          verbose=1,
          validation_data=(x_test, y_test))

I tutaj chcę uzyskać dane wyjściowe każdej warstwy, tak jak TensorFlow, jak mogę to zrobić?

Idąc moją drogą
źródło

Odpowiedzi:

182

Możesz łatwo uzyskać dane wyjściowe dowolnej warstwy, używając: model.layers[index].output

Dla wszystkich warstw użyj tego:

from keras import backend as K

inp = model.input                                           # input placeholder
outputs = [layer.output for layer in model.layers]          # all layer outputs
functors = [K.function([inp, K.learning_phase()], [out]) for out in outputs]    # evaluation functions

# Testing
test = np.random.random(input_shape)[np.newaxis,...]
layer_outs = [func([test, 1.]) for func in functors]
print layer_outs

Uwaga: aby zasymulować użycie Dropout, learning_phasetak jak 1.w layer_outsprzypadku innych zastosowań0.

Edycja: (na podstawie komentarzy)

K.function tworzy funkcje tensorowe theano / tensorflow, które są później używane do uzyskania danych wyjściowych z wykresu symbolicznego podanego na wejściu.

Teraz K.learning_phase()jest wymagane jako dane wejściowe, ponieważ wiele warstw Keras, takich jak Dropout / Batchnomalization, zależy od tego, aby zmienić zachowanie podczas treningu i czasu testu.

Więc jeśli usuniesz warstwę dropout w swoim kodzie, możesz po prostu użyć:

from keras import backend as K

inp = model.input                                           # input placeholder
outputs = [layer.output for layer in model.layers]          # all layer outputs
functors = [K.function([inp], [out]) for out in outputs]    # evaluation functions

# Testing
test = np.random.random(input_shape)[np.newaxis,...]
layer_outs = [func([test]) for func in functors]
print layer_outs

Edycja 2: bardziej zoptymalizowana

Właśnie zdałem sobie sprawę, że poprzednia odpowiedź nie jest tak zoptymalizowana, ponieważ dla każdej oceny funkcji dane będą przesyłane do pamięci CPU-> GPU, a także obliczenia tensora muszą być wykonane dla niższych warstw przez n-over.

Zamiast tego jest to znacznie lepszy sposób, ponieważ nie potrzebujesz wielu funkcji, ale pojedyncza funkcja dająca listę wszystkich wyników:

from keras import backend as K

inp = model.input                                           # input placeholder
outputs = [layer.output for layer in model.layers]          # all layer outputs
functor = K.function([inp, K.learning_phase()], outputs )   # evaluation function

# Testing
test = np.random.random(input_shape)[np.newaxis,...]
layer_outs = functor([test, 1.])
print layer_outs
indraforyou
źródło
2
sir, twoja odpowiedź jest dobra, co K.function([inp]+ [K.learning_phase()], [out])oznacza w twoim kodzie?
GoingMyWay
Doskonała odpowiedź, np.random.random(input_shape)[np.newaxis,...]można ją również zapisać jakonp.random.random(input_shape)[np.newaxis,:]
Tom
Co to jest funkcja K.? jak to przeszło do GPU (MPI?)? co jest za kulisami? Jak się rozmawia z CUDA? gdzie jest kod źródłowy?
Stav Bodik
3
@StavBodik Model buduje funkcję predykcji przy użyciu K.function tutaj , a predykcja używa jej w pętli predykcji tutaj . Przewiduj pętle na podstawie rozmiaru partii (jeśli nie ustawisz wartości domyślnej na 32), ale to złagodzi ograniczenia pamięci GPU. Więc nie jestem pewien, dlaczego obserwujesz, model.predictjest szybszy.
indraforyou
1
Otrzymuję to: InvalidArgumentError: S_input_39: 0 jest zarówno podawany, jak i pobierany. ... ktoś ma pomysły?
matematyka
138

Z https://keras.io/getting-started/faq/#how-can-i-obtain-the-output-of-an-intermediate-layer

Jednym prostym sposobem jest utworzenie nowego modelu, który wygeneruje warstwy, które Cię interesują:

from keras.models import Model

model = ...  # include here your original model

layer_name = 'my_layer'
intermediate_layer_model = Model(inputs=model.input,
                                 outputs=model.get_layer(layer_name).output)
intermediate_output = intermediate_layer_model.predict(data)

Alternatywnie możesz zbudować funkcję Keras, która zwróci dane wyjściowe określonej warstwy przy określonych danych wejściowych, na przykład:

from keras import backend as K

# with a Sequential model
get_3rd_layer_output = K.function([model.layers[0].input],
                                  [model.layers[3].output])
layer_output = get_3rd_layer_output([x])[0]
niebieskie niebo
źródło
gdybym mógł, dałbym ci dwa ^. Ten sposób jest po prostu o wiele wygodniejszy, gdy masz dużo danych wejściowych.
Dan Erez
Jest to całkiem jasne z twojego kodu powyżej, ale tylko po to, aby dwukrotnie sprawdzić moje zrozumienie: po utworzeniu modelu z istniejącego modelu (zakładając, że jest już wytrenowany), nie ma potrzeby wywoływania set_weights w nowym modelu. Czy to jest poprawne?
JZ
jaka jest różnica między layer_output = get_3rd_layer_output([X, 0])[0]i layer_output = get_3rd_layer_output([X, 1])[0]Dokumentacja wspomina o trybie pociągu i trybie testowym
Jason
przepraszam, czy możesz mi wyjaśnić, co dokładnie robi ten model? Czy ty też musisz to trenować? Nie mogę sobie wyobrazić żadnego schematu. Dodajesz warstwę wejściową innego modelu, a następnie dodajesz losową warstwę pośrednią tego innego modelu jako dane wyjściowe i wprowadzasz do niej dane wejściowe? Dlaczego to zamiast zasilać oryginalny model i uzyskać bezpośredni dostęp do dowolnej warstwy pośredniej, w której się on znajduje? Po co tworzyć ten wyjątkowo dziwny model? I czy nie wpłynie to na wynik? czy nie będzie próbował się uczyć lub wymagać treningu, czy też warstwa ma własne ciężarki, które zostały wcześniej wytrenowane z oryginalnego modelu?
PedroD
19

Opierając się na wszystkich dobrych odpowiedziach tego wątku, napisałem bibliotekę do pobierania danych wyjściowych z każdej warstwy. Abstrahuje od całej złożoności i został zaprojektowany tak, aby był jak najbardziej przyjazny dla użytkownika:

https://github.com/philipperemy/keract

Obsługuje prawie wszystkie przypadki skrajne

Mam nadzieję, że to pomoże!

Philippe Remy
źródło
8

Następujące wygląda dla mnie bardzo prosto:

model.layers[idx].output

Powyżej znajduje się obiekt tensorowy, więc możesz go modyfikować za pomocą operacji, które można zastosować do obiektu tensora.

Na przykład, aby uzyskać kształt model.layers[idx].output.get_shape()

idx jest indeksem warstwy i można go znaleźć na podstawie model.summary()

diabeł w szczegółach
źródło
1
Co jest nie tak z tą odpowiedzią? Dlaczego nie jest to uznawane za najlepszą odpowiedź?
Black Jack 21
1
Zwraca obiekt tensora, a nie ramkę danych. tf działa dziwnie.
HashRocketSyntax
7

Napisałem tę funkcję dla siebie (w Jupyter) i zainspirowała ją odpowiedź indraforyou . Automatycznie wykreśli wszystkie wyniki warstw. Twoje obrazy muszą mieć kształt (x, y, 1), gdzie 1 oznacza 1 kanał. Po prostu wywołujesz plot_layer_outputs (...), aby plotować.

%matplotlib inline
import matplotlib.pyplot as plt
from keras import backend as K

def get_layer_outputs():
    test_image = YOUR IMAGE GOES HERE!!!
    outputs    = [layer.output for layer in model.layers]          # all layer outputs
    comp_graph = [K.function([model.input]+ [K.learning_phase()], [output]) for output in outputs]  # evaluation functions

    # Testing
    layer_outputs_list = [op([test_image, 1.]) for op in comp_graph]
    layer_outputs = []

    for layer_output in layer_outputs_list:
        print(layer_output[0][0].shape, end='\n-------------------\n')
        layer_outputs.append(layer_output[0][0])

    return layer_outputs

def plot_layer_outputs(layer_number):    
    layer_outputs = get_layer_outputs()

    x_max = layer_outputs[layer_number].shape[0]
    y_max = layer_outputs[layer_number].shape[1]
    n     = layer_outputs[layer_number].shape[2]

    L = []
    for i in range(n):
        L.append(np.zeros((x_max, y_max)))

    for i in range(n):
        for x in range(x_max):
            for y in range(y_max):
                L[i][x][y] = layer_outputs[layer_number][x][y][i]


    for img in L:
        plt.figure()
        plt.imshow(img, interpolation='nearest')
Miladiouss
źródło
Co jeśli model ma kilka wejść? Jak określić dane wejściowe?
Antonio Sesto
W tym wierszu: layer_outputs_list = [op ([test_image, 1.]). Czy 1. musi być równe 0? Wydaje się, że 1 oznacza trening, a 0 oznacza testowanie? Nie jest?
Kongsea
To nie działa dla mnie. Użyłem kolorowego obrazu i wyświetla mi się błąd: InvalidArgumentError: input_2: 0 jest zarówno podawany, jak i pobierany.
Vaibhav K
5

Od: https://github.com/philipperemy/keras-visualize-activations/blob/master/read_activations.py

import keras.backend as K

def get_activations(model, model_inputs, print_shape_only=False, layer_name=None):
    print('----- activations -----')
    activations = []
    inp = model.input

    model_multi_inputs_cond = True
    if not isinstance(inp, list):
        # only one input! let's wrap it in a list.
        inp = [inp]
        model_multi_inputs_cond = False

    outputs = [layer.output for layer in model.layers if
               layer.name == layer_name or layer_name is None]  # all layer outputs

    funcs = [K.function(inp + [K.learning_phase()], [out]) for out in outputs]  # evaluation functions

    if model_multi_inputs_cond:
        list_inputs = []
        list_inputs.extend(model_inputs)
        list_inputs.append(0.)
    else:
        list_inputs = [model_inputs, 0.]

    # Learning phase. 0 = Test mode (no dropout or batch normalization)
    # layer_outputs = [func([model_inputs, 0.])[0] for func in funcs]
    layer_outputs = [func(list_inputs)[0] for func in funcs]
    for layer_activations in layer_outputs:
        activations.append(layer_activations)
        if print_shape_only:
            print(layer_activations.shape)
        else:
            print(layer_activations)
    return activations
cannin
źródło
Link jest przestarzały.
Saeed
5

Chciałem dodać to jako komentarz (ale nie mam wystarczająco wysokiego przedstawiciela) do odpowiedzi @ indraforyou, aby poprawić problem wymieniony w komentarzu @ mathtick. Aby uniknąć InvalidArgumentError: input_X:Y is both fed and fetched.wyjątek, wystarczy zamienić linię outputs = [layer.output for layer in model.layers]z outputs = [layer.output for layer in model.layers][1:], tj

dostosowywanie minimalnego przykładu roboczego indraforyou:

from keras import backend as K 
inp = model.input                                           # input placeholder
outputs = [layer.output for layer in model.layers][1:]        # all layer outputs except first (input) layer
functor = K.function([inp, K.learning_phase()], outputs )   # evaluation function

# Testing
test = np.random.random(input_shape)[np.newaxis,...]
layer_outs = functor([test, 1.])
print layer_outs

ps moje próby wypróbowania rzeczy takich jak outputs = [layer.output for layer in model.layers[1:]]nie zadziałały.

KamKam
źródło
1
to nie jest dokładnie poprawne. Dzieje się tak tylko wtedy, gdy warstwa wejściowa jest zdefiniowana jako pierwsza.
Mpizos Dimitris
Dzięki, to zadziałało dla mnie i chcę tylko sprawdzić, czy rozumiem dlaczego, na podstawie komentarza Mpizos: mój model ma tylko 3 warstwy (osadzanie słów - BiLSTM - CRF), więc myślę, że musiałem wykluczyć warstwę [0], ponieważ jest tylko osadzanie i nie powinno mieć aktywacji, prawda?
KMunro
@MpizosDimitris tak, to prawda, ale w przykładzie dostarczonym przez @indraforyou (który poprawiałem) tak było. @KMunro, jeśli dobrze rozumiem, powodem, dla którego nie dbasz o wynik pierwszej warstwy, jest to, że jest to po prostu wynik osadzania słowa, które jest po prostu słowem osadzającym się w formie tensora (który jest po prostu dane wejściowe do części „sieciowej” kerasmodelu). Twoja warstwa osadzania słów jest równoważna warstwie wejściowej w podanym przykładzie.
KamKam
3

Zakładając, że masz:

1- Keras wstępnie przeszkolony model.

2- Wprowadź xjako obraz lub zestaw obrazów. Rozdzielczość obrazu powinna być zgodna z wymiarami warstwy wejściowej. Na przykład 80 * 80 * 3 dla obrazu 3-kanałowego (RGB).

3- Nazwa wyjścia, które layerma zostać aktywowane. Na przykład warstwa „flatten_2”. Powinno to być zawarte w layer_nameszmiennej, reprezentuje nazwę warstw podanych model.

4- batch_sizeto argument opcjonalny.

Następnie możesz łatwo użyć get_activationfunkcji, aby uzyskać aktywację wyjścia layerdla danego wejścia xi wstępnie wytrenować model:

import six
import numpy as np
import keras.backend as k
from numpy import float32
def get_activations(x, model, layer, batch_size=128):
"""
Return the output of the specified layer for input `x`. `layer` is specified by layer index (between 0 and
`nb_layers - 1`) or by name. The number of layers can be determined by counting the results returned by
calling `layer_names`.
:param x: Input for computing the activations.
:type x: `np.ndarray`. Example: x.shape = (80, 80, 3)
:param model: pre-trained Keras model. Including weights.
:type model: keras.engine.sequential.Sequential. Example: model.input_shape = (None, 80, 80, 3)
:param layer: Layer for computing the activations
:type layer: `int` or `str`. Example: layer = 'flatten_2'
:param batch_size: Size of batches.
:type batch_size: `int`
:return: The output of `layer`, where the first dimension is the batch size corresponding to `x`.
:rtype: `np.ndarray`. Example: activations.shape = (1, 2000)
"""

    layer_names = [layer.name for layer in model.layers]
    if isinstance(layer, six.string_types):
        if layer not in layer_names:
            raise ValueError('Layer name %s is not part of the graph.' % layer)
        layer_name = layer
    elif isinstance(layer, int):
        if layer < 0 or layer >= len(layer_names):
            raise ValueError('Layer index %d is outside of range (0 to %d included).'
                             % (layer, len(layer_names) - 1))
        layer_name = layer_names[layer]
    else:
        raise TypeError('Layer must be of type `str` or `int`.')

    layer_output = model.get_layer(layer_name).output
    layer_input = model.input
    output_func = k.function([layer_input], [layer_output])

    # Apply preprocessing
    if x.shape == k.int_shape(model.input)[1:]:
        x_preproc = np.expand_dims(x, 0)
    else:
        x_preproc = x
    assert len(x_preproc.shape) == 4

    # Determine shape of expected output and prepare array
    output_shape = output_func([x_preproc[0][None, ...]])[0].shape
    activations = np.zeros((x_preproc.shape[0],) + output_shape[1:], dtype=float32)

    # Get activations with batching
    for batch_index in range(int(np.ceil(x_preproc.shape[0] / float(batch_size)))):
        begin, end = batch_index * batch_size, min((batch_index + 1) * batch_size, x_preproc.shape[0])
        activations[begin:end] = output_func([x_preproc[begin:end]])[0]

    return activations
imanzabet
źródło
2

Jeśli masz jeden z następujących przypadków:

  • błąd: InvalidArgumentError: input_X:Y is both fed and fetched
  • przypadek wielu wejść

Musisz wprowadzić następujące zmiany:

  • dodaj filtrowanie dla warstw wejściowych w outputszmiennej
  • minimalna zmiana w functorspętli

Minimalny przykład:

from keras.engine.input_layer import InputLayer
inp = model.input
outputs = [layer.output for layer in model.layers if not isinstance(layer, InputLayer)]
functors = [K.function(inp + [K.learning_phase()], [x]) for x in outputs]
layer_outputs = [fun([x1, x2, xn, 1]) for fun in functors]
Mpizos Dimitris
źródło
Co to znaczy [x1, x2, xn, 1]? Mój x1 nie jest zdefiniowany i chciałbym zrozumieć, co tam definiujesz.
HashRocketSyntax
@HashRocketSyntax x1i x2są danymi wejściowymi modelu. Jak stwierdzono, o ile masz 2 wejścia w swoim modelu.
Mpizos Dimitris
1

Cóż, inne odpowiedzi są bardzo kompletne, ale istnieje bardzo podstawowy sposób „zobaczenia”, a nie „uzyskania” kształtów.

Po prostu zrób model.summary(). Drukuje wszystkie warstwy i ich kształty wyjściowe. Wartości „Brak” będą wskazywać zmienne wymiary, a pierwszym wymiarem będzie rozmiar partii.

Daniel Möller
źródło
Chodzi o wynik warstwy (dane wejściowe dla warstwy podstawowej), a nie warstwę.
matematyka