Co w artykule „Szybszy RCNN”, gdy mówimy o zakotwiczeniu, co oznaczają przez użycie „piramid pól referencyjnych” i jak to się robi? Czy to tylko oznacza, że w każdym punkcie kotwiczenia W * H * k generowana jest ramka ograniczająca?
Gdzie W = szerokość, H = wysokość, a k = liczba współczynników kształtu * skale num
link do artykułu: https://arxiv.org/abs/1506.01497
deep-learning
computer-vision
BadProgrammer
źródło
źródło
Odpowiedzi:
Kotwice wyjaśnione
Kotwice
Na razie zignoruj fantazyjne określenie „piramidy pól referencyjnych”, kotwice są niczym innym jak prostokątami o stałej wielkości, które mają być dostarczane do Regionalnej Sieci Propozycji. Zakotwiczenia są zdefiniowane na ostatniej splotowej mapie obiektów, co oznacza, że jest ich , ale odpowiadają obrazowi. Dla każdej kotwicy wówczas RPN przewiduje prawdopodobieństwo ogólnego umieszczenia obiektu i czterech współrzędnych korekcyjnych w celu przesunięcia i zmiany rozmiaru kotwicy do właściwej pozycji. Ale w jaki sposób geometria kotwic ma coś wspólnego z RPN?(H.fae a t u r e m a p∗W.fae a t u r e m a p) ∗ ( k )
Kotwice faktycznie pojawiają się w funkcji Loss
Podczas szkolenia RPN najpierw do każdej kotwicy przypisywana jest etykieta klasy binarnej. Zakotwiczenia z przecięciem przez Unię ( IoU ) pokrywają się z polem prawdziwości gruntu, wyższym niż określony próg, mają przypisaną etykietę dodatnią (podobnie zakotwiczenia z IoU mniejszym niż określony próg będą oznaczone jako Negatywne). Te etykiety są następnie używane do obliczania funkcji utraty:
gdzie i h oznaczają współrzędne środkowe ramki oraz jej szerokość i wysokość. Zmienne i dotyczą odpowiednio pola przewidywanego, pola zakotwiczenia i pola prawdziwości podłoża (podobnie dla ).x , y, w , x ,xza, x∗ y, w , h
Zauważ też, że kotwice bez etykiety nie są klasyfikowane ani przekształcane, a RPM po prostu wyrzuca je z obliczeń. Po wykonaniu zadania RPN i wygenerowaniu propozycji reszta jest bardzo podobna do szybkich R-CNN.
źródło
Przeczytałem ten artykuł wczoraj i, na pierwszy rzut oka, było to również dla mnie mylące. Po ponownym przeczytaniu doszedłem do tego wniosku:
7x7x512 (HxWxD)
.3x3
warstwą konwekcyjną. Rozmiar wyjściowy to7x7x512
(jeśli zastosowano padding).7x7x(2k+4k)
(np.7x7x54
) Warstwę z1x1
warstwą konwekcyjną dla każdejk
skrzynki kotwiczącej.Teraz, zgodnie z rysunkiem 1 w artykule, możesz mieć piramidę obrazów wejściowych (te same obrazy o innej skali), piramidę filtrów (filtry o innej skali, na tej samej warstwie) lub piramidę pól referencyjnych. Ten ostatni odnosi się do
k
ramek kontrolnych na ostatniej warstwie sieci propozycji regionu. Zamiast filtrów o różnych rozmiarach ułożonych jeden na drugim (środkowa część), filtry o innym rozmiarze i proporcjach są ułożone jeden na drugim.W skrócie, na każdym punkcie zakotwiczenia (
HxW
np7x7
) piramidy pola odniesienia (k
EG9
) jest używany.źródło
3x3
warstwa konwekcyjna7x7
? W prototeksie napisano, że wypełnienie to 1 na ostatniej warstwie VGG16.