Odnosi się to do artykułu Efektywna lokalizacja obiektu za pomocą sieci konwergentnych i z tego, co rozumiem, rezygnacja jest realizowana w 2D.
Po odczytaniu kodu z Keras o tym, jak zaimplementowano Upadek przestrzenny 2D, w zasadzie implementowana jest losowa binarna maska kształtu [batch_size, 1, 1, num_channels]. Co jednak dokładnie robi to przestrzenne opuszczanie 2D dla wejściowego bloku splotu kształtu [rozmiar_wsady, wysokość, szerokość, kanały_wierszy]?
Moje obecne przypuszczenie jest takie, że dla każdego piksela, jeśli którakolwiek z warstw / kanałów piksela ma wartość ujemną, całe kanały tego jednego piksela zostaną domyślnie ustawione na zero. Czy to jest poprawne?
Jeśli jednak moje przypuszczenie jest słuszne, to w jaki sposób użycie binarnej maski kształtu [rozmiar partii, wysokość, szerokość, liczba kanałów], które są dokładnie w wymiarze oryginalnego bloku wejściowego, daje zwykłe pominięcie elementu (jest to zgodne z oryginalna implementacja tensorflow, która ustawia kształt maski binarnej jako kształt danych wejściowych)? Ponieważ oznaczałoby to, że jeśli dowolny piksel w bloku konwekcyjnym ma wartość ujemną, wówczas cały blok konwekcyjny zostanie domyślnie ustawiony na 0. Jest to myląca część, której nie do końca rozumiem.
źródło