W artykule zatytułowanym Głębokie uczenie się i zasada wąskiego gardła informacji autorzy stwierdzają w sekcji II A), co następuje:
Pojedyncze neurony klasyfikują tylko liniowo separowalne dane wejściowe, ponieważ mogą implementować tylko hiperpłaszczyzny w swojej przestrzeni wejściowej . Hiperplany mogą optymalnie klasyfikować dane, gdy dane wejściowe są warunkowo niezależne.
Aby to pokazać, wyprowadzają następujące. Korzystając z twierdzenia Bayesa, uzyskują:
(1)
Gdzie jest wejściem, jest klasą i jest przewidywaną klasą (zakładam, Nie określono). Kontynuując, twierdzą, że:
(2)
Gdzie jest wymiarem wejściowym i Nie jestem pewien (znowu oba są niezdefiniowane). Biorąc pod uwagę neuron esicy, z funkcją aktywacji esicy i wstępna aktywacja , po wstawieniu (2) do (1) otrzymujemy optymalne wartości masy i , gdy wartości wejściowe .
Teraz przejdź do moich pytań. Rozumiem, jak wstawianie (2) do (1) prowadzi do optymalnej masy i wartości wejściowych. Jednak nie rozumiem, co następuje:
- Jak powstaje (1) przy użyciu twierdzenia Bayesa?
- Jak powstaje (2)? Co jest? Jakie jest jego znaczenie? Zakładam, że ma to coś wspólnego z warunkową niezależnością
- Nawet jeśli wymiary x są warunkowo niezależne, to jak można stwierdzić, że jest ono równe skalowanemu prawdopodobieństwu? (tj. jak możesz to stwierdzić?)
EDYCJA: zmienna jest zmienną klasy binarnej. Z tego zakładam, żejest „inną” klasą. To rozwiązałoby pytanie 1. Zgadzasz się?
Odpowiedzi:
Przepraszam za brakujące szczegóły w naszym krótkim artykule, ale te relacje i powiązania między testem ilorazu wiarygodności a neuronami sigmoidalnymi z pewnością nie są nowe i można je znaleźć w podręcznikach (np. Bishop 2006). W naszym artykule „N” jest wymiarem wejściowym, a „n” jest rozmiarem próbki testowej (który faktycznie przełożył się na wejściowy SNR przy założeniu, że SNR rośnie jak sqrt (n)). Połączenie z funkcją sigmoidalną odbywa się za pomocą reguły Bayesa, jako a posteriori klasy. Reszta artykułu i nasz nowszy i ważniejszy artykuł z 2017 roku nie zależy od tego.
Naftali Tishby
źródło
Jest to konfiguracja modelu, w której autorzy używają specjalnej formy twierdzenia Bayesa, która ma zastosowanie, gdy masz interesującą zmienną binarną. Najpierw wyprowadzają tę specjalną formę twierdzenia Bayesa jako równanie (1), a następnie pokazują, że warunek w równaniu (2) prowadzi ich do postaci liniowej określonej dla ich sieci. Należy zauważyć, że to ostatnie równanie nie wywodzi się z poprzednich warunków - jest to raczej warunek dla postaci liniowej, której używają do swojej sieci.
Wyprowadzenie pierwszego równania: równanie (1) w pracy jest tylko formą twierdzenia Bayesa, która określa warunkowe prawdopodobieństwo zainteresowania w kategoriach standardowej funkcji logistycznej (sigmoidalnej) działającej na funkcjach prawdopodobieństwa i wcześniejszych. Nabierającyy i y′ być dwoma wynikami binarnymi zmiennej losowej Y i zastosowanie twierdzenia Bayesa daje:
Wykorzystanie równania (2) jako warunku dla formy lienarnej sieci: Jak stwierdzono powyżej, równanie to nie jest czymś, co wynika z wcześniejszych wyników. Jest to raczej wystarczający warunek, który prowadzi do formy liniowej, którą autorzy stosują w swoim modelu - tj. Autorzy twierdzą, że jeśli to równanie się zachowuje, to następują pewne kolejne wyniki. Pozwalając na wektor wejściowyx =(x1, . . . ,xN.) mieć długość N. , jeśli równanie (2) się utrzymuje, to przyjęcie logarytmów obu stron daje:
Pod tym warunkiem otrzymujemy zatem formę tylną:
która jest formą używaną przez autorów w ich sieci. Jest to modelowa forma postulowana przez autorów w sekcji tła, przed podaniem równań (1) - (2). Artykuł nie definiujen jest w konfiguracji tego modelu, ale jak zauważyłeś, odpowiedź prof Tishby mówi, że jest to wielkość próbki testowej. W odniesieniu do trzeciego pytania wydaje się, że wymóg równania (2) oznacza, że wartości wx nie są podane warunkowo niezależniey .
źródło
Za 1
Teraz jakyja jest binarny, staje się:
a stamtąd jego właściwością logarytmu jest przejście do ostatecznej formy (do tego momentu powinno być wystarczająco jasne, daj mi znać, jeśli nie).
źródło