Hiperplany optymalnie klasyfikują dane, gdy dane wejściowe są warunkowo niezależne - dlaczego?

10

W artykule zatytułowanym Głębokie uczenie się i zasada wąskiego gardła informacji autorzy stwierdzają w sekcji II A), co następuje:

Pojedyncze neurony klasyfikują tylko liniowo separowalne dane wejściowe, ponieważ mogą implementować tylko hiperpłaszczyzny w swojej przestrzeni wejściowej u=wh+b. Hiperplany mogą optymalnie klasyfikować dane, gdy dane wejściowe są warunkowo niezależne.

Aby to pokazać, wyprowadzają następujące. Korzystając z twierdzenia Bayesa, uzyskują:

p(y|x)=11+exp(logp(x|y)p(x|y)logp(y)p(y)) (1)

Gdzie x jest wejściem, y jest klasą i y jest przewidywaną klasą (zakładam, yNie określono). Kontynuując, twierdzą, że:

p(x|y)p(x|y)=j=1N[p(xj|y)p(xj|y)]np(xj) (2)

Gdzie N jest wymiarem wejściowym i nNie jestem pewien (znowu oba są niezdefiniowane). Biorąc pod uwagę neuron esicy, z funkcją aktywacji esicyσ(u)=11+exp(u) i wstępna aktywacja u, po wstawieniu (2) do (1) otrzymujemy optymalne wartości masy wj=logp(xj|y)p(xj|y) i b=logp(y)p(y), gdy wartości wejściowe hj=np(xj).

Teraz przejdź do moich pytań. Rozumiem, jak wstawianie (2) do (1) prowadzi do optymalnej masy i wartości wejściowychw,b,h. Jednak nie rozumiem, co następuje:

  1. Jak powstaje (1) przy użyciu twierdzenia Bayesa?
  2. Jak powstaje (2)? Co jestn? Jakie jest jego znaczenie? Zakładam, że ma to coś wspólnego z warunkową niezależnością
  3. Nawet jeśli wymiary x są warunkowo niezależne, to jak można stwierdzić, że jest ono równe skalowanemu prawdopodobieństwu? (tj. jak możesz to stwierdzićhjot=np(xjot)?)

EDYCJA: zmienna yjest zmienną klasy binarnej. Z tego zakładam, żeyjest „inną” klasą. To rozwiązałoby pytanie 1. Zgadzasz się?

Spurra
źródło
Staram się zrozumieć, skąd pochodzi równanie 2, pomimo wskazówek w odpowiedzi autora artykułu (prof. Tishby). Rozumiem część wynikającą z założenia o warunkowej niezależności. Nie jestem jednak pewien wykładnikanp(xjot)- dlaczego tam jest?
IcannotFix Ten

Odpowiedzi:

5

Przepraszam za brakujące szczegóły w naszym krótkim artykule, ale te relacje i powiązania między testem ilorazu wiarygodności a neuronami sigmoidalnymi z pewnością nie są nowe i można je znaleźć w podręcznikach (np. Bishop 2006). W naszym artykule „N” jest wymiarem wejściowym, a „n” jest rozmiarem próbki testowej (który faktycznie przełożył się na wejściowy SNR przy założeniu, że SNR rośnie jak sqrt (n)). Połączenie z funkcją sigmoidalną odbywa się za pomocą reguły Bayesa, jako a posteriori klasy. Reszta artykułu i nasz nowszy i ważniejszy artykuł z 2017 roku nie zależy od tego.

Naftali Tishby

Naftali Tishby
źródło
2
Dziękujemy za wyjaśnienie tego tutaj. Standardową praktyką w tej społeczności jest pisanie pełnych cytatów, aby zainteresowani czytelnicy mogli szukać źródeł. Czy możesz to zrobić dla Bishopa (2006)?
mkt - Przywróć Monikę
5

Jest to konfiguracja modelu, w której autorzy używają specjalnej formy twierdzenia Bayesa, która ma zastosowanie, gdy masz interesującą zmienną binarną. Najpierw wyprowadzają tę specjalną formę twierdzenia Bayesa jako równanie (1), a następnie pokazują, że warunek w równaniu (2) prowadzi ich do postaci liniowej określonej dla ich sieci. Należy zauważyć, że to ostatnie równanie nie wywodzi się z poprzednich warunków - jest to raczej warunek dla postaci liniowej, której używają do swojej sieci.


Wyprowadzenie pierwszego równania: równanie (1) w pracy jest tylko formą twierdzenia Bayesa, która określa warunkowe prawdopodobieństwo zainteresowania w kategoriach standardowej funkcji logistycznej (sigmoidalnej) działającej na funkcjach prawdopodobieństwa i wcześniejszych. Nabierającyy i y być dwoma wynikami binarnymi zmiennej losowej Yi zastosowanie twierdzenia Bayesa daje:

p(y|x)=p(y,x)p(x)=p(x|y)p(y)p(x|y)p(y)+p(x|y)p(y)=11+p(x|y)p(y)/p(x|y)p(y)=11+exp(log(p(x|y)p(y)p(x|y)p(y)))=11+exp(-logp(x|y)p(x|y)-logp(y)p(y))=logistyka(logp(x|y)p(x|y)+logp(y)p(y)).

Wykorzystanie równania (2) jako warunku dla formy lienarnej sieci: Jak stwierdzono powyżej, równanie to nie jest czymś, co wynika z wcześniejszych wyników. Jest to raczej wystarczający warunek, który prowadzi do formy liniowej, którą autorzy stosują w swoim modelu - tj. Autorzy twierdzą, że jeśli to równanie się zachowuje, to następują pewne kolejne wyniki. Pozwalając na wektor wejściowyx=(x1,...,xN.) mieć długość N., jeśli równanie (2) się utrzymuje, to przyjęcie logarytmów obu stron daje:

logp(x|y)p(x|y)=logja=1N.[p(xja|y)p(xja|y)]np(xja)=ja=1N.np(xja)log[p(xja|y)p(xja|y)]=ja=1N.hjawja.

Pod tym warunkiem otrzymujemy zatem formę tylną:

p(y|x)=logistyka(logp(x|y)p(x|y)+logp(y)p(y))=logistyka(ja=1N.hjawja+b),

która jest formą używaną przez autorów w ich sieci. Jest to modelowa forma postulowana przez autorów w sekcji tła, przed podaniem równań (1) - (2). Artykuł nie definiujenjest w konfiguracji tego modelu, ale jak zauważyłeś, odpowiedź prof Tishby mówi, że jest to wielkość próbki testowej. W odniesieniu do trzeciego pytania wydaje się, że wymóg równania (2) oznacza, że ​​wartości wxnie są podane warunkowo niezależniey.

Ben - Przywróć Monikę
źródło
Profesor Tishby (autor) mówi w swojej własnej odpowiedzi, że nto wielkość próbki testowej. Właśnie dlatego czułem, że eq (2) ma znacznie bogatszą interpretację niż tylko arbitralny warunek dla liniowej formy sieci.
IcannotFix Ten
Dzięki - zredagowałem swoją odpowiedź, aby odzwierciedlić te dodatkowe informacje.
Ben - Przywróć Monikę
4

Za 1

P.(yx)=P.(y,x)P.(x)

=P.(y,x)jaP.(yja,x)

Teraz jak yja jest binarny, staje się:

=P.(y,x)P.(y,x)+P.(y,x)

=11+P.(y,x)P.(y,x)

=11+mixp[-losol P.(y,x)P.(y,x)]

a stamtąd jego właściwością logarytmu jest przejście do ostatecznej formy (do tego momentu powinno być wystarczająco jasne, daj mi znać, jeśli nie).

Chris Ormandy
źródło