Powód, dla którego nie zmniejszono terminu odchylenia (regresji) w regresji

21

W przypadku modelu liniowego termin skurczu wynosi zawsze .P ( β )y=β0+xβ+εP(β)

Jaki jest powód, dla którego nie zmniejszamy terminu odchylenia (przechwytywania) ? Czy powinniśmy zmniejszyć termin obciążenia w modelach sieci neuronowej?β0

yliueagle
źródło
Biblioteka liblinearna do regresji logistycznej używana w scikit-learn karze termin odchylenia (myślę, że jest to artefakt implementacyjny, odchylenie jest traktowane jako dodatkowa zmienna wejściowa)
seanv507

Odpowiedzi:

33

Elementy uczenia statystycznego Hastie i in. określenie regresji grzbiet następująco (rozdział 3.4.1, równanie tzn. jednoznacznie wyłącz pojęcie przechwytywania β 0 z kary kalenicowej.

β^ridge=argminβ{i=1N(yiβ0j=1pxijβj)2+λj=1pβj2},
β0

Potem piszą:

[...] zauważ, że punkt przecięcia został pominięty w okresie kary. Kara za przechwycenie spowodowałaby, że procedura zależałaby od pochodzenia wybranego dla Y ; to znaczy, dodanie stałej C do każdego celu Y i nie będą po prostu spowodować przesunięcie przewidywania w tej samej wysokości , c .β0Ycyic

W istocie, w obecności perspektywie przechwytujący dodanie do wszystkich Y i po prostu spowodować p 0 wzrasta o C , jak również i odpowiednio wszystkie przewidywane wartości y i zwiększy także C . Nie jest to prawdą, jeśli punkt przecięcia jest karany: β 0 będzie musiało wzrosnąć o mniej niż c .cyiβ0cy^icβ0c

W rzeczywistości istnieje kilka przyjemnych i wygodnych właściwości regresji liniowej, które zależą od tego, czy istnieje odpowiedni (niezenalizowany) termin przechwytujący. Na przykład średnia wartość i średniej wartości y i są takie same i w związku z tym () kwadrat stwardnienie Współczynnik korelacji R wynosi współczynnik korelacji R 2 : ( R ) 2 = cos 2 ( Y , Y ) = Y2yiy^iRR2patrz np tego gwintu do wyjaśnienia:Interpretacja geometryczna wielokrotnego Współczynnik korelacjiRi współczynnik korelacjiR2.

(R)2=cos2(y^,y)=y^2y2=R2,
RR2

Karanie przechwytywania doprowadziłoby do tego, że to wszystko nie byłoby już prawdą.

ameba mówi Przywróć Monikę
źródło
2

Przypomnij sobie cel skurczu lub regularyzacji. Ma to na celu niedopuszczenie do tego, aby algorytm uczenia się nadpisywał dane treningowe lub równoważnie - zapobiegał wybieraniu dowolnie dużych wartości parametrów. Jest to bardziej prawdopodobne w przypadku zestawów danych zawierających więcej niż kilka przykładów szkolenia w obecności hałasu (bardzo interesująca dyskusja na temat obecności hałasu i jego wpływu jest omawiana w „Uczeniu się z danych” Yasera Abu-Mustafa). Model wyuczony na hałaśliwych danych bez regularyzacji prawdopodobnie będzie działał słabo w niektórych niewidzialnych punktach danych.

Mając to na uwadze, wyobraź sobie, że masz punkty danych 2D, które chcesz podzielić na dwie klasy. Po ustaleniu wszystkich parametrów polaryzacji z wyjątkiem, zmiana terminu polaryzacji po prostu przesunie granicę w górę lub w dół. Możesz to uogólnić na przestrzeń o wyższych wymiarach.

Algorytm uczenia się nie może ustawić dowolnie dużych wartości dla terminu polaryzacji, ponieważ spowoduje to potencjalnie wartość straty brutto (model nie będzie pasował do danych treningowych). Innymi słowy, biorąc pod uwagę pewien zestaw treningowy, ty (lub algorytm uczenia się) nie możesz przesunąć samolotu arbitralnie daleko od prawdziwego.

Tak więc nie ma powodu, aby zmniejszać termin uprzedzenia, algorytm uczenia się znajdzie dobry bez ryzyka nadmiernego dopasowania.

Ostatnia uwaga: w pewnym artykule widziałem, że pracując w wysoko wymiarowych przestrzeniach do klasyfikacji, nie ma ścisłej potrzeby modelowania pojęcia błędu wstępnego. Może to działać w przypadku danych rozdzielanych liniowo, ponieważ po dodaniu większej liczby wymiarów istnieje więcej możliwości oddzielenia dwóch klas.

Vladislavs Dovgalecs
źródło
Czy możesz podać odniesienia do niektórych artykułów, które mówią: „pracując w wysoko wymiarowych przestrzeniach do celów klasyfikacji, nie ma ścisłej potrzeby modelowania terminu stronniczości”?
chandresh
1

Termin przechwytywania absolutnie nie jest odporny na skurcz. Ogólne sformułowanie „skurczu” (tj. Regularyzacji) umieszcza termin regularyzacji w funkcji straty, np .:

RSS(β)=yiXiβ2

RegularizedLoss(β)=RSS(β)λf(β)

f(β)λ

βP(β)β0y=Xβ+ϵX1s

Teraz nie mogę mówić o regularyzacji sieci neuronowych. Jest możliwe, że dla sieci neuronowych chcesz uniknąć skurczenia się odchylenia polaryzacji lub w inny sposób zaprojektować funkcję straty regulowanej inaczej niż opisana powyżej formuła. Po prostu nie wiem. Ale mocno podejrzewam, że wagi i warunki uprzedzeń są razem regularyzowane.

David Marks
źródło
2
Zależy to od konwencji, ale np. The Elements of Statistics Learning autorstwa Hastie i in. zdefiniuj regresję kalenicy tak, aby przechwytywanie nie było karane (patrz moja odpowiedź). Podejrzewam, że może to być bardziej standardowe niż w innym przypadku.
ameba mówi Przywróć Monikę
1

Nie jestem pewien, czy powyższa odpowiedź Davida Marksa jest słuszna; według Andrew Ng, zgodnie z konwencją, współczynnik polaryzacji / przechwytywania zazwyczaj nie jest regulowany w regresji liniowej, a w każdym razie to, czy jest regularyzowany czy nie, nie robi istotnej różnicy.

ksenocyon
źródło
1

Dam najprostsze wyjaśnienie, a następnie rozwinę.

yt=εt
E[εt]=E[yt]0

β

ββ0

yt=β0+εt
E[yt]=β0+E[εt]
E[εt]=0β0=μ=E[yt]

Ten model nie jest tak seksowny jak oryginalny model, w rzeczywistości jest raczej głupiutki. Jest to jednak legalny model. Możesz na przykład uruchomić na nim ANOVA.

β0=E[yt]

Aksakal
źródło