Dlaczego założenie o normalności w regresji liniowej

15

Moje pytanie jest bardzo proste: dlaczego wybieramy normalny jako rozkład, za którym podąża warunek błędu przy założeniu regresji liniowej? Dlaczego nie wybieramy innych, takich jak mundur, t czy cokolwiek innego?

Mistrz Shi
źródło
5
Nie wybieramy normalnego założenia. Zdarza się tak, że gdy błąd jest normalny, współczynniki modelu dokładnie odpowiadają rozkładowi normalnemu, a do testowania hipotez na ich temat można zastosować dokładny test F.
AdamO,
10
Ponieważ matematyka działa na tyle łatwo, że ludzie mogliby z niej korzystać przed nowoczesnymi komputerami.
Nat
1
@AdamO Nie rozumiem; właśnie przedstawiłeś powody, dla których go wybraliśmy.
JiK
2
@JiK, gdybym mógł wybrać dystrybucje, statystyki nie byłyby wcale potrzebne. Prawdopodobnie byłby cały świat.
AdamO
1
@AdamO Możesz wybierać założenia dla swojego modelu podczas wnioskowania statystycznego, więc nie sądzę, że to oznacza, że ​​nie ma statystyk.
JiK

Odpowiedzi:

29

Wybieramy inne rozkłady błędów. W wielu przypadkach możesz to zrobić dość łatwo; jeśli używasz oszacowania maksymalnego prawdopodobieństwa, zmieni to funkcję straty. Z pewnością dzieje się tak w praktyce.

Laplace (podwójne błędy wykładnicze) odpowiada regresji najmniejszych odchyleń bezwzględnych / regresji L1 (o których wiele postów na stronie omawia). Czasami stosowane są regresje z błędami t (w niektórych przypadkach, ponieważ są bardziej odporne na błędy rażące), chociaż mogą mieć wadę - prawdopodobieństwo (a zatem ujemne straty) może mieć wiele trybów.

Jednolite błędy odpowiadają stracie L (minimalizują maksymalne odchylenie); taka regresja jest czasem nazywana przybliżeniem Czebyszewa (choć uwaga, ponieważ istnieje inna rzecz o zasadniczo tej samej nazwie). Ponownie jest to czasami wykonywane (w rzeczywistości w przypadku prostej regresji i niewielkich zestawów danych z ograniczonymi błędami ze stałym rozkładem dopasowanie często jest dość łatwe do znalezienia ręcznie, bezpośrednio na wykresie, chociaż w praktyce można stosować metody programowania liniowego lub inne algorytmy ; w rzeczywistości problemy z regresją L i L1 są podwójnymi względem siebie, co może czasami prowadzić do wygodnych skrótów dla niektórych problemów).

Oto przykład modelu „jednolitego błędu” dopasowanego ręcznie do danych:

Regresja L-infinity dopasowana ręcznie.  Dwa „najniższe” punkty pod paskiem punktów danych są oznaczone, a dwa „najwyższe” punkty nad paskiem danych są oznaczone.

Łatwo jest zidentyfikować (przesuwając linię prostą w kierunku danych), że cztery zaznaczone punkty są jedynymi kandydatami do bycia w aktywnym zbiorze; trzy z nich faktycznie utworzą aktywny zestaw (a krótkie sprawdzenie wkrótce określi, które trzy prowadzą do najwęższego pasma obejmującego wszystkie dane). Linia pośrodku tego pasma (zaznaczona na czerwono) jest wówczas oszacowaniem maksymalnego prawdopodobieństwa linii.

Możliwych jest wiele innych wyborów modelu, a wiele z nich zostało zastosowanych w praktyce.

Zauważ, że jeśli masz addytywne, niezależne błędy o stałym rozkładzie z gęstością postaci kexp(c.g(ε)) , maksymalizacja prawdopodobieństwa będzie odpowiadać zminimalizowaniuig(ei) , gdzieei jesti tą resztą.

Istnieje jednak wiele powodów, dla których najmniejsze kwadraty są popularnym wyborem, z których wiele nie wymaga żadnego założenia o normalności.

Glen_b - Przywróć Monikę
źródło
2
Świetna odpowiedź. Czy mógłbyś dodać kilka linków, które podają więcej szczegółów na temat tego, jak te odmiany są stosowane w praktyce?
rgk
(+1) Świetna odpowiedź. Czy mógłbyś udostępnić kod R użyty do dopasowania linii regresji ? L
COOLSerdash
1
Jak wyjaśniłem w tekście, dopasowałem go ręcznie, w sposób bardzo podobny do opisanego przeze mnie podejścia. Chociaż można to zrobić dość łatwo za pomocą kodu, dosłownie otworzyłem wykres w MS Paint i zidentyfikowałem trzy punkty w aktywnym zestawie (połączenie dwóch z nich dało nachylenie) - a następnie przesunąłem linię w połowie w kierunku trzeciego punktu (zmniejszając o połowę odległość w pionie w pikselach i przesuwając linię w górę o tyle pikseli) - chodzi o to, aby pokazać, jak proste może to być. Dziecko może zostać nauczone, aby to robić.
Glen_b
@Glen_b Rzeczywiście, byłem nastolatkiem, kiedy nauczono mnie robić to dokładnie w laboratorium fizyki pierwszego roku.
Peter Leopold
9

Często stosuje się założenie normalne / gaussowskie, ponieważ jest to najwygodniejszy obliczeniowo wybór. Obliczenie maksymalnego prawdopodobieństwa współczynników regresji jest kwadratowym problemem minimalizacji, który można rozwiązać za pomocą czystej algebry liniowej. Inne wybory rozkładów hałasu powodują bardziej skomplikowane problemy z optymalizacją, które zazwyczaj należy rozwiązać numerycznie. W szczególności problem może być niewypukły, co powoduje dodatkowe komplikacje.

Normalność niekoniecznie jest ogólnie dobrym założeniem. Rozkład normalny ma bardzo lekkie ogony, co czyni ocenę regresji dość wrażliwą na wartości odstające. Alternatywy, takie jak rozkłady Laplace'a lub t Studenta, są często lepsze, jeśli dane pomiarowe zawierają wartości odstające.

Aby uzyskać więcej informacji, zobacz przełomową książkę Petera Hubera „Solidne statystyki”.

Martin L.
źródło
2

Podczas pracy z tą hipotezą regresja oparta na kwadratowych errosach i maksymalne prawdopodobieństwo zapewniają to samo rozwiązanie. Jesteś również w stanie uzyskać proste testy F dla istotności współczynnika, a także przedziały ufności dla twoich prognoz.

Podsumowując, powodem, dla którego często wybieramy rozkład normalny, są jego właściwości, które często ułatwiają. Nie jest to również bardzo restrykcyjne założenie, ponieważ wiele innych rodzajów danych będzie przedstawiać się „jak zwykle”

W każdym razie, jak wspomniano w poprzedniej odpowiedzi, istnieje możliwość zdefiniowania modeli regresji dla innych rozkładów. Normalna okazuje się być najbardziej powtarzającą się

David
źródło
2

Glen_b ładnie wyjaśnił, że regresji OLS można uogólnić (maksymalizacji prawdopodobieństwa zamiast minimalizacji sumy kwadratów) i możemy zrobić wybrać inne dystrybucje.

Dlaczego jednak rozkład normalny jest tak często wybierany ?

Powodem jest to, że rozkład normalny występuje w wielu miejscach naturalnie. Jest trochę tak samo, jak często widzimy złoty stosunek lub liczby Fibonacciego występujące „spontanicznie” w różnych miejscach natury.

Rozkład normalny jest rozkładem granicznym sumy zmiennych o wariancji skończonej (możliwe są również mniej restrykcyjne ograniczenia). I bez przekraczania limitu jest to również dobre przybliżenie sumy skończonej liczby zmiennych. Ponieważ wiele zaobserwowanych błędów występuje jako suma wielu małych błędów nieobserwowanych, rozkład normalny jest dobrym przybliżeniem.

Zobacz także tutaj Znaczenie normalnej dystrybucji

gdzie maszyny do fasoli Galtona intuicyjnie pokazują tę zasadę

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png

Sextus Empiricus
źródło
-1

Dlaczego nie wybieramy innych dystrybucji?

yiRxiRnxi

y^i=wxi.

Strata z zaskoczenia jest zwykle najbardziej sensowną stratą:

L=logP(yixi).

Możesz myśleć o regresji liniowej jako o zastosowaniu gęstości normalnej ze stałą wariancją w powyższym równaniu:

L=logP(yixi)(yiy^i)2.

Prowadzi to do aktualizacji wagi:

wL=(y^iyi)xi


Zasadniczo, jeśli użyjesz innej wykładniczej dystrybucji rodziny, model ten nazywa się uogólnionym modelem liniowym . Różny rozkład odpowiada różnej gęstości, ale można go łatwiej sformalizować, zmieniając prognozę, wagę i cel.

WRn×k

u^ig(Wxi)

g:RkRkyi ui=T(yi)Rk

η

f(z)=h(z)exp(ηT(z)g(η)).

ηwxiz=yi

WL=Wlogf(x)=(g(Wxi))xiT(yi)xi=(u^iui)xi,


O ile mi wiadomo, gradientowy normalizator logiczny może być dowolną funkcją monotoniczną analityczną, a dowolna monotoniczna funkcja analityczna jest logarytmicznym gradientowym normalizatorem pewnej rodziny wykładniczej.

Neil G.
źródło
Jest to bardzo krótkie i zbyt tajemnicze jak na nasze standardy, proszę wyjaśnić również surprisal .
kjetil b halvorsen
1
„każda funkcja łącza odpowiada odmiennemu założeniu dystrybucyjnemu” jest to bardzo niejasne. Funkcja łączenia nie ma związku z uogólnianiem do różnych założeń dystrybucyjnych, ale z uogólnianiem części (liniowej) opisującej średnią rozkładu.
Sextus Empiricus
1
fg
1
Zazwyczaj niektóre funkcje łącza są używane z pewnymi założeniami dystrybucyjnymi. Ale to nie jest konieczne. Więc moje założenia dystrybucyjne w tym przykładzie normalne, a nie Poissona (to było zamierzone). Niektóre lepsze (bardziej praktyczne i dobrze znane) przykłady to zmienne rozproszone dwumianowe / Bernouilli, w których ludzie pracują z modelem probit lub modelem logit, a zatem różne funkcje łączenia, ale takie same (warunkowe) założenie dystrybucyjne.
Sextus Empiricus
1
@Neil G: Jestem leniwy? Możesz z łatwością zamieścić surprisal w oryginalnym poście, tak? Ponadto, kiedy piszę takie komentarze, jest to więcej dla strony niż dla mnie. Ta strona powinna być samodzielna. Mógłbym odgadnąć znaczenie (nawet jeśli jest to niestandardowa terminologia w statystyce), jak widać z mojej odpowiedzi tutaj, entropia
kjetil b halvorsen