Jakie są zalety regresji liniowej w porównaniu z regresją kwantową?

Model regresji liniowej przyjmuje szereg założeń, że regresja kwantylowa nie spełnia, a jeśli założenia regresji liniowej zostaną spełnione, to moja intuicja (i pewne bardzo ograniczone doświadczenie) jest taka, że regresja mediana dałaby prawie identyczne wyniki jak regresja liniowa.

Jakie zalety ma regresja liniowa? Z pewnością jest bardziej znajomy, ale poza tym?

regression multiple-regression quantile-regression Peter Flom - Przywróć Monikę
źródło

Do „bardziej znanego” dodam „interpretowalność” i „stabilność”, ale dla mnie jedną z zalet regresji liniowej jest to, co mówi ci o średniej i jak dobrze ta średnia reprezentuje populację próby (reszty są bardzo pouczające) . Regresja liniowa ma równie wielką wartość, gdy spełnione są jej założenia, a dobrą wartość, gdy nie są spełnione.

JustGettin Rozpoczęty

Argumentowałbym, że w tych dwóch wątkach omówiono jedną ważną kwestię: stats.stackexchange.com/questions/153348/... i stats.stackexchange.com/questions/146077/… - wydajność, a być może nawet optymalność pod pewnymi założenia

Christoph Hanck

Jako kolejny, ale drobny punkt, można dodać dostępność jawnych, zamkniętych rozwiązań, które nie są dostępne, powiedzmy, LAD, co może sprawić, że takie techniki będą mniej atrakcyjne dla praktyków.

Christoph Hanck

Odpowiedź może być jak porównanie prostego przypadku oszacowania pojedynczego parametru populacji, a następnie wykazanie, że błędy najmniejszych kwadratów działają lepiej z błędami Gaussa, a najmniejsze wartości bezwzględne (również przy założeniach) są lepsze dla różnych rodzajów błędów. Ale to pytanie dotyczy bardziej złożonych modeli liniowych, a problem zaczyna być bardziej złożony i szeroki. Intuicja prostego problemu (oszacowanie pojedynczej średniej / mediany) działa na większy model, ale o ile należy go wypracować? A jak porównać, odporność na wartości odstające, rozkłady, obliczenia?

Sextus Empiricus

W moim przypadku stwierdziłem, że regresja kwantowa jest o wiele ładniejsza do wyjaśnienia osobom nietechnicznym, kiedy zmienna odpowiedzi jest wypaczona (np. Wydatki klientów), a wprowadzenie etapu transformacji / funkcji łącza przesłania całą analizę. W tym sensie zakwestionowałbym twierdzenie, że „ regresja mediany dałaby prawie identyczne wyniki jak regresja liniowa ” jako nieco upraszczające; tak nie jest, szczególnie w przypadku potencjalnie wypaczonych zmiennych odpowiedzi.

usεr11852 mówi Przywróć Monic

Odpowiedzi:

Bardzo często stwierdza się, że preferowanie minimalizacji reszt najmniejszych do kwadratu jest lepsze niż minimalizowanie reszt absolutnych z tego powodu, że jest on prostszy obliczeniowo . Ale może to również być lepiej z innych powodów. Mianowicie, jeśli założenia są prawdziwe (i nie jest to tak rzadkie), to zapewnia rozwiązanie, które jest (średnio) dokładniejsze.

Maksymalne prawdopodobieństwo

Regresję metodą najmniejszych kwadratów i regresję kwantową (wykonaną przez zminimalizowanie absolutnych reszt) można postrzegać jako maksymalizującą funkcję prawdopodobieństwa dla błędów rozkładu Gaussa / Laplace'a i są w tym sensie bardzo ze sobą powiązane.

Rozkład Gaussa:

$f (x) = \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}$ $f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

z maksymalnym prawdopodobieństwem logarytmicznym przy minimalizacji sumy kwadratów reszt

$\log L (x) = - \frac{n}{2} \log (2 π) - n \log (σ) - \frac{1}{2 σ^{2}} \underset{sum of squared residuals}{\underset{⏟}{\sum_{i = 1}^{n} (x_{i} - μ)^{2}}}$ $\log \mathcal{L}(x) = -\frac{n}{2} \log (2 \pi) - n \log(\sigma) - \frac{1}{2\sigma^2} \underbrace{\sum_{i=1}^n (x_i-\mu)^2}_{\text{sum of squared residuals}}$
Rozkład Laplace'a:

$f (x) = \frac{1}{2 b} e^{- \frac{| x - μ |}{b}}$ $f(x) = \frac{1}{2b} e^{-\frac{\vert x-\mu \vert}{b}}$

z maksymalnym prawdopodobieństwem logarytmu przy minimalizacji sumy absolutnych reszt

$\log L. (x) = - n \log (2)) - n \log (b) - \frac{1}{b} \underset{suma absolutnych reszt}{\underset{⏟}{\sum_{ja = 1}^{n} | x_{ja} - μ |}}$ $\log \mathcal{L}(x) = -n \log (2) - n \log(b) - \frac{1}{b} \underbrace{\sum_{i=1}^n |x_i-\mu|}_{\text{sum of absolute residuals}}$

^{Uwaga: rozkład Laplace'a i suma absolutnych reszt odnosi się do mediany, ale można je uogólnić na inne kwantyle, nadając różną wagę resztom ujemnym i dodatnim.}

Znany rozkład błędów

Kiedy znamy rozkład błędów (gdy założenia są prawdopodobnie prawdziwe), warto wybrać powiązaną funkcję prawdopodobieństwa. Minimalizacja tej funkcji jest bardziej optymalna.

$\mu$

Tak więc, gdy błędy są rozkład normalny, średnia próbki jest lepszym estymatorem mediany rozkładu niż mediana próbki . Regresja najmniejszych kwadratów jest bardziej optymalnym estymatorem kwantyli. Jest to lepsze niż użycie najmniejszej sumy absolutnych reszt.

Ponieważ tak wiele problemów dotyczy normalnych błędów rozproszonych, bardzo popularna jest metoda najmniejszych kwadratów. Do pracy z innymi typami rozkładów można użyć Uogólnionego modelu liniowego . I metoda iteracyjnych najmniejszych kwadratów, którą można zastosować do rozwiązania GLM, działa również dla rozkładu Laplace'a (tj. Dla odchyleń bezwzględnych ), co jest równoważne znalezieniu mediany (lub w wersji uogólnionej innych kwantyli).

Nieznany rozkład błędów

Krzepkość

Mediana lub inne kwantyle mają tę zaletę, że są bardzo solidne pod względem rodzaju rozkładu. Rzeczywiste wartości nie mają większego znaczenia, a kwantyle dbają tylko o porządek. Niezależnie od tego, jaki jest rozkład, minimalizowanie absolutnych reszt (co jest równoważne znalezieniu kwantyli) działa bardzo dobrze.

Pytanie staje się tutaj złożone i szerokie i zależy od tego, jaki rodzaj wiedzy mamy lub nie mamy na temat funkcji dystrybucji. Na przykład rozkład może być w przybliżeniu normalny, ale tylko z pewnymi dodatkowymi wartościami odstającymi. Można temu zaradzić, usuwając wartości zewnętrzne. To usunięcie skrajnych wartości działa nawet w oszacowaniu parametru lokalizacji rozkładu Cauchy'ego, w którym skrócona średnia może być lepszym estymatorem niż mediana. Tak więc nie tylko dla idealnej sytuacji, w której założenia się utrzymują, ale także dla niektórych mniej idealnych aplikacji (np. Dodatkowe wartości odstające) mogą istnieć dobre solidne metody, które nadal wykorzystują pewną formę sumy kwadratów reszt zamiast reszt absolutnych.

Wyobrażam sobie, że regresja ze obciętymi resztami może być obliczeniowo znacznie bardziej złożona. Może to być w rzeczywistości regresja kwantylowa, która jest rodzajem regresji wykonywanej z tego powodu, że jest ona obliczeniowa prostsza (nie prostsza niż zwykłe najmniejsze kwadraty, ale prostsza niż skrócone najmniejsze kwadraty).

Biased / bezstronne

Kolejna kwestia jest stronnicza w stosunku do obiektywnych estymatorów. Powyżej opisałem oszacowanie maksymalnego prawdopodobieństwa dla średniej, tj. Rozwiązanie najmniejszych kwadratów, jako dobry lub preferowany estymator, ponieważ często ma on najniższą wariancję ze wszystkich obiektywnych estymatorów (gdy błędy są rozkładem normalnym). Ale tendencyjne estymatory mogą być lepsze (niższa oczekiwana suma błędu kwadratu).

To sprawia, że pytanie znów jest szerokie i złożone. Istnieje wiele różnych estymatorów i wiele różnych sytuacji do ich zastosowania. Zastosowanie dostosowanej sumy kwadratowej funkcji utraty resztek często działa dobrze w celu zmniejszenia błędu (np. Wszystkie rodzaje metod regularyzacji), ale może nie wymagać dobrej pracy we wszystkich przypadkach. Intuicyjnie nie jest dziwne, że skoro suma kwadratowej funkcji utraty resztek często działa dobrze dla wszystkich obiektywnych estymatorów, optymalne estymatory stronniczości są prawdopodobnie zbliżone do sumy kwadratowej funkcji straty reszt.

Sextus Empiricus
źródło

Kiedy znamy rozkład błędów, sensowne jest wybranie powiązanej funkcji prawdopodobieństwa. Minimalizacja tej funkcji jest bardziej optymalna. Nie mówię, że to źle, ale prawdopodobnie powinien zostać zakwalifikowany. Oczywiście odnosi się to jeszcze raz do mojego pytania (na które udzieliłeś odpowiedzi) w sprawie optymalnych estymatorów w ramach różnych funkcji strat.

Richard Hardy

Jest to najlepszy sposób, ponieważ ma najniższą wariancję próbki. Wariancja zasadniczo nie jest rozsądną funkcją straty, ponieważ pomija stronniczość; rozsądnym odpowiednikiem byłby błąd kwadratu (inaczej średni błąd kwadratu), który uwzględnia zarówno wariancję, jak i stronniczość. Regresja najmniejszych kwadratów jest bardziej optymalnym estymatorem kwantyli. Mediana - tak, ale inne? A jeśli tak, to dlaczego? W każdym razie twoja odpowiedź jest bardzo miła!

Richard Hardy

@RichardHardy ten temat jest tak szeroki. Rzeczywiście błąd = wariancja + stronniczość. Zakładam, że odchylenie średniej próbki jest takie samo jak mediana próbki (lub bardziej ogólnie: najmniejsza suma kwadratów reszt i najmniejsza suma absolutnych reszt ma takie samo odchylenie). Jest to prawdą, biorąc pod uwagę różne rozkłady błędów (np. Symetryczne rozkłady błędów), ale w rzeczywistości pytania stają się bardziej złożone w innych przypadkach. (chodziło głównie o to, że błędy są często rozkładem normalnym, co sprzyja regresji najmniejszych kwadratów)

Sextus Empiricus

To samo (złożoność pytania) jest prawdziwe, gdy nie bierzemy pod uwagę mediany, a zamiast tego jakieś inne kwantyle. W przypadku normalnych błędów rozproszonych uważam, że MLE daje najlepszy wynik dla dowolnego kwantyla, ale zgadzam się, że jest to intuicja. Znowu problem jest bardzo szeroki (zależność od liczby próbek, rodzaju rozkładu błędów i pewności, itp.).

Sextus Empiricus

zepsuty zegar jest dokładnie prawo dwa razy dziennie, nie nazwałbym Mele'a zepsuty zegar. Jasne, że jeśli dobrze znasz problem, możesz wprowadzić błąd redukujący wariancje, aby poprawić ogólny błąd. Nie musi to koniecznie przechodzić na inny (kwantylowy) rodzaj regresji, możesz też położyć trochę dżemu lub miodu na chlebie i maśle o najmniejszych kwadratach. Jeśli chcesz porównać MLE ze zepsutym zegarem, to jest to zegar, który zdarza się stać nieruchomo w czasie, z którego najczęściej korzystamy.

Sextus Empiricus

Regresja liniowa (LR) sprowadza się do optymalizacji najmniejszych kwadratów przy obliczaniu jej współczynników. Oznacza to symetrię odchyleń od modelu regresji. Dobre wyjaśnienie regresji kwantylowej (QR) znajduje się w https://data.library.virginia.edu/getting-started-with-quantile-regression/ .

Jeśli założenia LR (potrzebne do wnioskowania: wartości p, przedziały ufności itp.) Są spełnione, przewidywania QR i LR będą podobne. Ale jeśli założenia zostaną mocno naruszone, standardowe wnioskowanie LR będzie błędne. Zatem regresja 0,5 kwantyla (mediana) stanowi przewagę nad LR. Daje także większą elastyczność w regresji dla innych kwantyli. Odpowiednikiem modeli liniowych byłaby granica ufności obliczona z LR (chociaż byłoby to błędne, gdyby iid został silnie naruszony).

Jaka jest więc zaleta LR? Oczywiście łatwiej jest to obliczyć, ale jeśli twój zestaw danych ma rozsądny rozmiar, może to nie być bardzo zauważalne. Co ważniejsze, założenia wnioskowania LR dostarczają informacji, które obniżają niepewność. W rezultacie przedziały ufności LR dla prognoz będą zwykle węższe. Więc jeśli istnieje silne poparcie teoretyczne dla założeń, węższe przedziały ufności mogą być zaletą.

George Ostrouchov
źródło

$E(Y \vert X)$ $Y$ $X$ $E(Y \vert X)= X \beta$ $\beta$

Regresję kwantylową można zastosować do oszacowania KAŻDEGO kwantyla rozkładu warunkowego, w tym mediany. Zapewnia to potencjalnie znacznie więcej informacji niż średnia o rozkładzie warunkowym. Jeśli rozkład warunkowy nie jest symetryczny lub ogony są prawdopodobnie grube (np. Analiza ryzyka), regresja kwantylowa jest pomocna NAWET, jeśli wszystkie założenia regresji liniowej są spełnione.

Oczywiście przeprowadzanie estymacji kwantylowej w stosunku do regresji liniowej jest liczbowo bardziej intensywne, ale ogólnie jest ono znacznie bardziej niezawodne (np. Podobnie jak mediana jest silniejsza niż średnia dla wartości odstających). Ponadto właściwe jest, gdy regresja liniowa nie występuje - np. W przypadku danych ocenzurowanych. Wnioskowanie może być trudniejsze, ponieważ bezpośrednie oszacowanie macierzy wariancji-kowariancji może być trudne lub kosztowne obliczeniowo. W takich przypadkach można uruchomić.

Kruggles
źródło