Model regresji liniowej przyjmuje szereg założeń, że regresja kwantylowa nie spełnia, a jeśli założenia regresji liniowej zostaną spełnione, to moja intuicja (i pewne bardzo ograniczone doświadczenie) jest taka, że regresja mediana dałaby prawie identyczne wyniki jak regresja liniowa.
Jakie zalety ma regresja liniowa? Z pewnością jest bardziej znajomy, ale poza tym?
regression
multiple-regression
quantile-regression
Peter Flom - Przywróć Monikę
źródło
źródło
Odpowiedzi:
Bardzo często stwierdza się, że preferowanie minimalizacji reszt najmniejszych do kwadratu jest lepsze niż minimalizowanie reszt absolutnych z tego powodu, że jest on prostszy obliczeniowo . Ale może to również być lepiej z innych powodów. Mianowicie, jeśli założenia są prawdziwe (i nie jest to tak rzadkie), to zapewnia rozwiązanie, które jest (średnio) dokładniejsze.
Maksymalne prawdopodobieństwo
Regresję metodą najmniejszych kwadratów i regresję kwantową (wykonaną przez zminimalizowanie absolutnych reszt) można postrzegać jako maksymalizującą funkcję prawdopodobieństwa dla błędów rozkładu Gaussa / Laplace'a i są w tym sensie bardzo ze sobą powiązane.
Rozkład Gaussa:
z maksymalnym prawdopodobieństwem logarytmicznym przy minimalizacji sumy kwadratów reszt
Rozkład Laplace'a:
z maksymalnym prawdopodobieństwem logarytmu przy minimalizacji sumy absolutnych reszt
Uwaga: rozkład Laplace'a i suma absolutnych reszt odnosi się do mediany, ale można je uogólnić na inne kwantyle, nadając różną wagę resztom ujemnym i dodatnim.
Znany rozkład błędów
Kiedy znamy rozkład błędów (gdy założenia są prawdopodobnie prawdziwe), warto wybrać powiązaną funkcję prawdopodobieństwa. Minimalizacja tej funkcji jest bardziej optymalna.
Tak więc, gdy błędy są rozkład normalny, średnia próbki jest lepszym estymatorem mediany rozkładu niż mediana próbki . Regresja najmniejszych kwadratów jest bardziej optymalnym estymatorem kwantyli. Jest to lepsze niż użycie najmniejszej sumy absolutnych reszt.
Ponieważ tak wiele problemów dotyczy normalnych błędów rozproszonych, bardzo popularna jest metoda najmniejszych kwadratów. Do pracy z innymi typami rozkładów można użyć Uogólnionego modelu liniowego . I metoda iteracyjnych najmniejszych kwadratów, którą można zastosować do rozwiązania GLM, działa również dla rozkładu Laplace'a (tj. Dla odchyleń bezwzględnych ), co jest równoważne znalezieniu mediany (lub w wersji uogólnionej innych kwantyli).
Nieznany rozkład błędów
Krzepkość
Mediana lub inne kwantyle mają tę zaletę, że są bardzo solidne pod względem rodzaju rozkładu. Rzeczywiste wartości nie mają większego znaczenia, a kwantyle dbają tylko o porządek. Niezależnie od tego, jaki jest rozkład, minimalizowanie absolutnych reszt (co jest równoważne znalezieniu kwantyli) działa bardzo dobrze.
Pytanie staje się tutaj złożone i szerokie i zależy od tego, jaki rodzaj wiedzy mamy lub nie mamy na temat funkcji dystrybucji. Na przykład rozkład może być w przybliżeniu normalny, ale tylko z pewnymi dodatkowymi wartościami odstającymi. Można temu zaradzić, usuwając wartości zewnętrzne. To usunięcie skrajnych wartości działa nawet w oszacowaniu parametru lokalizacji rozkładu Cauchy'ego, w którym skrócona średnia może być lepszym estymatorem niż mediana. Tak więc nie tylko dla idealnej sytuacji, w której założenia się utrzymują, ale także dla niektórych mniej idealnych aplikacji (np. Dodatkowe wartości odstające) mogą istnieć dobre solidne metody, które nadal wykorzystują pewną formę sumy kwadratów reszt zamiast reszt absolutnych.
Wyobrażam sobie, że regresja ze obciętymi resztami może być obliczeniowo znacznie bardziej złożona. Może to być w rzeczywistości regresja kwantylowa, która jest rodzajem regresji wykonywanej z tego powodu, że jest ona obliczeniowa prostsza (nie prostsza niż zwykłe najmniejsze kwadraty, ale prostsza niż skrócone najmniejsze kwadraty).
Biased / bezstronne
Kolejna kwestia jest stronnicza w stosunku do obiektywnych estymatorów. Powyżej opisałem oszacowanie maksymalnego prawdopodobieństwa dla średniej, tj. Rozwiązanie najmniejszych kwadratów, jako dobry lub preferowany estymator, ponieważ często ma on najniższą wariancję ze wszystkich obiektywnych estymatorów (gdy błędy są rozkładem normalnym). Ale tendencyjne estymatory mogą być lepsze (niższa oczekiwana suma błędu kwadratu).
To sprawia, że pytanie znów jest szerokie i złożone. Istnieje wiele różnych estymatorów i wiele różnych sytuacji do ich zastosowania. Zastosowanie dostosowanej sumy kwadratowej funkcji utraty resztek często działa dobrze w celu zmniejszenia błędu (np. Wszystkie rodzaje metod regularyzacji), ale może nie wymagać dobrej pracy we wszystkich przypadkach. Intuicyjnie nie jest dziwne, że skoro suma kwadratowej funkcji utraty resztek często działa dobrze dla wszystkich obiektywnych estymatorów, optymalne estymatory stronniczości są prawdopodobnie zbliżone do sumy kwadratowej funkcji straty reszt.
źródło
Regresja liniowa (LR) sprowadza się do optymalizacji najmniejszych kwadratów przy obliczaniu jej współczynników. Oznacza to symetrię odchyleń od modelu regresji. Dobre wyjaśnienie regresji kwantylowej (QR) znajduje się w https://data.library.virginia.edu/getting-started-with-quantile-regression/ .
Jeśli założenia LR (potrzebne do wnioskowania: wartości p, przedziały ufności itp.) Są spełnione, przewidywania QR i LR będą podobne. Ale jeśli założenia zostaną mocno naruszone, standardowe wnioskowanie LR będzie błędne. Zatem regresja 0,5 kwantyla (mediana) stanowi przewagę nad LR. Daje także większą elastyczność w regresji dla innych kwantyli. Odpowiednikiem modeli liniowych byłaby granica ufności obliczona z LR (chociaż byłoby to błędne, gdyby iid został silnie naruszony).
Jaka jest więc zaleta LR? Oczywiście łatwiej jest to obliczyć, ale jeśli twój zestaw danych ma rozsądny rozmiar, może to nie być bardzo zauważalne. Co ważniejsze, założenia wnioskowania LR dostarczają informacji, które obniżają niepewność. W rezultacie przedziały ufności LR dla prognoz będą zwykle węższe. Więc jeśli istnieje silne poparcie teoretyczne dla założeń, węższe przedziały ufności mogą być zaletą.
źródło
Regresję kwantylową można zastosować do oszacowania KAŻDEGO kwantyla rozkładu warunkowego, w tym mediany. Zapewnia to potencjalnie znacznie więcej informacji niż średnia o rozkładzie warunkowym. Jeśli rozkład warunkowy nie jest symetryczny lub ogony są prawdopodobnie grube (np. Analiza ryzyka), regresja kwantylowa jest pomocna NAWET, jeśli wszystkie założenia regresji liniowej są spełnione.
Oczywiście przeprowadzanie estymacji kwantylowej w stosunku do regresji liniowej jest liczbowo bardziej intensywne, ale ogólnie jest ono znacznie bardziej niezawodne (np. Podobnie jak mediana jest silniejsza niż średnia dla wartości odstających). Ponadto właściwe jest, gdy regresja liniowa nie występuje - np. W przypadku danych ocenzurowanych. Wnioskowanie może być trudniejsze, ponieważ bezpośrednie oszacowanie macierzy wariancji-kowariancji może być trudne lub kosztowne obliczeniowo. W takich przypadkach można uruchomić.
źródło