Oprócz wyjątkowych okoliczności, w których absolutnie musimy zrozumieć zależność średnią, jakie są sytuacje, w których badacz powinien wybrać OLS zamiast regresji kwantylowej?
Nie chcę, aby odpowiedź brzmiała „jeśli nie ma sensu rozumieć relacji ogona”, ponieważ moglibyśmy po prostu użyć regresji mediany jako substytutu OLS.
least-squares
econometrics
regression-strategies
quantile-regression
semiparametric
Frank Harrell
źródło
źródło
Odpowiedzi:
Jeśli jesteś zainteresowany średnią, użyj OLS, jeśli w medianie, użyj kwantylu.
Jedną dużą różnicą jest to, że na średnią wpływ mają bardziej wartości odstające i inne ekstremalne dane. Czasami tego właśnie chcesz. Jednym z przykładów jest sytuacja, gdy zmienną zależną jest kapitał społeczny w sąsiedztwie. Obecność jednej osoby z dużym kapitałem społecznym może być bardzo ważna dla całego sąsiedztwa.
źródło
Wydaje się, że zamieszanie w założeniu pytania. W drugim akapicie napisano: „moglibyśmy po prostu użyć regresji mediany jako substytutu OLS”. Zauważ, że cofnięcie warunkowej mediany na X jest (formą) regresji kwantylowej.
Jeśli błąd w podstawowym procesie generowania danych jest zwykle rozkładany (co można ocenić, sprawdzając, czy reszty są normalne), wówczas średnia warunkowa jest równa medianie warunkowej. Co więcej, każdy kwantyl, który może Cię zainteresować (np. 95 percentyl lub 37 percentyl), można określić dla danego punktu w wymiarze X za pomocą standardowych metod OLS. Główną zaletą regresji kwantowej jest to, że jest ona bardziej odporna niż OLS. Minusem jest to, że jeśli wszystkie założenia zostaną spełnione, będzie mniej wydajne (to znaczy, że będziesz potrzebować większej wielkości próby, aby osiągnąć tę samą moc / twoje oszacowania będą mniej precyzyjne).
źródło
Zarówno OLS, jak i regresja kwantylowa (QR) są technikami estymacji służącymi do oszacowania wektora współczynnika w modelu regresji liniowej y = X β + ε (w przypadku QR patrz Koenker (1978), s. 33, akapit drugi).β
Dla pewnych rozkładu błędu (na przykład tych o dużym ogony) QR estymator β Q R jest bardziej wydajny niż OLS estymator β O L S ; Przypomnijmy, że β O L S jest skuteczny tylko w klasie liniowych nieobciążonych estymatorów. Jest to główna motywacja dla Koenkera (1978), która sugeruje użycie QR zamiast OLS w różnych ustawieniach. Myślę, że dla każdej chwili rozkładu warunkowego P Y ( Y | X ) należy użyć jednego z P O L S iβ^Q R. β^O L S. β^O L S. P.Y( y| X) β^O L S. , który jest bardziej skuteczny (proszę mnie poprawić, jeśli się mylę).β^Q R.
Obecnie odpowiedzieć na pytanie bezpośrednio QR jest „gorsze” od OLS (a zatem β O L S powinny być korzystne w porównaniu β Q R ), gdy β O L S jest bardziej wydajny niż β Q R . Jednym z takich przykładów jest rozkład błędów na Normalny.β^O L S. β^QR. β^O L S. β^Q R.
Referencje:
źródło
Peter Flom miał świetną i zwięzłą odpowiedź, chcę ją tylko rozszerzyć. Najważniejszą częścią pytania jest to, jak zdefiniować „gorsze”.
Aby zdefiniować gorzej, musimy mieć pewne mierniki, a funkcję do obliczenia, jak dobre lub złe dopasowanie nazywamy funkcjami utraty.
Możemy mieć różne definicje funkcji straty, a każda definicja nie ma żadnego dobrego ani złego, ale inna definicja zaspokaja różne potrzeby. Dwie dobrze znane funkcje straty to utrata do kwadratu i utrata wartości bezwzględnej.
Jeśli wykorzystamy kwadratową stratę jako miarę sukcesu, regresja kwantyli będzie gorsza niż OLS. Z drugiej strony, jeśli zastosujemy bezwzględną utratę wartości, regresja kwantowa będzie lepsza.
Oto odpowiedź Petera Folma:
źródło
Jeśli chcesz oszacować średnią, nie możesz jej uzyskać z regresji kwantowej.
Jeśli chcesz oszacować średnią i kwantyle przy minimalnych założeniach (ale więcej założeń niż regresja kwantylowa), ale masz większą wydajność, użyj półparametrycznej regresji porządkowej. Daje to również prawdopodobieństwo przekroczenia. Szczegółowe studium przypadku znajduje się w moich notatkach z kursu RMS, w których wykazano w jednym zbiorze danych, że średni średni bezwzględny błąd oszacowania dla kilku parametrów (kwantyli i średniej) osiąga się za pomocą regresji porządkowej. Ale do samego oszacowania średniej OLS jest najlepszy, a do samego oszacowania kwantyli najlepsza była regresja kwantyli.
źródło