Jeśli mam model regresji:
gdzie i ,
kiedy użycie , zwykłego estymatora najmniejszych kwadratów , byłoby złym wyborem dla estymatora?
Próbuję wymyślić przykład, w którym najmniejsze kwadraty działają źle. Tak więc szukam rozkładu błędów, który spełnia poprzednią hipotezę, ale daje złe wyniki. Jeśli rodzina rozkładu byłaby określona przez średnią i wariancję, byłoby świetnie. Jeśli nie, to też jest OK.
Wiem, że „złe wyniki” są trochę niejasne, ale myślę, że pomysł jest zrozumiały.
Aby uniknąć nieporozumień, wiem, że najmniejsze kwadraty nie są optymalne i że istnieją lepsze estymatory, takie jak regresja grzbietu. Ale nie o to mi chodzi. Chcę przykład, że najmniejsze kwadraty byłyby nienaturalne.
Mogę sobie wyobrazić, że wektor błędu w niewypukłym regionie , ale nie jestem tego pewien.
Edycja 1: Pomysł na odpowiedź (której nie potrafię zrozumieć, jak pójść dalej). jest NIEBIESKI. Warto więc pomyśleć o tym, kiedy liniowy obiektywny estymator nie byłby dobrym pomysłem.
Edycja 2: Jak zauważył Brian, jeśli jest źle uwarunkowane, to jest złym pomysłem, ponieważ wariancja jest zbyt duża i zamiast tego należy użyć Regresji Ridge'a. Bardziej interesuje mnie wiedza o tym, jaka dystrybucja powinna , aby najmniejsze kwadraty działały źle.
Czy istnieje rozkład z zerową średnią i macierzą wariancji wariancji dla który sprawia, że ten estymator nie jest wydajny?
Odpowiedzi:
Odpowiedź Briana Borchera jest całkiem dobra --- dane zawierające dziwne wartości odstające często nie są dobrze analizowane przez OLS. Mam zamiar rozwinąć tę kwestię, dodając zdjęcie, Monte Carlo i trochę
R
kodu.Rozważ bardzo prosty model regresji:
Ten model jest zgodny z twoją konfiguracją ze współczynnikiem nachylenia 1.
Dołączony wykres pokazuje zestaw danych składający się ze 100 obserwacji na tym modelu, ze zmienną x przebiegającą od 0 do 1. W drukowanym zbiorze danych występuje jedno rysowanie błędu, które przedstawia wartość odstającą (w tym przypadku +31) . Wykreślono również linię regresji OLS na niebiesko i linię regresji najmniejszych odchyleń bezwzględnych na czerwono. Zauważ, jak OLS, ale nie LAD, jest zniekształcany przez wartość odstającą:
R
Zarówno OLS, jak i LAD wytwarzają obiektywne estymatory (nachylenie wynosi średnio 1,00 w stosunku do 10 000 powtórzeń). OLS produkuje estymator o znacznie wyższym odchyleniu standardowym, jednak 0,34 vs 0,09. Dlatego OLS nie jest tutaj najlepszy / najbardziej wydajny wśród obiektywnych estymatorów. Oczywiście nadal jest NIEBIESKI, ale LAD nie jest liniowy, więc nie ma sprzeczności. Zwróć uwagę na dzikie błędy, jakie może popełnić OLS w kolumnie Min i Max. Nie tak LAD.
Oto kod R dla wykresu i Monte Carlo:
źródło
Jednym z przykładów może być to, że nie chcesz oszacować średniej. Pojawiło się to w mojej pracy, w której szacowaliśmy liczbę partnerów seksualnych, jako część modelowania rozprzestrzeniania się HIV / AIDS. Zainteresowanie ogonami dystrybucji było większe: Którzy ludzie mają wielu partnerów?
W takim przypadku możesz chcieć regresji kwantowej; moim zdaniem niewykorzystana metoda.
źródło
źródło