Kiedy najmniejsze kwadraty byłyby złym pomysłem?

11

Jeśli mam model regresji: gdzie i ,

Y=Xβ+ε
V[ε]=IdRn×nE[ε]=(0,,0)

kiedy użycie , zwykłego estymatora najmniejszych kwadratów , byłoby złym wyborem dla estymatora?βOLSβ

Próbuję wymyślić przykład, w którym najmniejsze kwadraty działają źle. Tak więc szukam rozkładu błędów, który spełnia poprzednią hipotezę, ale daje złe wyniki. Jeśli rodzina rozkładu byłaby określona przez średnią i wariancję, byłoby świetnie. Jeśli nie, to też jest OK.

Wiem, że „złe wyniki” są trochę niejasne, ale myślę, że pomysł jest zrozumiały.

Aby uniknąć nieporozumień, wiem, że najmniejsze kwadraty nie są optymalne i że istnieją lepsze estymatory, takie jak regresja grzbietu. Ale nie o to mi chodzi. Chcę przykład, że najmniejsze kwadraty byłyby nienaturalne.

Mogę sobie wyobrazić, że wektor błędu w niewypukłym regionie , ale nie jestem tego pewien.ϵRn

Edycja 1: Pomysł na odpowiedź (której nie potrafię zrozumieć, jak pójść dalej). jest NIEBIESKI. Warto więc pomyśleć o tym, kiedy liniowy obiektywny estymator nie byłby dobrym pomysłem.βOLS

Edycja 2: Jak zauważył Brian, jeśli jest źle uwarunkowane, to jest złym pomysłem, ponieważ wariancja jest zbyt duża i zamiast tego należy użyć Regresji Ridge'a. Bardziej interesuje mnie wiedza o tym, jaka dystrybucja powinna , aby najmniejsze kwadraty działały źle.XXβOLSε

βOLSβ+(XX)1Xε Czy istnieje rozkład z zerową średnią i macierzą wariancji wariancji dla który sprawia, że ​​ten estymator nie jest wydajny?ε

Manuel
źródło
1
Nie chcę brzmieć ostro, ale nie jestem do końca pewien, czego chcesz. Istnieje wiele sposobów, w których coś może być złym wyborem. Zazwyczaj oceniamy estymatory pod kątem takich czynników, jak stronniczość , wariancja , niezawodność i wydajność . Na przykład, jak zauważyłeś, estymator OLS jest NIEBIESKI .
gung - Przywróć Monikę
1
OTOH, wariancja może być tak duża, że ​​będzie bezużyteczna, co sprawia, że ​​preferowana jest niższa wariancja, ale preferowany estymator taki jak grzbiet. Innym przykładem jest to, że OLS maksymalnie wykorzystuje wszystkie informacje w twoich danych, ale to czyni je podatnymi na wartości odstające. Istnieje wiele alternatywnych funkcji utraty, które są bardziej niezawodne, przy jednoczesnym zachowaniu wydajności. Może być bardziej zrozumiałe, jeśli możesz ponownie sformułować swoje pytanie w kategoriach takich jak te. Nie wiem, co to znaczy, że estymator jest „nienaturalny”.
gung - Przywróć Monikę
Dzięki za komentarz, uświadomiłem sobie niejednoznaczność pytania. Mam nadzieję, że teraz jest wyraźniej
Manuel
Zobacz regresję w tej odpowiedzi . Krótko mówiąc: wpływowe wartości odstające mogą stanowić problem.
Glen_b

Odpowiedzi:

8

Odpowiedź Briana Borchera jest całkiem dobra --- dane zawierające dziwne wartości odstające często nie są dobrze analizowane przez OLS. Mam zamiar rozwinąć tę kwestię, dodając zdjęcie, Monte Carlo i trochę Rkodu.

Rozważ bardzo prosty model regresji:

Yi=β1xi+ϵi ϵi={N(0,0.04)w.p.0.99931w.p.0.000531w.p.0.0005

Ten model jest zgodny z twoją konfiguracją ze współczynnikiem nachylenia 1.

Dołączony wykres pokazuje zestaw danych składający się ze 100 obserwacji na tym modelu, ze zmienną x przebiegającą od 0 do 1. W drukowanym zbiorze danych występuje jedno rysowanie błędu, które przedstawia wartość odstającą (w tym przypadku +31) . Wykreślono również linię regresji OLS na niebiesko i linię regresji najmniejszych odchyleń bezwzględnych na czerwono. Zauważ, jak OLS, ale nie LAD, jest zniekształcany przez wartość odstającą:

OLS vs LAD z wartością odstającą

xϵR

               Mean   Std Dev   Minimum   Maximum 
Slope by OLS   1.00      0.34     -1.76      3.89 
Slope by LAD   1.00      0.09      0.66      1.36

Zarówno OLS, jak i LAD wytwarzają obiektywne estymatory (nachylenie wynosi średnio 1,00 w stosunku do 10 000 powtórzeń). OLS produkuje estymator o znacznie wyższym odchyleniu standardowym, jednak 0,34 vs 0,09. Dlatego OLS nie jest tutaj najlepszy / najbardziej wydajny wśród obiektywnych estymatorów. Oczywiście nadal jest NIEBIESKI, ale LAD nie jest liniowy, więc nie ma sprzeczności. Zwróć uwagę na dzikie błędy, jakie może popełnić OLS w kolumnie Min i Max. Nie tak LAD.

Oto kod R dla wykresu i Monte Carlo:

# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea

# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.


library(quantreg)
library(plyr)

# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.

set.seed(34543)

# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31

summary(mixture)
summary(e)

# Regression model with beta=1
x <- 1:100 / 100
y <- x + e

# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)

# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)

# plot, noticing how much the outlier effects ols and how little 
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)


# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall.  The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200.  Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)

x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)

ols.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"

lad.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"

summary(ols.slopes)
sd(ols.slopes$estimate)
summary(lad.slopes)
sd(lad.slopes$estimate)
Rachunek
źródło
@Manuel Thanks. Wystąpił błąd w moim programie R --- było 0,04, gdzie powinien być sqrt (0,04). Nie zmieniło to ciągu odpowiedzi. To miało niewielką różnicę w wynikach. Jeśli jednak wcześniej skopiowałeś kod, powinieneś go teraz skopiować ponownie.
Bill
7

Jednym z przykładów może być to, że nie chcesz oszacować średniej. Pojawiło się to w mojej pracy, w której szacowaliśmy liczbę partnerów seksualnych, jako część modelowania rozprzestrzeniania się HIV / AIDS. Zainteresowanie ogonami dystrybucji było większe: Którzy ludzie mają wielu partnerów?

W takim przypadku możesz chcieć regresji kwantowej; moim zdaniem niewykorzystana metoda.

Peter Flom
źródło
β
Y
Tak, miałem na myśli średnią Y. Tak właśnie działa regresja OLS.
Peter Flom
(xa)2+(xb)2L1
6

X

ϵ

ϵβ

Brian Borchers
źródło
ε
1
Poza tym Gauss-Markov zapewnia, że ​​najmniejsze kwadraty będą obiektywnym estymatorem minimalnej wariancji między liniami. Mogą być estymatory liniowe, których nie można ponownie wprowadzić dla niektórych rodzajów dystrybucji. Właśnie to chcę zrozumieć.
Manuel
ϵi=0ϵi=1000.00005ϵi=1000.00005X=Iβϵ
X=1β=0β^
Wierzę, że szukam twojego drugiego komentarza. Niepokoi mnie to tylko małe prawdopodobieństwo, że się wydarzy. Również z tego przykładu jasno wynika, jak zbudować lepszy estymator, znając rozkład błędów.
Manuel