Co oznacza „stała wariancja” w modelu regresji liniowej?

53

Co oznacza „stała wariancja” w wyrażeniu błędu? Widzę, że mamy dane z jedną zmienną zależną i jedną zmienną niezależną. Stała wariancja jest jednym z założeń regresji liniowej. Zastanawiam się, co oznacza homoscedastyczność. Ponieważ nawet jeśli mam 500 wierszy, miałbym jedną wartość wariancji, która jest oczywiście stała. Z jaką zmienną powinienem porównać wariancję?

Mukul
źródło

Odpowiedzi:

34

Oznacza to, że przy wykreślaniu indywidualnego błędu w stosunku do przewidywanej wartości wariancja przewidywanej wartości błędu powinna być stała. Patrz czerwone strzałki na poniższym obrazku, długość czerwonych linii (wskaźnik wariancji) jest taka sama.

wprowadź opis zdjęcia tutaj

Penguin_Knight
źródło
1
Ok, zrozumiałem.!! Ale ponieważ jest to założenie, nie musimy weryfikować założenia przed uruchomieniem modelu. I dlaczego potrzebujemy tego założenia
Mukul,
2
Niektóre założenia można przetestować dopiero po uruchomieniu modelu. Obliczanie modelu to tylko matematyka, a nie to samo, co interpretacja modelu.
John
6
Zasięg nie jest równy wariancji Pingwin Rycerz, więc możesz chcieć zaktualizować tutaj swoje sformułowania.
John
4
Jeśli twoje założenie wariancji jest błędne, oznacza to zwykle, że standardowe błędy są błędne, a wszelkie testowanie hipotez może prowadzić do błędnych wniosków. (Inny John)
John
4
Różnię się nieznacznie. Nie powiedziałbym, że heteroscedastyczność niekoniecznie oznacza, że ​​standardowe błędy twoich bet są błędne, ale raczej, że estymator OLS nie jest już najbardziej wydajnym obiektywnym estymatorem. Oznacza to, że możesz uzyskać większą moc / precyzję, jeśli albo będziesz miał stałą wariancję (być może z powodu transformacji Y), albo jeśli dokładnie weźmiesz pod uwagę niestałość (być może za pomocą uogólnionego estymatora najmniejszych kwadratów).
gung - Przywróć Monikę
58

Jest to miejsce, w którym odkryłem, że pomocne są niektóre formuły, nawet dla osób z pewnym lękiem matematycznym (niekoniecznie sugeruję, że to robisz). Prosty model regresji liniowej jest następujący: Należy tutaj zauważyć, że ten model jest jawnie stwierdza, że ​​po oszacowaniu znaczących informacji w danych (czyli „ ”) nie pozostało już nic oprócz białego szumu. Ponadto błędy są dystrybuowane jako Normalne z wariantem .

Y=β0+β1X+εwhere εN(0,σε2)
β0+β1Xσε2

Ważne jest, aby zdać sobie sprawę, że nie jest zmienną (chociaż w algebrze na poziomie gimnazjum nazwalibyśmy to). To się nie zmienia. zmienia się. zmienia się. Termin błędu, , zmienia się losowo ; to jest zmienna losowa . Jednak parametry ( są zastępczymi dla wartości, których nie znamy - nie różnią się. Zamiast tego są to nieznane stałe . Rezultatem tego faktu w tej dyskusji jest to, że bez względu na to, co to jest (tj. Jaka jest tam wartość),σε2XYεβ0, β1, σε2)Xσε2pozostaje takie samo. Innymi słowy, wariancja błędów / reszt jest stała. Dla kontrastu (i być może większej przejrzystości) rozważ ten model: W tym przypadku wartość dla (zaczynając od trzeciego wiersza) , przekazać je poprzez funkcję i uzyskać wariancję błędu, który uzyskuje w tym dokładnej wartości . Następnie jak zwykle przechodzimy przez resztę równania.

Y=β0+β1X+εwhere εN(0,f(X)) where f(X)=exp(γ0+γ1X)and γ10
Xf(X) X

Powyższa dyskusja powinna pomóc w zrozumieniu natury założenia; pytanie dotyczy także tego, jak to ocenić . Istnieją zasadniczo dwa podejścia: formalne testy hipotez i badanie wykresów. Testów heteroscedastyczności można użyć, jeśli masz dane eksperymentalne (tj. Które występują tylko przy ustalonych wartościach ) lub ANOVA. Omawiam tutaj kilka takich testów: Dlaczego test Levene'a równości wariancji zamiast współczynnika F.X. Jednak wydaje mi się, że najlepiej jest patrzeć na działki. @Penquin_Knight wykonał dobrą robotę, pokazując, jak wygląda stała wariancja, wykreślając resztki modelu, w którym uzyskuje się homoscedastyczność względem dopasowanych wartości. Heteroscedastyczność można również wykryć na wykresie nieprzetworzonych danych lub na wykresie lokalizacji skalowanej (zwanym także poziomem rozproszenia). R wygodnie drukuje te ostatnie za pomocą połączenia z plot.lm(model, which=2); jest to pierwiastek kwadratowy z bezwzględnych wartości reszt w stosunku do dopasowanych wartości, z krzywą nisko ułożoną, pomocnie nałożoną. Chcesz, aby dopasowanie lowess było płaskie, a nie nachylone.

Rozważ poniższe wykresy, które porównują, jak dane homoscedastyczne i heteroscedastyczne mogą wyglądać na tych trzech różnych typach liczb. Zwróć uwagę na kształt lejka dla dwóch górnych wykresów heteroscedastycznych i opadającą w górę linię lowess w ostatnim.

wprowadź opis zdjęcia tutaj

Dla kompletności, oto kod, którego użyłem do wygenerowania tych danych:

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2            ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)
gung - Przywróć Monikę
źródło
1
dzięki, to jest bardzo pomocne. Czy możesz również wyjaśnić, dlaczego potrzebujemy tego założenia w języku laika
Mukul
5
Nie ma za co, @Mulul. Założenie homoscedastyczności (stała wariancja) jest wymagane, aby estymator OLS (tj. Domyślne oprogramowanie procedur wykorzystuje do oszacowania beta) procedurę oszacowania, która wytworzy rozkłady prób beta, które mają najwęższe błędy standardowe spośród wszystkich procedur oszacowania, które dają rozkłady próbkowania, które są wyśrodkowane na wartości rzeczywistej. IE, konieczne jest, aby estymator OLS był estymatorem bezstronnym minimalnej wariancji .
gung - Przywróć Monikę
5
Jeśli zmienna odpowiedzi jest binarna , zostanie rozłożona jako dwumianowa. IE, wiele części opisanego powyżej modelu regresji liniowej jest nieodpowiednich. Jednym z tych zagadnień jest to, że ponieważ wariancja dwumianowa jest funkcją średniej (średnia: , wariancja: ), założenie o homoscedastyczności zostaje naruszone. Aby lepiej zrozumieć te rzeczy, pomocne może być przeczytanie mojej odpowiedzi tutaj: różnic między modelami logit i probit , chociaż została napisana w innym kontekście. p(p(1p))/n)
Gung - Przywróć Monikę
2
@gung w swoim komentarzu wstawiasz kursywę na wszystkie słowa w wyrażeniu bezstronny estymator minimalnej wariancji. Rozumiem, że przy heteroscedastyczności estymator stanie się mniej wydajny (większa wariancja), ale czy też będzie tendencyjny?
user1205901 - Przywróć Monikę
5
@ user1205901, pozostaje bezstronny.
Gung - Przywróć Monikę