Co oznacza „stała wariancja” w wyrażeniu błędu? Widzę, że mamy dane z jedną zmienną zależną i jedną zmienną niezależną. Stała wariancja jest jednym z założeń regresji liniowej. Zastanawiam się, co oznacza homoscedastyczność. Ponieważ nawet jeśli mam 500 wierszy, miałbym jedną wartość wariancji, która jest oczywiście stała. Z jaką zmienną powinienem porównać wariancję?
53
Jest to miejsce, w którym odkryłem, że pomocne są niektóre formuły, nawet dla osób z pewnym lękiem matematycznym (niekoniecznie sugeruję, że to robisz). Prosty model regresji liniowej jest następujący: Należy tutaj zauważyć, że ten model jest jawnie stwierdza, że po oszacowaniu znaczących informacji w danych (czyli „ ”) nie pozostało już nic oprócz białego szumu. Ponadto błędy są dystrybuowane jako Normalne z wariantem .
Ważne jest, aby zdać sobie sprawę, że nie jest zmienną (chociaż w algebrze na poziomie gimnazjum nazwalibyśmy to). To się nie zmienia. zmienia się. zmienia się. Termin błędu, , zmienia się losowo ; to jest zmienna losowa . Jednak parametry ( są zastępczymi dla wartości, których nie znamy - nie różnią się. Zamiast tego są to nieznane stałe . Rezultatem tego faktu w tej dyskusji jest to, że bez względu na to, co to jest (tj. Jaka jest tam wartość),σ2ε X Y ε β0, β1, σ2ε) X σ2ε pozostaje takie samo. Innymi słowy, wariancja błędów / reszt jest stała. Dla kontrastu (i być może większej przejrzystości) rozważ ten model:
W tym przypadku wartość dla (zaczynając od trzeciego wiersza) , przekazać je poprzez funkcję i uzyskać wariancję błędu, który uzyskuje w tym dokładnej wartości . Następnie jak zwykle przechodzimy przez resztę równania.
Powyższa dyskusja powinna pomóc w zrozumieniu natury założenia; pytanie dotyczy także tego, jak to ocenić . Istnieją zasadniczo dwa podejścia: formalne testy hipotez i badanie wykresów. Testów heteroscedastyczności można użyć, jeśli masz dane eksperymentalne (tj. Które występują tylko przy ustalonych wartościach ) lub ANOVA. Omawiam tutaj kilka takich testów: Dlaczego test Levene'a równości wariancji zamiast współczynnika F.X . Jednak wydaje mi się, że najlepiej jest patrzeć na działki. @Penquin_Knight wykonał dobrą robotę, pokazując, jak wygląda stała wariancja, wykreślając resztki modelu, w którym uzyskuje się homoscedastyczność względem dopasowanych wartości. Heteroscedastyczność można również wykryć na wykresie nieprzetworzonych danych lub na wykresie lokalizacji skalowanej (zwanym także poziomem rozproszenia). R wygodnie drukuje te ostatnie za pomocą połączenia z
plot.lm(model, which=2)
; jest to pierwiastek kwadratowy z bezwzględnych wartości reszt w stosunku do dopasowanych wartości, z krzywą nisko ułożoną, pomocnie nałożoną. Chcesz, aby dopasowanie lowess było płaskie, a nie nachylone.Rozważ poniższe wykresy, które porównują, jak dane homoscedastyczne i heteroscedastyczne mogą wyglądać na tych trzech różnych typach liczb. Zwróć uwagę na kształt lejka dla dwóch górnych wykresów heteroscedastycznych i opadającą w górę linię lowess w ostatnim.
Dla kompletności, oto kod, którego użyłem do wygenerowania tych danych:
źródło