Mam następujący model liniowy:
Aby rozwiązać problem heteroscedastyczności resztek, próbowałem zastosować transformację logu do zmiennej zależnej jako ale nadal widzę ten sam efekt rozłożenia na resztki. Wartości DV są stosunkowo małe, więc stałe dodanie +1 przed pobraniem dziennika prawdopodobnie nie jest w tym przypadku właściwe.
> summary(Y)
Min. :-0.0005647
1st Qu.: 0.0001066
Median : 0.0003060
Mean : 0.0004617
3rd Qu.: 0.0006333
Max. : 0.0105730
NA's :30.0000000
Jak mogę przekształcić zmienne, aby poprawić błąd prognozowania i wariancję, szczególnie dla skrajnie dopasowanych wartości?
źródło
Chciałbyś spróbować transformacji Box-Coxa . Jest to wersja transformacji mocy:
Niektóre wcześniejsze dyskusje obejmują Jakie inne transformacje normalizujące są powszechnie stosowane poza zwykłymi, takimi jak pierwiastek kwadratowy, log itp.? i Jak mam przekształcić dane nieujemne, w tym zera? . Kod R można znaleźć poniżej Jak wyszukać procedurę statystyczną w R?
Ekonometrycy przestali się przejmować heteroskedastycznością po przełomowej pracy Halberta White'a (1980) nad ustanowieniem procedur wnioskowania odpornych na heteroskedastyczność (która w rzeczywistości po prostu powtórzyła wcześniejszą historię przez statystyki F. Eicker (1967)). Zobacz stronę Wikipedii , którą właśnie przepisałem.
źródło
Istnieje bardzo proste rozwiązanie problemu heteroskedastyczności związanego ze zmiennymi zależnymi w danych szeregów czasowych. Nie wiem, czy dotyczy to twojej zmiennej zależnej. Zakładając, że tak, zamiast używać nominalnej wartości Y, zmień ją na% zmiany Y w stosunku do bieżącego okresu w poprzednim okresie. Załóżmy na przykład, że Twoje nominalne Y wynosi 14 bilionów USD PKB w najbardziej aktualnym okresie. Zamiast tego obliczyć zmianę PKB w ostatnim okresie (powiedzmy 2,5%).
Nominalne szeregi czasowe zawsze rosną i zawsze są heteroskedastyczne (wariancja błędu rośnie w czasie, ponieważ wartości rosną). Szereg zmian% jest zazwyczaj homoskedastyczny, ponieważ zmienna zależna jest prawie stacjonarna.
źródło