Czy jest tak, że w standaryzacji znana jest wariancja, podczas gdy w trakcie studentizacji nie jest znana, a zatem szacowana? Dziękuję Ci.
standardization
58485362
źródło
źródło
Odpowiedzi:
Krótkie podsumowanie. Biorąc pod uwagę wzóry=Xβ+ε , gdzie X jest n×p , β = ( X ' X ) - 1 x " Y i Y = X p = X ( X ' X ) - 1 X ' Y = H y , gdzie H = X ( X ′ Xβ^=(X′X)−1X′y y^=Xβ^=X(X′X)−1X′y=Hy H=X(X′X)−1X′ jest „matrycą kapeluszową”. Reszty są
Semistudentyzowane reszty są zdefiniowane jako , ale ponieważ wariancja reszt zależy zarównoĎ2iX, szacowane wariancja wynosi:V(eI)=MSE(1-HiI), w którymHiIjestp przekątnej elementem matrycy kapelusza.
Standaryzowane reszty, zwane także reszty studentami wewnętrznie , to:
Jednak pojedyncze i nie są niezależne, więc nie może mieć rozkładu . Procedura polega następnie na usunięciu tej obserwacji, dopasowaniu funkcji regresji do pozostałych obserwacji i uzyskaniu nowego M S E r i t i n - 1ei MSE ri t i n−1 „s, które mogą być oznaczone przez Y ı(ı). Różnica:
dI=Yi - R I(I)
nosi nazwęusunięte pozostałyy^ y^i(i)
Patrz Kutner i in., Applied Linear Statistics Models , rozdział 10.
Edycja: Muszę powiedzieć, że odpowiedź rpierce jest idealna. Myślałem, że OP dotyczy standaryzowanych i uczonych reszt (i dzielenie przez odchylenie standardowe populacji w celu uzyskania standaryzowanych reszt wyglądało dla mnie dziwnie), ale się myliłem. Mam nadzieję, że moja odpowiedź może komuś pomóc, nawet jeśli OT.
źródło
Wydaje się jednak, że istnieją pewne różnice terminologiczne między polami (zobacz komentarze do tej odpowiedzi). Dlatego należy zachować ostrożność przy dokonywaniu tych rozróżnień. Co więcej, wyniki studenckie są rzadko nazywane takimi i zwykle postrzegane są wartości „studentizowane” w kontekście regresji. @Sergio podaje w swojej odpowiedzi szczegółowe informacje na temat tego rodzaju studenckich usuniętych resztek.
źródło
Bardzo spóźniłem się z odpowiedzią na to pytanie !! Ale nie mogłem znaleźć odpowiedzi w bardzo prostym języku, więc pokorna próba odpowiedzi na to pytanie.
Dlaczego wykonujemy standaryzację? Wyobraź sobie, że masz dwa modele - jeden przewiduje szaleństwo na podstawie ilości czasu poświęconego na badanie statystyk, podczas gdy inne przewiduje log (szaleństwo) wraz z ilością czasu na statystyki.
trudno byłoby zrozumieć, że pozostałości są w różnych jednostkach. Więc je standaryzujemy. (Podobna teoria jak Z-score)
Standaryzowane reszty: - Gdy reszty są podzielone przez oszacowanie odchylenia standardowego. Zasadniczo, jeśli wartość bezwzględna> 3, jest to przyczyną niepokoju.
Używamy tego do badania wartości odstających w modelu.
Studentized Residual: Używamy tego do badania stabilności modelu.
Proces jest prosty. Usuwamy indywidualny przypadek testowy z modelu i znajdujemy nową przewidywaną wartość. Różnicę między nową wartością a pierwotną zaobserwowaną wartością można znormalizować, dzieląc błąd standardowy. ta wartość jest resztą studencką
Więcej informacji na temat odkrywania statyki za pomocą R - http://www.statisticshell.com/html/dsur.html
źródło
Wikipedia ma dobry przegląd na https://en.wikipedia.org/wiki/Normalization_(statistics) :
źródło