Strony pomocy w R zakładają, że wiem, co oznaczają te liczby, ale nie wiem. Staram się naprawdę intuicyjnie zrozumieć każdą liczbę tutaj. Po prostu opublikuję wynik i skomentuję to, czego się dowiedziałem. Mogą (będą) występować błędy, ponieważ napiszę tylko to, co zakładam. Przede wszystkim chciałbym wiedzieć, co oznacza wartość t współczynników i dlaczego wypisują resztkowy błąd standardowy.
Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)
Residuals:
Min 1Q Median 3Q Max
-1.09907 -0.23626 -0.01064 0.23345 1.17532
To jest 5-punktowe podsumowanie reszt (ich średnia wynosi zawsze 0, prawda?). Liczb można użyć (tutaj zgaduję), aby szybko sprawdzić, czy są jakieś duże wartości odstające. Widać to już tutaj, jeśli reszty są dalekie od normalnie rozłożonych (powinny być normalnie rozłożone).
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.30843 0.06210 53.278 < 2e-16 ***
iris$Petal.Width -0.20936 0.04374 -4.786 4.07e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Szacunki , obliczone na podstawie regresji metodą najmniejszych kwadratów. Ponadto standardowy błąd to . Chciałbym wiedzieć, jak to się oblicza. Nie mam pojęcia, skąd bierze się wartość t i odpowiadająca jej wartość p. Wiem, że powinien być rozkładem normalnym, ale jak obliczana jest wartość t?
Residual standard error: 0.407 on 148 degrees of freedom
, tak myślę. Ale dlaczego to obliczamy i co nam to mówi?
Multiple R-squared: 0.134, Adjusted R-squared: 0.1282
, co oznacza . Stosunek jest bliski 1, jeśli punkty leżą na linii prostej, i 0, jeśli są losowe. Co to jest skorygowany R-kwadrat?
F-statistic: 22.91 on 1 and 148 DF, p-value: 4.073e-06
F i p dla całego modelu, nie tylko dla pojedynczych s jak poprzednio. Wartość F to . Im większy rośnie, tym bardziej mało prawdopodobne jest, że nie mają żadnego efektu.
źródło
Odpowiedzi:
Pięć punktów podsumowania
tak, chodzi o szybkie podsumowanie dystrybucji. Powinna być w przybliżeniu symetryczna względem średniej, mediana powinna być bliska 0, wartości 1Q i 3Q powinny idealnie być mniej więcej podobnymi wartościami.
Współczynniki iβi^s
Każdy współczynnik w modelu jest losową zmienną Gaussa (normalną). jest oszacowanie średniej rozkładu tej zmiennej losowej, a błąd standardowy jest pierwiastek kwadratowy z wariancji tego rozkładu. Jest to miara niepewności w oszacowaniu .βi^ βi^
Możesz sprawdzić, w jaki sposób są one obliczane (a także stosowane wzory matematyczne) na Wikipedii . Zauważ, że żaden szanujący się program statystyczny nie użyje standardowych równań matematycznych do obliczenia ponieważ wykonanie ich na komputerze może prowadzić do dużej utraty precyzji obliczeń.βi^
W statystyczne są szacunkowe ( ) podzielona przez błędy standardowe ( ), np . Zakładając, że masz ten sam model w obiekcie co twoje Q:t βi^ σi^ ti=βi^σi^
mod
następnie raporty wartości R są obliczane jako:t
Gdzieβi^ σi^
coef(mod)
jest i podaje pierwiastki kwadratowe diagonalnych elementów macierzy kowariancji parametrów modelu, które są standardowymi błędami parametrów ( ).sqrt(diag(vcov(mod)))
Wartość p jest prawdopodobieństwem osiągnięcia atak duża jak lub większa niż zaobserwowana bezwzględna wartość t, jeśli hipoteza ( ) była prawdziwa, gdzie wynosi . Są one obliczane jako (używając z góry):|t| H0 H0 βi=0
tstats
Tak więc obliczamy prawdopodobieństwo osiągnięcia górnego ogona dla wartości , które zrobiliśmy z rozkładu przy stopniach swobody równych pozostałym stopniom swobody modelu. To reprezentuje prawdopodobieństwo osiągnięcia wartości większej niż wartości bezwzględne obserwowanych s. Mnoży się ją przez 2, ponieważ oczywiście może być również duże w kierunku ujemnym.t t t t t
Błąd resztkowy standardowy
Resztkowy błąd standardowy jest oszacowaniem parametru . Przy założeniu, w normalnych najmniejszych kwadratów, że reszty indywidualnie opisany przez (normalny) rozkład Gaussa, ze średnią i odchylenie standardowe 0 . dotyczy stałej wariancji założeniu; każda reszta ma tę samą wariancję i ta wariancja jest równa .σ σ σ σ2
SkorygowanoR2
Skorygowane oblicza się jako:R2
Skorygowany jest taki sam jak , ale dostosowany do złożoności (tj. Liczby parametrów) modelu. Biorąc pod uwagę model z jednym parametrem, z pewnym , jeśli dodamy kolejny parametr do tego modelu, nowego modelu musi wzrosnąć, nawet jeśli dodany parametr nie ma mocy statystycznej. Skorygowane uwzględnia to, włączając liczbę parametrów do modelu.R2 R2 R2 R2 R2
jest stosunek dwóch wariancji ( ), wariancja wyjaśnionego parametrów modelu (suma kwadratów z regresją SSR) oraz pozostałości lub niewyjaśnionej wariancji (suma kwadratów błędów, SSE). Możesz to lepiej zobaczyć, jeśli otrzymamy tabelę ANOVA dla modelu poprzez :F SSR/SSE
anova()
W y są takie same, na wyjściu ANOVA i wyjściu. Kolumna zawiera dwa odchylenia i . Możemy obliczyć prawdopodobieństwo uzyskania wartości tak dużej przy zerowej hipotezie braku efektu, na podstawie rozkładu o 1 i 148 stopniach swobody. To jest zgłaszane w ostatniej kolumnie tabeli ANOVA. W prostym przypadku pojedynczego, ciągłego predyktora (jak w twoim przykładzie) , dlatego wartości p są takie same. Ta równoważność obowiązuje tylko w tym prostym przypadku.F 3,7945 / 0,1656 = 22,91 F F F = t 2 P e t a l . W i d t h3.7945/0.1656=22.91 F F F=t2Petal.Width
summary(mod)
Mean Sq
źródło
Ronen Israel i Adrienne Ross (AQR) napisali bardzo ładny artykuł na ten temat: Pomiar ekspozycji czynników: zastosowania i nadużycia .
Podsumowując (patrz: s. 8),
lm()
Podsumowanie R oblicza wartość pPr(>|t|)
. Im mniejsza wartość p, tym bardziej znaczący jest ten współczynnik. Wartość p = 0,05 jest rozsądnym progiem.źródło