tło
Próbuję zrozumieć pierwszy przykład w kursie na temat dopasowywania modeli (więc może się to wydawać absurdalnie proste). Obliczenia wykonałem ręcznie i pasują one do przykładu, ale kiedy powtórzę je w R, współczynniki modelu są wyłączone. Myślałem, że różnica może wynikać z tego, że podręcznik używa wariancji populacji ( ), podczas gdy R może używać wariancji próbki ( ), ale nie widzę, gdzie są one stosowane w obliczeniach. Na przykład, jeśli
używa gdzieś, sekcja pomocy na notatki:S 2lm()
var()
var()
Stosuje się mianownik n - 1, który daje obiektywny estymator wariancji (ko) dla obserwacji iid.
Mam spojrzał na kod dla obu lm()
i lm.fit()
i nie wnosić wykorzystania var()
, ale lm.fit()
przekazuje te dane do skompilowanego kodu C ( z <- .Call(C_Cdqrls, x, y, tol, FALSE)
), które nie mają dostępu.
Pytanie
Czy ktoś może wyjaśnić, dlaczego R daje różne wyniki? Nawet jeśli istnieje różnica w stosowaniu wariancji między próbą a populacją, dlaczego szacunki współczynników różnią się?
Dane
Dopasuj linię, aby przewidzieć rozmiar buta na podstawie klasy w szkole.
# model data
mod.dat <- read.table(
text = 'grade shoe
1 1
2 5
4 9'
, header = T);
# mean
mod.mu <- mean(mod.dat$shoe);
# variability
mod.var <- sum((mod.dat$shoe - mod.mu)^2)
# model coefficients from textbook
mod.m <- 8/3;
mod.b <- -1;
# predicted values ( 1.666667 4.333333 9.666667 )
mod.man.pred <- mod.dat$grade * mod.m + mod.b;
# residuals ( -0.6666667 0.6666667 -0.6666667 )
mod.man.resid <- (mod.dat$shoe - mod.man.pred)
# residual variance ( 1.333333 )
mod.man.unexpl.var <- sum(mod.man.resid^2);
# r^2 ( 0.9583333 )
mod.man.expl.var <- 1 - mod.man.unexpl.var / mod.var;
# but lm() gives different results:
summary(lm(shoe ~ grade, data = mod.dat))
Call:
lm(formula = shoe ~ grade, data = mod.dat)
Residuals:
1 2 3
-0.5714 0.8571 -0.2857
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.0000 1.3093 -0.764 0.585
grade 2.5714 0.4949 5.196 0.121
Residual standard error: 1.069 on 1 degrees of freedom
Multiple R-squared: 0.9643, Adjusted R-squared: 0.9286
F-statistic: 27 on 1 and 1 DF, p-value: 0.121
Edytować
Jak pokazał Ben Bolker , wygląda na to, że nauczyciele czasami popełniają błędy. Wygląda na to, że obliczenia R są prawidłowe. Morał tej historii: nie wierz w coś tylko dlatego, że nauczyciel mówi, że to prawda. Sprawdź to sam!
źródło
mod.m=8/3
. Ponieważ jeśli ustawiszmod.m=2.5714
, będą one wyglądać identycznie.lm
funkcji w R dosłownie dziesiątki tysięcy osób sprawdzało wyniki, porównując je z innymi rzeczami, a wynikilm
sprawdzane są na znanych przykładach za każdym razem, gdy cokolwiek zmienia się w kodzie. Z odpowiedziami tutaj co najmniej kilka osób może sprawdzić (twoje pytanie zostało sprawdzone 29 razy).Odpowiedzi:
Wygląda na to, że autor popełnił gdzieś błąd matematyczny.
Jeśli powiększysz odchylenie sumy kwadratów
co zmniejsza się do co jest takie samo jak wyrażenie autora, z wyjątkiem stałego wyrażenia, które i tak nie ma znaczenia).
Teraz musimy spróbować to zminimalizować, ustawiając pochodne względem i na zero i rozwiązując układ.S. b m
Rozwiązać
R mówi, że to rzeczywiście 2.571429 ...
Na podstawie tego linku wydaje się, że pochodzi on z kursu Coursera ...? Może gdzieś była błędna transkrypcja danych?
Innym niezależnym sposobem wykonania tego obliczenia jest wiedza, że oszacowane nachylenie regresji jest równe sumie iloczynów krzyżowych ( ) podzielonej przez sumę kwadratów ( ).∑(y−y¯)(x−x¯) ∑(x−x¯)2
Jeśli pomyślimy, że rozmiary butów to zamiast wówczas nachylenie wyniesie 8/3 ...{ 1 , 5 , 9 }{1,11/3,9} {1,5,9}
źródło