Co wyjaśnia Dodany wykres zmienny (wykres częściowej regresji) w regresji wielokrotnej?

18

Mam model zestawu danych Filmy i użyłem regresji:

model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
library(ggplot2)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)

Co dało wynik:

wprowadź opis zdjęcia tutaj

Teraz próbowałem po raz pierwszy pracować nad czymś o nazwie Dodany wykres zmienny i otrzymałem następujące wyniki:

car::avPlots(model, id.n=2, id.cex=0.7)

Dodano wykres zmienny

Problem polega na tym, że próbowałem zrozumieć Dodany wykres zmiennej za pomocą Google, ale nie mogłem zrozumieć jego głębokości, widząc wykres, zrozumiałem, że jest to rodzaj reprezentacji pochylenia na podstawie każdej zmiennej wejściowej związanej z wyjściem.

Czy mogę uzyskać nieco więcej szczegółów, na przykład uzasadnienie normalizacji danych?

Abhishek Choudhary
źródło
4
@Silverfish udzielił miłej odpowiedzi na twoje pytanie. Na drobnych szczegółach, co zrobić z konkretnym zestawem danych, model liniowy wygląda na bardzo zły pomysł. Głosy są oczywiście mocno wypaczoną nieujemną zmienną, więc wskazane jest coś w rodzaju modelu Poissona. Zobacz np. Blog.stata.com/tag/poisson-regression Zauważ, że taki model nie zobowiązuje cię do założenia, że ​​krańcowy rozkład odpowiedzi jest dokładnie Poissonem bardziej niż standardowy model liniowy zobowiązuje cię do postulowania marginalnej normalności.
Nick Cox,
2
Jednym ze sposobów dostrzeżenia, że ​​model liniowy działa źle, jest zauważenie, że przewiduje on wartości ujemne dla znacznej części przypadków. Zobacz region po lewej stronie dopasowania na pierwszym wykresie resztkowym. =0
Nick Cox,
Dzięki Nickowi Coxowi, tutaj odkryłem, że istnieje wysoce wypaczona, nieujemna natura, muszę rozważyć model Poissona, więc jest jakikolwiek link, który daje mi właściwe wyobrażenie, który model użyć w którym scenariuszu opartym na zbiorze danych i próbowałem użyć Czy regresja wielomianowa dla mojego zestawu danych będzie dobrym wyborem tutaj ...
Abhishek Choudhary,
1
Podałem już link, który z kolei zawiera dalsze odniesienia. Przykro mi, ale nie rozumiem drugiej połowy twojego pytania w odniesieniu do „scenariusza opartego na zbiorze danych” i „regresji wielomianowej”. Podejrzewam, że musisz zadać nowe pytanie o wiele bardziej szczegółowe.
Nick Cox
Jaki pakiet zainstalowałeś, aby R rozpoznał funkcję avPlots?
Isa

Odpowiedzi:

36

Dla ilustracji wezmę mniej złożony model regresji Y=β1+β2X2+β3X3+ϵ którym zmienne predykcyjne X2 i X3 mogą być skorelowane. Powiedzmy, że oba nachylenia β2 i β3 są dodatnie, więc możemy powiedzieć, że (i) Y wzrasta wraz ze wzrostem X2 , jeśli X3 jest utrzymywane na stałym poziomie, ponieważ β2 jest dodatnie; (ii) Ywzrasta wraz ze wzrostem X3 , jeśli X2 jest utrzymywane na stałym poziomie, ponieważ β3 jest dodatnie.

Zauważ, że ważne jest interpretowanie współczynników regresji wielokrotnej, biorąc pod uwagę, co dzieje się, gdy pozostałe zmienne są utrzymywane na stałym poziomie („ceteris paribus”). Załóżmy, że właśnie regresowałem Y względem X2 przy użyciu modelu Y=β1+β2X2+ϵ . Moje oszacowanie współczynnika nachylenia β2 , który mierzy wpływ na Y wzrostu o 1 jednostkę w X2 bez trzymania X3stała, może być różny od mojego oszacowania β2 z regresji wielokrotnej - który również mierzy wpływ na Y podwyższenia jedna jednostka w X2 , ale nie trzymaj X3 stały. Problem z moim oszacowaniem β2^ polega na tym, że cierpi on na odchylenie zmiennej pominiętej, jeśli X2 i X3 są skorelowane.

Aby zrozumieć dlaczego, wyobraź sobie, że X2 i X3 są ujemnie skorelowane. Teraz, gdy zwiększę X2 o jedną jednostkę, wiem, że średnia wartość Y powinna wzrosnąć, ponieważ β2>0 . Ale jak X2 wzrasta, jeżeli nie posiadają X3 stałą następnie X3 ma tendencję do spadku, a od β3>0 będzie to mają tendencję do zmniejszenia średniej wartości Y . Tak więc ogólny efekt wzrostu o 1 jednostkę w X2 będzie niższy, jeśli pozwolęX3!również zmieniać, stąd β2<β2 . Gorzej, tym silniej korelują X2 i X3 , a im większy efekt X3 do β3 - w naprawdę ciężkim przypadku możemy nawet znaleźć β2<0 chociaż wiemy, że ceteris paribus, X2 ma pozytywny wpływ na Y

Mam nadzieję, że teraz zrozumiesz, dlaczego narysowanie wykresu Y względem X2 byłoby złym sposobem na zwizualizowanie związku między Y i X2 w twoim modelu. W moim przykładzie twoje oko zostanie przyciągnięte do linii najlepszego dopasowania ze nachyleniem β2^ , która nie odzwierciedla β2^ z twojego modelu regresji. W najgorszym przypadku Twój model może przewidywać, że Y wzrasta wraz ze wzrostem X2 (przy innych zmiennych utrzymywanych na stałym poziomie), a jednak punkty na wykresie sugerują, że Y maleje, gdy X2 .

Problem polega na tym, że na prostym wykresie Y względem X2 pozostałe zmienne nie są utrzymywane na stałym poziomie. Jest to kluczowy wgląd w korzyści z dodanego wykresu zmiennej (zwanego również wykresem regresji częściowej) - wykorzystuje on twierdzenie Frisch-Waugh-Lovell do „częściowego” wpływu innych predyktorów. Osie horyzontalne i pionowe na wykresie można chyba najłatwiej zrozumieć * jako „ X2 po uwzględnieniu innych predyktorów” i „ Y po uwzględnieniu innych predyktorów”. Teraz możesz spojrzeć na związek między Y i X2 po uwzględnieniu wszystkich innych predyktorów. Na przykład nachylenie, które widać na każdym wykresie, teraz odzwierciedla współczynniki regresji częściowej z oryginalnego modelu regresji wielokrotnej.

Znaczna część wartości dodanego wykresu zmiennej pochodzi z etapu diagnostyki regresji, zwłaszcza że reszty w dodanym wykresie zmiennej są dokładnie resztami z pierwotnej regresji wielokrotnej. Oznacza to, że wartości odstające i heteroskedastyczność można zidentyfikować w podobny sposób, jak w przypadku wykresu modelu regresji prostej, a nie wielokrotnej. Można również zobaczyć punkty wpływające - jest to przydatne w regresji wielokrotnej, ponieważ niektóre punkty wpływające nie są oczywiste w oryginalnych danych przed uwzględnieniem innych zmiennych. W moim przykładzie umiarkowanie duża wartość X2 może nie wyglądać nie na miejscu w tabeli danych, ale jeśli wartość X3 jest również duża pomimo X2 i X3ponieważ jest ujemnie skorelowany, wówczas połączenie jest rzadkie. „Uwzględnianie innych predyktorów”, ta wartość X2 jest niezwykle duża i będzie bardziej widoczna na dodanym wykresie zmiennych.

Z technicznego punktu widzenia byłyby to reszty z uruchomienia dwóch innych wielokrotnych regresji: reszty z regresjiY względem wszystkich predyktorów innych niżX2 idą na osi pionowej, podczas gdy reszty z regresjiX2YX2X2YX2Y

Silverfish
źródło
Nie jestem pewien, jak o to zapytać, ale czy jest coś, co naprawdę można powiedzieć o trendach obserwowanych na fabułach? Na przykład, czy dopasowanie każdego trendu zależy od niezależności każdego z predyktorów, czy coś w tym rodzaju?
naught101
3
Czy istnieje metoda przeliczania jednostek reszt na osiach poziomych i pionowych na jednostki podstawowych zmiennych?
Nicholas G
To świetna odpowiedź. Ale czy w pierwszym akapicie jest literówka (zmienne predykcyjne)? Czy powinny to być X2 i X3?
detly
@detly Dzięki, zmieniono!
Silverfish,
Silverfish, znasz odpowiedź na pytanie @NicholasG? Czy jest jakiś sposób, aby reszty były interpretowalne pod względem jednostek zmiennej X?
Parseltongue
-1

czy jest coś, co naprawdę można powiedzieć o trendach obserwowanych na fabułach

Jasne, ich nachylenia są współczynnikami regresji z modelu oryginalnego (współczynniki regresji częściowej, wszystkie inne predyktory utrzymywane na stałym poziomie)

anonimowy
źródło