Dlaczego mówimy, że zmienna wynikowa „jest regresowana” na predyktorze (predyktorach)?

16

Czy istnieje jakieś intuicyjne wyjaśnienie tej terminologii? Dlaczego tak jest, a nie predyktor (y) są regresowane w wyniku?

Mam nadzieję, że właściwe wyjaśnienie, dlaczego taka terminologia istnieje, pomoże uczniom zapamiętać ją i powstrzymać przed powiedzeniem jej w niewłaściwy sposób.

user1205901 - Przywróć Monikę
źródło
1
Czy my? Nie jestem pewien, czy kiedykolwiek to powiedziałem - i dużo rozmawiałem o regresji. Jeśli znasz kogoś, kto to mówi, być może możesz go zapytać. (Mam przy okazji powiedział „ regres na ” - ale na to brzmieć nieco dziwnie do mnie)
Glen_b -Reinstate Monica
Dzięki - miałem na myśli „włączony”, a nie „włączony”. Naprawiłem to teraz.
user1205901 - Przywróć Monikę

Odpowiedzi:

19

Nie wiem, na czym polega etymologia „regresu”, ale oto interpretacja, o której myślę, wypowiadając lub słysząc to wyrażenie. Rozważ następujący rysunek z The Elements of Statistics Learning autorstwa Hastie i in .:

regresja jest projekcją

W swoim rdzeniu regresja liniowa sprowadza się do rzutu prostopadłego na (na) X , gdzie y jest n- wymiarowym wektorem obserwacji zmiennej zależnej iyXyn jest podprzestrzenią rozpiętą przez wektory predykcyjne.X

Jest to bardzo przydatna interpretacja regresji liniowej.

Ponieważ jest rzutowany na X , to jest to, co myślę, kiedy słyszę, że Y jest „cofnęła się na” X . Z tego punktu widzenia, to by mniej sensu powiedzieć, że X jest regres na Y lub że Y jest regres „przeciw” lub „z” X .yXyXXyyX

Mam nadzieję, że właściwe wyjaśnienie, dlaczego taka terminologia istnieje, pomoże uczniom zapamiętać ją i powstrzymać przed powiedzeniem jej w niewłaściwy sposób.

Jak powiedziałem, wątpię, aby to było wyjaśnienie, dlaczego ta terminologia istnieje (być może tylko dlatego, dlaczego się utrzymuje?), Ale jestem pewien, że może pomóc uczniom ją zapamiętać.

ameba mówi Przywróć Monikę
źródło
2
+1. Zależy od studentów! Jest to oczywiście ważny i owocny sposób mówienia i myślenia na poziomie średnim lub zaawansowanym. Zastanawiam się, czy odpowiada za terminologię „na”. Nie tak dawno można było znaleźć teksty regresji prawie bez diagramów, nie mówiąc już o mocno wizualnym lub geometrycznym podejściu, mimo że jest to obecnie całkowicie standardowe, podczas gdy myślę, że ta terminologia sięga kilku dekad.
Nick Cox
(+1) Jedynym sposobem, w jaki dostałem pojęcie regresji przez moją czaszkę, jest myślenie o niej jako rzucie na przestrzeń kolumny C ( A ) matrycy modelowej, która, jak sądzę, jest pokazaną przez ciebie interpretacją geometryczną . ydo(ZA)
Antoni Parellada
1
Jest to bardzo dobry statystyczny powód stosowania terminologii. Społeczne lub językowe powody, dla których jest popularny, mogą być inne!
Nick Cox,
Żeby było jasne: w pełni zgadzam się z tym, co @NickCox powiedział w komentarzach tutaj.
ameba mówi Przywróć Monikę
6

Często używałem i słyszałem ten sposób mówienia. Zgaduję, że sekwencja wspominająca wynik lub odpowiedź przed predyktorami wynika z konwencji w formie pisemnej, za pomocą słów lub notacji lub mieszania tych dwóch, aż do

Y=Xβ

odkładając na bok równie interesujące (lub nieciekawe!) pytanie o to, co nazywamy różnymi rodzajami zmiennych.

Ale wydaje się równie ważne matematycznie i statystycznie, aby najpierw wymienić predyktory, tak jak wielu matematyków najpierw pisze odwzorowania lub funkcje z argumentami.

To, co często napędza sekwencję, której używamy w dyskusjach statystycznych, to fakt, że naukowo lub praktycznie zazwyczaj mamy jasne pojęcie o tym, co próbujemy przewidzieć - jest to śmiertelność, dochód, plon pszenicy, głosy w wyborach lub cokolwiek innego - podczas gdy pula potencjalnych lub faktycznych predyktorów może nie być tak wyraźna. Nawet jeśli jest to jasne, warto najpierw wymienić najważniejsze rzeczy. Co próbujesz zrobić? Przewiduj cokolwiek . Jak zamierzasz to zrobić? Użyj niektórych lub wszystkich tych zmiennych .

Nie mam historii do włączenia, a nie innego słowa, które by pasowało. Nie słyszę „regresowany” ani „regresowany za pomocą”. Być może nie ma tu logiki, tylko memy przekazywane w podręcznikach, nauczaniu i dyskusjach.

yx

Nick Cox
źródło
+1. Ale moja osobista interpretacja „regresji włączonej” odbywa się poprzez „rzutowany na”, patrz moja odpowiedź. Zastanawiam się, czy wiele osób myśli o tym wyrażeniu w ten sposób, czy to tylko ja.
ameba mówi Przywróć Monikę
3

1) Pojęcie regresja wynika z faktu, że w zwykłym prostym modelu regresji liniowej:

y=α+βx+ϵ

że chyba że wynik, yi predyktor, x, zmienne są doskonale skorelowane, dopasowane wartości, y^są bliżej średniej wyniku, y¯, (po standaryzacji) niż zmienna predykcyjna, xma na myśli x¯(po standaryzacji). Zatem wynik wykazuje regresję do średniej.

|y^-y¯|/sy<|x-x¯|/sx

Na przykład, jeśli użyjemy ramki danych BOD wbudowanej w R, wówczas:

fm <- lm(demand ~ Time, BOD)
with(BOD, all( abs(fitted(fm) - mean(demand)) / sd(demand) < abs(scale(Time))))
## [1] TRUE

Aby zobaczyć dowód, patrz: https://en.wikipedia.org/wiki/Regression_toward_the_mean

2) Określenie na wynika z faktu, że wartości są wyposażone występ zmiennej rezultatu na podprzestrzeni objętej przez predyktorami (łącznie z osią), jak objaśniono bardziej szczegółowo w wielu źródłach, takich jak http: //people.eecs.ku .edu / ~ jhuan / EECS940_S12 / slides / linearRegression.pdf .

Uwaga

Jeśli chodzi o komentarz poniżej, to, co komentuje, jest tym, co już stwierdza powyższa odpowiedź w formie formuły, z wyjątkiem tego, że odpowiedź stwierdza to poprawnie. W rzeczywistości ze względu na równość:

(y^-y¯)=β^(x-x¯)

zmienna zależna niekoniecznie jest średnio bliższa swojej średniej niż predyktor jest do jej średniej, chyba że |β|<1. Prawdą jest, że zmienna zależna ma średnio mniej standardowych odchyleń od swojej średniej niż predyktor do jej, jak podano we wzorze w odpowiedzi.

Korzystając z danych Galtona, do których odnosi się komentarz (który jest dostępny w pakiecie UsingR w R), uruchomiłem regresję i tak naprawdę nachylenie wynosi 0,646, więc średnie dziecko było bliżej średniej niż jej rodzic, ale to nie jest ogólny przypadek. Obecne użycie regresji do średniej opiera się na prawidłowym ogólnym związku, który wykazaliśmy w odpowiedzi. W przykładzie pokazanym w kodzie R w odpowiedzi powyżejbmitza>1więc nie jest prawdą, że zapotrzebowanie jest koniecznie bliższe średniemu zapotrzebowaniu niż czas średni czas i możemy łatwo sprawdzić liczbowo w tym przykładzie, że nie zawsze jest bliższy. Jest to prawdą tylko wtedy, gdy mierzymy bliskość odchyleń standardowych, jak pokazuje nierówność w odpowiedzi.

G. Grothendieck
źródło
1
Jestem pewien, że nie stąd pochodzi regresja. We wczesnym użyciu terminu wzrost syna cofnął się na wzrost ojca; ze względu na średnie wyniki powrotu wykazano, że synowie wysokich ojców mieli tendencję do cofania się do średniej.
PaulB
Chociaż było to prawdą w przypadku tego konkretnego zestawu danych, który nie jest ogólnie prawdą, chyba że mierzysz bliskość w kategoriach standardowych odchyleń, ale właśnie to robi nierówność w odpowiedzi, więc może po prostu jej nie rozpoznałeś. W rzeczywistości współczesne pojęcie opiera się na poprawnym sformułowaniu, które stwierdziłem, a nie na niepoprawnym sformułowaniu, które nie obejmuje odchylenia standardowego. Rozwinąłem tę kwestię w nocie, którą dodałem na końcu odpowiedzi.
G. Grothendieck
0

Osobiście, jeśli chodzi o wyjaśnianie terminologii, uważam, że sama definicja tego terminu zawsze pomaga, zwłaszcza gdy wyjaśnia się studentom. Rzeczywista definicja słowa regress to:

„powrót do poprzedniego lub mniej rozwiniętego stanu”.

Myślę, że jednym ze sposobów wyjaśnienia byłoby:

„Myśląc o wyniku jako stanie w pełni rozwiniętym, staramy się wyjaśnić wynik przy użyciu stanów mniej rozwiniętych, tj. Zmiennych niezależnych. W ten sposób wynik jest regresowany w predyktorach”.

Mam nadzieję, że to pomaga.

EhsanF
źródło
1
Istnieje więcej niż jedna „rzeczywista definicja”. Sugerowałbym, że w nauce statystycznej techniczna definicja regresji jako dopasowania modelu (domyślnie model liniowy) jest teraz podstawowa, a sens historyczny. Uchwycony przez „regres do średniej”, który pozostaje interesujący, a czasem użyteczny, to: wtórny. Nie wydaje mi się pomocne myślenie, że predyktory są ogólnie „stanami słabiej rozwiniętymi”, np. Nie ma sensu, w którym prognozy opadów są mniej rozwiniętym stanem plonu pszenicy. Tak czy inaczej, nie rozumiem, jak to wyjaśnia to wyrażenie.
Nick Cox
Całkowicie rozumiem twój punkt widzenia. Czy istnieje sposób na wyjaśnienie regresji za pomocą zamieszczonej przeze mnie definicji? Ponieważ sposób, w jaki uważałbym, że jest „mniej rozwinięty”, nie polega na tym, że opady deszczu są mniej rozwinięte niż plon pszenicy, ale raczej jako coś, co częściowo tłumaczy plon pszenicy.
EhsanF
1
Jeśli „mniej rozwinięty” nie oznacza mniej rozwiniętego, nie widzę, aby to sformułowanie w ogóle pomogło.
Nick Cox,