Czy istnieje jakieś intuicyjne wyjaśnienie tej terminologii? Dlaczego tak jest, a nie predyktor (y) są regresowane w wyniku?
Mam nadzieję, że właściwe wyjaśnienie, dlaczego taka terminologia istnieje, pomoże uczniom zapamiętać ją i powstrzymać przed powiedzeniem jej w niewłaściwy sposób.
regression
terminology
teaching
user1205901 - Przywróć Monikę
źródło
źródło
Odpowiedzi:
Nie wiem, na czym polega etymologia „regresu”, ale oto interpretacja, o której myślę, wypowiadając lub słysząc to wyrażenie. Rozważ następujący rysunek z The Elements of Statistics Learning autorstwa Hastie i in .:
W swoim rdzeniu regresja liniowa sprowadza się do rzutu prostopadłego na (na) X , gdzie y jest n- wymiarowym wektorem obserwacji zmiennej zależnej iy X y n jest podprzestrzenią rozpiętą przez wektory predykcyjne.X
Jest to bardzo przydatna interpretacja regresji liniowej.
Ponieważ jest rzutowany na X , to jest to, co myślę, kiedy słyszę, że Y jest „cofnęła się na” X . Z tego punktu widzenia, to by mniej sensu powiedzieć, że X jest regres na Y lub że Y jest regres „przeciw” lub „z” X .y X y X X y y X
Jak powiedziałem, wątpię, aby to było wyjaśnienie, dlaczego ta terminologia istnieje (być może tylko dlatego, dlaczego się utrzymuje?), Ale jestem pewien, że może pomóc uczniom ją zapamiętać.
źródło
Często używałem i słyszałem ten sposób mówienia. Zgaduję, że sekwencja wspominająca wynik lub odpowiedź przed predyktorami wynika z konwencji w formie pisemnej, za pomocą słów lub notacji lub mieszania tych dwóch, aż do
odkładając na bok równie interesujące (lub nieciekawe!) pytanie o to, co nazywamy różnymi rodzajami zmiennych.
Ale wydaje się równie ważne matematycznie i statystycznie, aby najpierw wymienić predyktory, tak jak wielu matematyków najpierw pisze odwzorowania lub funkcje z argumentami.
To, co często napędza sekwencję, której używamy w dyskusjach statystycznych, to fakt, że naukowo lub praktycznie zazwyczaj mamy jasne pojęcie o tym, co próbujemy przewidzieć - jest to śmiertelność, dochód, plon pszenicy, głosy w wyborach lub cokolwiek innego - podczas gdy pula potencjalnych lub faktycznych predyktorów może nie być tak wyraźna. Nawet jeśli jest to jasne, warto najpierw wymienić najważniejsze rzeczy. Co próbujesz zrobić? Przewiduj cokolwiek . Jak zamierzasz to zrobić? Użyj niektórych lub wszystkich tych zmiennych .
Nie mam historii do włączenia, a nie innego słowa, które by pasowało. Nie słyszę „regresowany” ani „regresowany za pomocą”. Być może nie ma tu logiki, tylko memy przekazywane w podręcznikach, nauczaniu i dyskusjach.
źródło
1) Pojęcie regresja wynika z faktu, że w zwykłym prostym modelu regresji liniowej:
że chyba że wynik,y i predyktor, x , zmienne są doskonale skorelowane, dopasowane wartości, y^ są bliżej średniej wyniku, y¯ , (po standaryzacji) niż zmienna predykcyjna, x ma na myśli x¯ (po standaryzacji). Zatem wynik wykazuje regresję do średniej.
Na przykład, jeśli użyjemy ramki danych BOD wbudowanej w R, wówczas:
Aby zobaczyć dowód, patrz: https://en.wikipedia.org/wiki/Regression_toward_the_mean
2) Określenie na wynika z faktu, że wartości są wyposażone występ zmiennej rezultatu na podprzestrzeni objętej przez predyktorami (łącznie z osią), jak objaśniono bardziej szczegółowo w wielu źródłach, takich jak http: //people.eecs.ku .edu / ~ jhuan / EECS940_S12 / slides / linearRegression.pdf .
Uwaga
Jeśli chodzi o komentarz poniżej, to, co komentuje, jest tym, co już stwierdza powyższa odpowiedź w formie formuły, z wyjątkiem tego, że odpowiedź stwierdza to poprawnie. W rzeczywistości ze względu na równość:
zmienna zależna niekoniecznie jest średnio bliższa swojej średniej niż predyktor jest do jej średniej, chyba że| β| <1 . Prawdą jest, że zmienna zależna ma średnio mniej standardowych odchyleń od swojej średniej niż predyktor do jej, jak podano we wzorze w odpowiedzi.
Korzystając z danych Galtona, do których odnosi się komentarz (który jest dostępny w pakiecie UsingR w R), uruchomiłem regresję i tak naprawdę nachylenie wynosi 0,646, więc średnie dziecko było bliżej średniej niż jej rodzic, ale to nie jest ogólny przypadek. Obecne użycie regresji do średniej opiera się na prawidłowym ogólnym związku, który wykazaliśmy w odpowiedzi. W przykładzie pokazanym w kodzie R w odpowiedzi powyżejb e t a > 1 więc nie jest prawdą, że zapotrzebowanie jest koniecznie bliższe średniemu zapotrzebowaniu niż czas średni czas i możemy łatwo sprawdzić liczbowo w tym przykładzie, że nie zawsze jest bliższy. Jest to prawdą tylko wtedy, gdy mierzymy bliskość odchyleń standardowych, jak pokazuje nierówność w odpowiedzi.
źródło
Osobiście, jeśli chodzi o wyjaśnianie terminologii, uważam, że sama definicja tego terminu zawsze pomaga, zwłaszcza gdy wyjaśnia się studentom. Rzeczywista definicja słowa regress to:
„powrót do poprzedniego lub mniej rozwiniętego stanu”.
Myślę, że jednym ze sposobów wyjaśnienia byłoby:
„Myśląc o wyniku jako stanie w pełni rozwiniętym, staramy się wyjaśnić wynik przy użyciu stanów mniej rozwiniętych, tj. Zmiennych niezależnych. W ten sposób wynik jest regresowany w predyktorach”.
Mam nadzieję, że to pomaga.
źródło