Dlaczego w analizie regresji nazywamy zmienne niezależne „niezależnymi”?

30

Mam na myśli, że niektóre z tych zmiennych są ze sobą ściśle skorelowane. Jak / dlaczego / w jakim kontekście definiujemy je jako zmienne niezależne ?

Amarpreet Singh
źródło
1
To jest historyczne i pochodzi z francuskich prac naukowych. Próbuję znaleźć referencję.
Alecos Papadopoulos
1
Nazwałbym zestaw zmiennych „potencjalnie współzależnymi”, aby uniknąć wnioskowania o przyczynowości.
qed
1
Dobre pytanie!
Rafael Marazuela

Odpowiedzi:

29

Jeśli wycofamy się z dzisiejszego nacisku na uczenie maszynowe i przypomnimy sobie, ile analiz statystycznych opracowano dla kontrolowanych badań eksperymentalnych, wyrażenie „zmienne niezależne” ma sens.

W kontrolowanych badaniach eksperymentalnych wybory leku i jego stężeń lub nawozu i jego ilości na akr są dokonywane przez badacza niezależnie . Interesuje się, w jaki sposób zmienna odpowiedzi będąca przedmiotem zainteresowania (np. Ciśnienie krwi, plon) zależy od tych eksperymentalnych manipulacji. Idealnie, cechy zmiennych niezależnych są ściśle określone, w zasadzie bez błędów w znajomości ich wartości. Następnie standardowa regresja liniowa modeluje na przykład różnice między wartościami zmiennych zależnych pod względem wartości zmiennych niezależnych plus błędy resztkowe.

Ten sam matematyczny formalizm zastosowany do regresji w kontekście kontrolowanych badań eksperymentalnych można również zastosować do analizy zaobserwowanych zestawów danych przy niewielkiej lub zerowej manipulacji eksperymentalnej, więc być może nie jest zaskakujące, że wyrażenie „zmienne niezależne” zostało przeniesione na takie typy studia. Ale, jak zauważają inni na tej stronie, jest to prawdopodobnie niefortunny wybór, z „predyktorami” lub „funkcjami” bardziej odpowiednimi w takich kontekstach.

EdM
źródło
2
Ale wybór poziomów leku zależy od tego, co robi badacz, dlatego nigdy nie pamiętam, który jest który.
mdewey
W uczeniu maszynowym „funkcje” są często ukrytymi, nieobserwowanymi zmiennymi. „Obserwowane cechy” są bardziej powszechne.
Neil G
18

Pod wieloma względami „zmienna niezależna” jest niefortunnym wyborem. Zmienne nie muszą być od siebie niezależne i oczywiście nie musi być niezależna od zmiennej zależnej . W nauczaniu oraz w mojej książce Strategie modelowania regresji używam słowa predyktor . W niektórych sytuacjach to słowo nie jest wystarczająco mocne, ale średnio działa dobrze. Pełny opis roli zmiennych (po prawej stronie) w modelu statystycznym może być za długi do użycia za każdym razem: zestawu zmiennych lub pomiarów, na których uwarunkowany jest rozkładJest to inny sposób określenia zestawu zmiennych, których rozkładów obecnie nie jesteśmy zainteresowani, ale których wartości traktujemy jako stałe.XYXY

Frank Harrell
źródło
Więc wszystko, co mówisz, że nazywanie zmiennych wejściowych „niezależnymi” jest niewłaściwą praktyką? @Frank
Amarpreet Singh
11
Na pewno nie zakłada się, że są niezależne od NIC, więc jest to niewłaściwa praktyka, stosowana tylko z powodu nawyku.
Frank Harrell,
1
„zbiór zmiennych lub pomiarów, na których uwarunkowany jest rozkład Y”… tak naprawdę myślę o nich jako (i czasami nazywam je) „zmiennymi warunkowymi” lub „zmiennymi warunkowanymi”, który nie jest zbyt długi opis i działa naturalnie z notacją E(Y|X)
Silverfish,
11

Zgadzam się z innymi odpowiedziami, że „niezależny” i „zależny” to zła terminologia. Jak wyjaśnia EdM , terminologia ta powstała w kontekście kontrolowanych eksperymentów, w których badacz mógł ustawić regresory niezależnie od siebie. Istnieje wiele preferowanych terminów, które nie mają tak obciążonego związku przyczynowego, a z mojego doświadczenia wynika, że ​​statystycy wolą bardziej neutralne terminy. Jest tu wiele innych terminów , w tym:

Yixi,1,...,xi,mResponsePredictorsRegressandRegressorsOutput variableInput variablesPredicted variableExplanatory variables

Osobiście używam terminów zmiennych objaśniających i zmiennych odpowiedzi, ponieważ te terminy nie mają konotacji statystycznej niezależności lub kontroli itp. (Można argumentować, że „reakcja” ma konotację przyczynową, ale jest to dość słaba konotacja, więc ja nie znalazłem problemu).

Przywróć Monikę
źródło
1
(+1) Przypuszczam, że regressor / regressand są najbardziej neutralnymi terminami, ale wolę też wyjaśniać za pomocą wyjaśnienia / odpowiedzi.
Frans Rodenburg
2
Zgadzam się z tendencją do preferowania terminów neutralnych, ale „objaśniające” brzmi dla mnie dość przyczynowo, jak w: „Zmienne X wyjaśniają, dlaczego zmienna Y działa w taki sposób”.
timwiz
1
Mam na myśli wyjaśnianie w sensie probabilistycznym - tj. Wyjaśnia zmiany w rozkładzie zmiennej odpowiedzi. Być może masz rację, ale we wszystkich tych przypadkach konotacja do jakiejkolwiek przyczynowości jest słaba.
Przywróć Monikę
2
Wyjaśnienie oznacza związek przyczynowy, więc jest niewłaściwe.
Frank Harrell,
1
@Frank: Niekoniecznie zgadzam się z tym poglądem. Wyjaśnienie pochodzi od słowa „wyjaśnić”, więc sugeruję, że zmienne w jakiś sposób wyjaśniają zmienną odpowiedzi. To wyjaśnienie może być przyczynowe lub może być jedynie statystyczne, i uważam, że to drugie. Niemniej jednak wydaje się, że ludzie interpretują konotacje tych słów w różny sposób, więc przyznaję, że niektórzy czytają je jako mające konotacje przyczynowe.
Przywróć Monikę
9

Aby dodać do odpowiedzi Franka Harrella i Petera Floma:

Zgadzam się, że nazywanie zmiennej „niezależną” lub „zależną” często wprowadza w błąd. Ale niektórzy ludzie nadal to robią. Kiedyś usłyszałem odpowiedź, dlaczego:

W analizie regresji mamy jednego „specjalny” zmiennej (zazwyczaj oznaczone przez ) i wiele „nie-tak-specjalne” zmiennych ( X „) i chcemy, aby zobaczyć, jak zmiany w X. ” s wpłynąć Y . Innymi słowy, chcemy zobaczyć jak Y zależy na X. „s.YXXYY X

Dlatego nazywa się „zależnym”. A jeśli ktoś nazywa się „zależnym”, jak nazwałbyś kogoś innego?Y

Łukasz Deryło
źródło
Mówisz, że Y zależy od X, (więc Y nazywa się zmienną zależną), a przez to rozumiesz, że X nie zależy od Y. Ale mogą zdarzyć się przypadki, w których X może zależeć od Y lub korelować z Y (więc może nie będą już nazywane „niezależnymi”). Jakieś poglądy na ten temat?
Amarpreet Singh,
Nie, nie chodzi mi o to, że X nie zależy od Y. Mam na myśli, że najbardziej podstawowym wyjaśnieniem analizy regresji jest to, że opisuje ona zależność Y od X. Zatem najbardziej podstawowa nazwa Y byłaby „zależna „
Łukasz Deryło
6
Nie próbuję odpowiedzieć na pytanie „czy powinniśmy nazwać X niezależnym?” ale raczej „dlaczego nazywamy to niezależnym?”, tak jak w tytule twojego postu
Łukasz Deryło
5

Określenia „zależne” i „niezależne” mogą być mylące. Jednym ze zmysłów jest pseudokauzalny, a nawet przyczynowy, i to właśnie ten ma na myśli mówiąc „zmienna niezależna” i „zmienna zależna”. Rozumiemy, że DV w pewnym sensie zależy od IV. Na przykład, modelując związek wzrostu i masy ciała u dorosłych ludzi, mówimy, że waga to DV, a wzrost to IV.

To uchwyca coś, czego „predyktor” nie ma - mianowicie kierunek relacji. Wzrost przewiduje wagę, ale waga również przewiduje wzrost. To znaczy, jeśli powiedziano ci, żeby odgadnąć wysokość ludzi i powiedziano im, jaka jest ich waga, byłoby to przydatne.

Ale nie powiedzielibyśmy, że wzrost zależy od wagi.

Peter Flom - Przywróć Monikę
źródło
Czy jesteś konkretny na temat modelu SEM?
Amarpreet Singh
Nie. Myślałem o regresji.
Peter Flom - Przywróć Monikę
Ok, więc to tylko kwestia nazwy. Byłem zdezorientowany, że wywoływanie zmiennych wejściowych jako „niezależne” znaczy coś.
Amarpreet Singh
12
DV i IV są popularnymi skrótami (których osobiście nie lubię), ale uważaj na wielu ekonomistów i niektórych innych naukowców, dla których IV może oznaczać jedynie zmienną instrumentalną. Rzadziej spotyka się ludzi, dla których DV może oznaczać tylko Deo volente (jeśli Bóg pozwoli).
Nick Cox
0

Na podstawie powyższych odpowiedzi zgadzam się, że ta zależna i niezależna zmienna jest słabą terminologią. Ale mogę wyjaśnić kontekst, w którym wielu z nas z niego korzysta. Mówisz, że w przypadku ogólnego problemu regresji mamy zmienną Wyjściową, powiedzmy Y, której wartość zależy od innych zmiennych wejściowych, powiedzmy x1, x2, x3. Dlatego nazywa się to „zmienną zależną”. I podobnie w zależności od tego kontekstu tylko , i tylko do rozróżniania pomiędzy wyjściem i zmiennej wejściowej, x1, x2, x3 są określane jako zmienną niezależną. Ponieważ w przeciwieństwie do Y nie zależy od żadnej innej zmiennej (ale tak, nie mówimy tutaj o zależności od siebie).

Pooja Sonkar
źródło
Odpowiedziałeś podobnie jak @Ramya R.
Amarpreet Singh
-2

Zmienne niezależne są nazywane niezależnymi, ponieważ nie zależą od innych zmiennych. Weźmy na przykład problem z prognozą ceny domu. Załóżmy, że mamy dane o rozmiarze_domku, lokalizacji i cenie_pola. Tutaj cena domu jest ustalana na podstawie wielkości domu i lokalizacji, ale lokalizacja i wielkość domu mogą się różnić dla różnych domów.

Ramya R.
źródło
4
Czasami tak zwane „niezależne” zmienne w regresji są skorelowane. Dlatego niekoniecznie są one statystycznie niezależne. Lepiej nazwać je zmiennymi predykcyjnymi.
Michael R. Chernick,
Micheal, dzięki za zwrócenie na to uwagi. Mam pytanie uzupełniające. W przypadkach, gdy mamy dwie zmienne predykcyjne, które są współliniowe, czy nie odrzucamy jednej z nich, aby wyeliminować problem wielokoliniowości, aby nasze zmienne predykcyjne były od siebie niezależne?
Ramya R
1
Not necessarily. It depends on whether or not it affects the stability of estimates and how much stronger the prediction is when both variables are included. If two variables have correlation 0.1 they are not independent but the relationship between them is weak.
Michael R. Chernick