Zależność liniowa między zmiennymi objaśniającymi w regresji wielokrotnej

10

Czytałem rozdział dotyczący regresji wielokrotnej analizy danych i grafiki przy użyciu R: podejście oparte na przykładach i byłem nieco zdezorientowany, gdy dowiedziałem się, że zaleca sprawdzanie liniowych zależności między zmiennymi objaśniającymi (za pomocą wykresu rozrzutu), a jeśli nie ma t dowolny, przekształcając je tak, oni mają stać się bardziej liniowo zależne. Oto kilka fragmentów tego:

6.3 Strategia dopasowania modeli regresji wielokrotnej

(...)

Sprawdź macierz wykresu rozrzutu obejmującą wszystkie zmienne objaśniające. (Uwzględnienie zmiennej zależnej jest w tym momencie opcjonalne. ) Najpierw poszukaj dowodów nieliniowości na wykresach zmiennych objaśniających względem siebie.

(...)

Ten punkt identyfikuje strategię wyszukiwania modeli - szukaj modeli, w których relacje regresji między zmiennymi objaśniającymi mają „prostą” formę liniową . Tak więc, jeśli niektóre wykresy parami wykazują dowody nieliniowości, rozważ zastosowanie transformacji, aby uzyskać bardziej zbliżone relacje liniowe . Chociaż niekoniecznie może okazać się możliwe, zgodnie z tą strategią, odpowiednie modelowanie relacji regresji, jest to dobra strategia, z podanych poniżej powodów, do naśladowania przy rozpoczynaniu wyszukiwania.

(...)

Jeśli relacje między zmiennymi objaśniającymi są w przybliżeniu liniowe, być może po transformacji, możliwe jest z pewnością interpretowanie wykresów zmiennych predykcyjnych względem zmiennej odpowiedzi z pewnością.

(...)

Znalezienie transformacji jednej lub więcej zmiennych objaśniających, które zapewnią, że relacje (parami) pokazane na panelach będą liniowe, może być niemożliwe. Może to stwarzać problemy zarówno dla interpretacji wykresów diagnostycznych dla dowolnego dopasowanego równania regresji, jak i dla interpretacji współczynników w dopasowanym równaniu. Patrz Cook i Weisberg (1999).

Czy nie powinienem martwić się liniowymi zależnościami między zmiennymi zależnymi (z powodu ryzyka wielokoliniowości) zamiast aktywnie je śledzić? Jakie są zalety posiadania w przybliżeniu liniowo powiązanych zmiennych?

Autorzy zajmują się kwestią wielokoliniowości w dalszej części rozdziału, ale zalecenia te wydają się być w sprzeczności z unikaniem wielokoliniowości.

RicardoC
źródło

Odpowiedzi:

8

Są tutaj dwa punkty:

  1. Fragment zaleca przekształcenie IV do liniowości tylko wtedy, gdy istnieją dowody nieliniowości. Nieliniowe relacje między IV mogą również powodować kolinearność, a bardziej centralnie mogą komplikować inne relacje. Nie jestem pewien, czy zgadzam się z radą zawartą w książce, ale to nie jest głupie.

  2. Z pewnością bardzo silne zależności liniowe mogą być przyczyną kolinearności, ale wysokie korelacje nie są ani konieczne, ani wystarczające do spowodowania problematycznej kolinearności. Dobrą metodą diagnozowania kolinearności jest wskaźnik stanu.

EDYCJA w odpowiedzi na komentarz

Indeksy warunków są tutaj krótko opisane jako „pierwiastek kwadratowy maksymalnej wartości własnej podzielony przez minimalną wartość własną”. W CV znajduje się sporo postów, które omawiają je i ich zalety. Najważniejsze teksty na ich temat to dwie książki Davida Belsleya: Diagnostyka warunkowania i Diagnostyka regresji (która ma także nowe wydanie, 2005 r.).

Peter Flom
źródło
1
+1 - dobra odpowiedź, ale czy możesz rozwinąć pod warunkiem indeksu? Muszę jeszcze znaleźć zadowalający sposób radzenia sobie z kolinearnością w kandydujących zmiennych objaśniających.
BGreene
Dziękuję za pouczającą odpowiedź. Czy mógłbyś wyjaśnić, jakie inne relacje komplikuje nieliniowość między expl. zmienne? A czy teraz mówicie o tym, że autorzy mówią, że nieliniowe związki między expl. zmienne mogą powodować problemy z interpretacją współczynników i wykresów diagnostycznych?
RicardoC
Nie mogę teraz podać przykładu, ale widziałem, jak to się dzieje. Może się wydawać, że istnieją nieliniowe relacje między Y i X
Peter Flom
3

Relacje liniowe między każdą zmienną objaśniającą a zmienną zależną zapewnią również relacje liniowe między zmiennymi objaśniającymi. Odwrotna sytuacja nie jest oczywiście prawdą.

Prawdą jest, że transformacja (transformacje) zaprojektowane w celu uzyskania przybliżonej liniowości zwiększy kolinearność. Jednak przy braku takich transformacji kolinearność jest ukryta. Naleganie, by ukryć współliniowość w ten sposób, może skutkować skomplikowanym i niemożliwym do interpretacji równaniem regresji, w którym dostępna jest prosta forma równania.

Załóżmy, że yjest to funkcja liniowa log(x1)w przypadku, gdy xzakresy przekraczają wartości, które różnią się 10-krotnie lub więcej. Następnie, jeśli xzostanie użyty jako regresor, inne zmienne objaśniające zostaną w ogóle wykorzystane, aby uwzględnić nieliniowość w relacji z x1. Rezultatem może być bardzo skomplikowana relacja regresji z niezrozumiałymi współczynnikami, zamiast prostej formy równania regresji, która przechwytuje całą dostępną moc wyjaśniającą.

Dziwne konsekwencje, które mogą wynikać z niemożności znalezienia i pracy z liniowo powiązanymi zmiennymi, są dobrze zilustrowane w najnowszym artykule, w którym twierdzono, że efekt huraganu nazwano kobiecością w danych dotyczących zgonów z 94 huraganów atlantyckich, które miały miejsce w USA w latach 1950-2012. Zobacz http://www.pnas.org/content/111/24/8782.abstract . Dane są dostępne jako część informacji uzupełniających. Należy zauważyć, że praca z log(deaths)modelem liniowym teorii normaL (funkcja R lm()) i korzystanie z niego jest w przybliżeniu równoznaczne z zastosowaniem przez Junga i wsp. Modelu ujemnej regresji dwumianowej.

Jeśli jeden ustępuje log(E[deaths])on log(NDAM), nie ma nic do zmiennej minimalne ciśnienie, zmiennej kobiecości i oddziaływań, aby wyjaśnić. Zmienna log(NDAM)nie NDAMpojawia się w macierzy wykresu rozrzutu jako liniowo powiązana ze zmienną minimalnego ciśnienia. Jego rozkład jest również znacznie mniej przekrzywiony, znacznie bliższy symetryczności.

Jung i wsp. Cofnęli log(E[deaths])się NDAM(uszkodzenie znormalizowane) oraz te inne zmienne i interakcje. Powstałe równanie posłużyło do opowiedzenia historii, w której kobiecość imienia ma duży wpływ.

Aby zobaczyć, jak dziwne jest używanie NDAMjako zmiennej objaśniającej w regresji, w której zmienną wynikową jest log(E[deaths]), wykreśl log(deaths+0.5)lub log(deaths+1)przeciw NDAM. Następnie powtórz wykres z log(NDAM)zamiast NDAM. Kontrast jest jeszcze bardziej uderzający, jeśli Katrina i Audrey, które Jung i in. Pominęli jako wartości odstające, zostaną uwzględnione w fabule. Nalegając na użycie NDAMjako zmiennej wyjaśniającej log(NDAM), Jung i wsp. Stracili okazję do znalezienia bardzo prostej formy relacji regresji.

NB E[deaths]jest to liczba zgonów przewidywanych przez model.

W danych Junga i wsp. Potrzebne transformacje można zidentyfikować na podstawie macierzy rozrzutu wszystkich zmiennych. Spróbuj być może funkcji R spm()w najnowszej wersji pakietu samochodowego dla R, z transform=TRUEi ( deathsjako zmienną) family="yjPower". Lub eksperymentuj z transformacjami sugerowanymi przez początkową macierz rozrzutu. Ogólnie rzecz biorąc, preferowaną wskazówką może być poszukiwanie zmiennych objaśniających, które spełniają wymagania predyktorów liniowych, a następnie uwzględnienie zmiennej wynikowej, być może przy użyciu funkcji samochodu invTranPlot().

Zobacz, oprócz „Analizy danych i grafiki przy użyciu R”, do których pytający odwoływał się:

  • Weisberg: stosowana regresja liniowa. 4th edn, Wiley 2014, s. 185-203.
  • Fox i Weisberg: towarzysz R dla regresji stosowanej. 2nd edn, Sage, 2011, s. 127–148.
John Maindonald
źródło
1

Uważam, że cały fragment jest raczej tajemniczy, jeśli nie wręcz wątpliwy. Idealnie byłoby, gdyby zmienne niezależne były możliwie jak najbardziej nieskorelowane, aby zapewnić modelowi przyrostowe i dodatkowe informacje w szacowaniu zmiennej zależnej. Podnosisz kwestię wielokoliniowości poprzez wysokie korelacje między zmiennymi niezależnymi i masz całkowitą rację, podnosząc tę ​​kwestię w takich okolicznościach.

Bardziej krytyczne jest zbadanie wykresu punktowego i powiązanej liniowej zależności między każdą zmienną niezależną i zmienną zależną, ale nie między zmiennymi niezależnymi. Patrząc na takie wykresy rozrzutu (niezależne od osi X i zależne od osi Y) w tym czasie mogą istnieć możliwości transformacji zmiennej niezależnej, aby zaobserwować lepsze dopasowanie, czy to poprzez log, wykładnik, czy formę wielomianową.

Sympa
źródło
1
Na drugim zdaniu: Gdyby zmienne niezależne były całkowicie nieskorelowane, wówczas większość uzasadnienia regresji stałaby się dyskusyjna. Każda dwuwymiarowa relacja predyktora z Y byłaby taka sama jak relacja, gdy wszystkie inne predyktory były kontrolowane. W takim razie po co kontrolować?
rolando2