Czytałem rozdział dotyczący regresji wielokrotnej analizy danych i grafiki przy użyciu R: podejście oparte na przykładach i byłem nieco zdezorientowany, gdy dowiedziałem się, że zaleca sprawdzanie liniowych zależności między zmiennymi objaśniającymi (za pomocą wykresu rozrzutu), a jeśli nie ma t dowolny, przekształcając je tak, oni mają stać się bardziej liniowo zależne. Oto kilka fragmentów tego:
6.3 Strategia dopasowania modeli regresji wielokrotnej
(...)
Sprawdź macierz wykresu rozrzutu obejmującą wszystkie zmienne objaśniające. (Uwzględnienie zmiennej zależnej jest w tym momencie opcjonalne. ) Najpierw poszukaj dowodów nieliniowości na wykresach zmiennych objaśniających względem siebie.
(...)
Ten punkt identyfikuje strategię wyszukiwania modeli - szukaj modeli, w których relacje regresji między zmiennymi objaśniającymi mają „prostą” formę liniową . Tak więc, jeśli niektóre wykresy parami wykazują dowody nieliniowości, rozważ zastosowanie transformacji, aby uzyskać bardziej zbliżone relacje liniowe . Chociaż niekoniecznie może okazać się możliwe, zgodnie z tą strategią, odpowiednie modelowanie relacji regresji, jest to dobra strategia, z podanych poniżej powodów, do naśladowania przy rozpoczynaniu wyszukiwania.
(...)
Jeśli relacje między zmiennymi objaśniającymi są w przybliżeniu liniowe, być może po transformacji, możliwe jest z pewnością interpretowanie wykresów zmiennych predykcyjnych względem zmiennej odpowiedzi z pewnością.
(...)
Znalezienie transformacji jednej lub więcej zmiennych objaśniających, które zapewnią, że relacje (parami) pokazane na panelach będą liniowe, może być niemożliwe. Może to stwarzać problemy zarówno dla interpretacji wykresów diagnostycznych dla dowolnego dopasowanego równania regresji, jak i dla interpretacji współczynników w dopasowanym równaniu. Patrz Cook i Weisberg (1999).
Czy nie powinienem martwić się liniowymi zależnościami między zmiennymi zależnymi (z powodu ryzyka wielokoliniowości) zamiast aktywnie je śledzić? Jakie są zalety posiadania w przybliżeniu liniowo powiązanych zmiennych?
Autorzy zajmują się kwestią wielokoliniowości w dalszej części rozdziału, ale zalecenia te wydają się być w sprzeczności z unikaniem wielokoliniowości.
źródło
Relacje liniowe między każdą zmienną objaśniającą a zmienną zależną zapewnią również relacje liniowe między zmiennymi objaśniającymi. Odwrotna sytuacja nie jest oczywiście prawdą.
Prawdą jest, że transformacja (transformacje) zaprojektowane w celu uzyskania przybliżonej liniowości zwiększy kolinearność. Jednak przy braku takich transformacji kolinearność jest ukryta. Naleganie, by ukryć współliniowość w ten sposób, może skutkować skomplikowanym i niemożliwym do interpretacji równaniem regresji, w którym dostępna jest prosta forma równania.
Załóżmy, że
y
jest to funkcja liniowalog(x1)
w przypadku, gdyx
zakresy przekraczają wartości, które różnią się 10-krotnie lub więcej. Następnie, jeślix
zostanie użyty jako regresor, inne zmienne objaśniające zostaną w ogóle wykorzystane, aby uwzględnić nieliniowość w relacji z x1. Rezultatem może być bardzo skomplikowana relacja regresji z niezrozumiałymi współczynnikami, zamiast prostej formy równania regresji, która przechwytuje całą dostępną moc wyjaśniającą.Dziwne konsekwencje, które mogą wynikać z niemożności znalezienia i pracy z liniowo powiązanymi zmiennymi, są dobrze zilustrowane w najnowszym artykule, w którym twierdzono, że efekt huraganu nazwano kobiecością w danych dotyczących zgonów z 94 huraganów atlantyckich, które miały miejsce w USA w latach 1950-2012. Zobacz http://www.pnas.org/content/111/24/8782.abstract . Dane są dostępne jako część informacji uzupełniających. Należy zauważyć, że praca z
log(deaths)
modelem liniowym teorii normaL (funkcja Rlm()
) i korzystanie z niego jest w przybliżeniu równoznaczne z zastosowaniem przez Junga i wsp. Modelu ujemnej regresji dwumianowej.Jeśli jeden ustępuje
log(E[deaths])
onlog(NDAM)
, nie ma nic do zmiennej minimalne ciśnienie, zmiennej kobiecości i oddziaływań, aby wyjaśnić. Zmiennalog(NDAM)
nieNDAM
pojawia się w macierzy wykresu rozrzutu jako liniowo powiązana ze zmienną minimalnego ciśnienia. Jego rozkład jest również znacznie mniej przekrzywiony, znacznie bliższy symetryczności.Jung i wsp. Cofnęli
log(E[deaths])
sięNDAM
(uszkodzenie znormalizowane) oraz te inne zmienne i interakcje. Powstałe równanie posłużyło do opowiedzenia historii, w której kobiecość imienia ma duży wpływ.Aby zobaczyć, jak dziwne jest używanie
NDAM
jako zmiennej objaśniającej w regresji, w której zmienną wynikową jestlog(E[deaths])
, wykreśllog(deaths+0.5)
lublog(deaths+1)
przeciwNDAM
. Następnie powtórz wykres zlog(NDAM)
zamiastNDAM
. Kontrast jest jeszcze bardziej uderzający, jeśli Katrina i Audrey, które Jung i in. Pominęli jako wartości odstające, zostaną uwzględnione w fabule. Nalegając na użycieNDAM
jako zmiennej wyjaśniającejlog(NDAM)
, Jung i wsp. Stracili okazję do znalezienia bardzo prostej formy relacji regresji.NB
E[deaths]
jest to liczba zgonów przewidywanych przez model.W danych Junga i wsp. Potrzebne transformacje można zidentyfikować na podstawie macierzy rozrzutu wszystkich zmiennych. Spróbuj być może funkcji R
spm()
w najnowszej wersji pakietu samochodowego dla R, ztransform=TRUE
i (deaths
jako zmienną)family="yjPower"
. Lub eksperymentuj z transformacjami sugerowanymi przez początkową macierz rozrzutu. Ogólnie rzecz biorąc, preferowaną wskazówką może być poszukiwanie zmiennych objaśniających, które spełniają wymagania predyktorów liniowych, a następnie uwzględnienie zmiennej wynikowej, być może przy użyciu funkcji samochoduinvTranPlot()
.Zobacz, oprócz „Analizy danych i grafiki przy użyciu R”, do których pytający odwoływał się:
źródło
Uważam, że cały fragment jest raczej tajemniczy, jeśli nie wręcz wątpliwy. Idealnie byłoby, gdyby zmienne niezależne były możliwie jak najbardziej nieskorelowane, aby zapewnić modelowi przyrostowe i dodatkowe informacje w szacowaniu zmiennej zależnej. Podnosisz kwestię wielokoliniowości poprzez wysokie korelacje między zmiennymi niezależnymi i masz całkowitą rację, podnosząc tę kwestię w takich okolicznościach.
Bardziej krytyczne jest zbadanie wykresu punktowego i powiązanej liniowej zależności między każdą zmienną niezależną i zmienną zależną, ale nie między zmiennymi niezależnymi. Patrząc na takie wykresy rozrzutu (niezależne od osi X i zależne od osi Y) w tym czasie mogą istnieć możliwości transformacji zmiennej niezależnej, aby zaobserwować lepsze dopasowanie, czy to poprzez log, wykładnik, czy formę wielomianową.
źródło