Radzenie sobie ze skorelowanymi regresorami

23

Jaka jest najlepsza strategia w wielokrotnej regresji liniowej z wysoce skorelowanymi regresorami? Czy uzasadnione jest dodanie produktu wszystkich skorelowanych regresorów?

Ηλίας
źródło
1
Przykro mi, ale odpowiedź @ Suncoolsu została usunięta. To i następne komentarze wyjaśniły różnicę między wielokoliniowością a złym uwarunkowaniem. Ponadto w komentarzu Suncoolsu wskazał, w jaki sposób wstępna standaryzacja może pomóc w regresji wielomianowej. Jeśli to się powtórzy, zagłosuję ;-).
whuber
@ :Λίας: Produkt może być niestabilny w wielu aplikacjach. Może być nękany wieloma zerami, jeśli poszczególne regresory mają niektóre zera; jego wartość bezwzględna prawdopodobnie będzie wykazywać silne przekrzywienie pozytywne, co spowoduje powstanie niektórych punktów o wysokiej dźwigni; może wzmocnić dane zewnętrzne, zwłaszcza równoczesne wartości odstające, dodatkowo zwiększając ich wpływ. Może być również trudna do interpretacji, szczególnie jeśli regresory już są wyrażeniami pierwotnych zmiennych (takich jak logi lub root).
whuber

Odpowiedzi:

13

Główne elementy mają wiele sensu ... matematycznie. Byłbym jednak ostrożny przy użyciu matematyki w tym przypadku i mam nadzieję, że nie będę musiał myśleć o swoim problemie.

Poleciłbym trochę zastanowić się, jaki rodzaj predyktorów mam, czym jest zmienna niezależna, dlaczego moje predyktory są skorelowane, czy niektóre z moich predyktorów faktycznie mierzą tę samą rzeczywistość (jeśli tak, to czy mogę po prostu pracować z pojedynczy pomiar i który z moich predyktorów byłby do tego najlepszy), po co robię analizę - jeśli nie jestem zainteresowany wnioskowaniem, tylko prognozowaniem, to mógłbym pozostawić rzeczy takimi, jakie są, tak długo, jak przyszłość wartości predykcyjne są podobne do poprzednich.

S. Kolassa - Przywróć Monikę
źródło
4
Całkowicie uzgodniony, +1. Ale scharakteryzowanie PCA jako „sztuczki matematycznej” niesprawiedliwie ją dyskredytuje, IMHO. Jeśli zgodzisz się (nie jestem tego pewien), że sumowanie lub uśrednianie grup regresorów, jak sugeruje Srikant, byłoby akceptowalne, to PCA powinno być równie akceptowalne i zwykle poprawia dopasowanie. Co więcej, główne komponenty mogą zapewnić wgląd w to, które grupy predyktorów są skorelowane i jak są one skorelowane: jest to doskonałe narzędzie do myślenia, które propagujesz.
whuber
2
@ whuber, rozumiem i zgadzam się z twoim punktem widzenia i nie chcę dyskredytować PCA, więc zdecydowanie +1. Chciałem tylko zaznaczyć, że ślepe używanie PCA bez patrzenia i zastanawiania się nad zasadniczym problemem (którego nikt tu nie popiera) pozostawiłoby mi złe przeczucia ...
S. Kolassa - Przywrócenie Moniki
11

Do rozwiązania tego problemu można użyć głównych komponentów lub regresji grzbietu. Z drugiej strony, jeśli masz dwie zmienne, które są wystarczająco silnie skorelowane, aby powodować problemy z oszacowaniem parametrów, to prawie na pewno możesz upuścić jedną z tych dwóch, nie tracąc dużo pod względem prognozowania - ponieważ dwie zmienne niosą te same informacje . Oczywiście działa to tylko wtedy, gdy problem wynika z dwóch wysoce skorelowanych niezależnych elementów. Jeśli problem dotyczy więcej niż dwóch zmiennych, które razem są prawie współliniowe (dowolne dwie z nich mogą mieć tylko umiarkowane korelacje), prawdopodobnie będziesz potrzebować jednej z pozostałych metod.

Brett
źródło
2
(+1) Problem polega na tym, że PO nie wskazało, ile zmiennych wchodzi do modelu, ponieważ w przypadku ich dużej liczby, lepiej może być zarówno kurczenie się, jak i wybór zmiennych, np. Poprzez kryterium elastycznej siatki (która jest kombinacją kar Lasso i Ridge).
chl
3

Oto kolejna myśl zainspirowana myślą Stephana odpowiedź :

Jeśli niektóre z twoich skorelowanych regresorów są istotnie powiązane (np. Są to różne miary inteligencji, tj. Słowne, matematyczne itp.), Możesz utworzyć pojedynczą zmienną, która mierzy tę samą zmienną, stosując jedną z następujących technik:

  • Zsumuj regresory (odpowiednie, jeśli regresory są składnikami całości, np. Słowne IQ + matematyczne IQ = ogólne IQ)

  • Średnia regresorów (odpowiednia, jeśli regresory mierzą tę samą konstrukcję podstawową, np. Rozmiar lewego buta, rozmiar prawego buta do pomiaru długości stóp)

  • Analiza czynnikowa (w celu uwzględnienia błędów w pomiarach i wyodrębnienia czynnika ukrytego)

Następnie możesz usunąć wszystkie skorelowane regresory i zastąpić je jedną zmienną, która wynika z powyższej analizy.

Społeczność
źródło
1
Ma to sens, jeśli wszystkie regresory są mierzone w tej samej skali. W psychologii różne podskale są często mierzone w różnych skalach (i nadal są skorelowane), więc odpowiednia byłaby suma ważona lub średnia (która jest tutaj naprawdę taka sama). I oczywiście można uznać PCA za zapewnianie właśnie tego rodzaju ważenia poprzez obliczanie osi maksymalnej wariancji.
S. Kolassa - Przywróć Monikę
2

Już miałem powiedzieć to samo, co Stephan Kolassa powyżej (więc poprawiłem jego odpowiedź). Dodam tylko, że czasami wielokoliniowość może wynikać z użycia rozległych zmiennych, które są wysoce skorelowane z pewną miarą wielkości, a rzeczy można poprawić, stosując zmienne intensywne, tj. Dzieląc wszystko przez pewną miarę wielkości. Np. Jeśli twoje jednostki to kraje, możesz podzielić według populacji, obszaru lub PNB, w zależności od kontekstu.

Och - i aby odpowiedzieć na drugą część pierwotnego pytania: nie mogę wymyślić żadnej sytuacji, gdy dodanie produktu wszystkich skorelowanych regresorów byłoby dobrym pomysłem. Jak by to pomogło? Co by to znaczyło

jeden przystanek
źródło
Moim pierwotnym pomysłem było dodanie, biorąc pod uwagę wzajemną interakcję regresorów
ίλίας
Często dobrym pomysłem jest wzięcie pod uwagę interakcji parami. Ale nie wszyscy: musisz pomyśleć, co ma sens!
kjetil b halvorsen
1

Nie jestem ekspertem w tej dziedzinie, ale najpierw pomyślałem o przeprowadzeniu analizy głównych składników zmiennych predyktorów, a następnie wykorzystaniu uzyskanych głównych składników do przewidzenia zmiennej zależnej.

Mike Lawrence
źródło
kk
p
@chl Dobra uwaga. Ale ponieważ głównymi składnikami są kombinacje liniowe, łatwo jest (choć czasem trochę uciążliwie) skomponować dopasowany model regresji (= jedna transformacja liniowa) z rzutem na komponenty (= kolejna transformacja liniowa) w celu uzyskania interpretowalnego modelu liniowego obejmujący wszystkie oryginalne zmienne. Jest to nieco podobne do technik ortogonalizacji. Należy również zauważyć, że najnowsze propozycje Srikant (sumowanie lub uśrednianie regresorów) zasadniczo przybliżają główny wektor własny, ale powodują podobne trudności wyjaśniające.
whuber
@ whuber Tak, zgadzam się z obydwoma punktami. Szeroko stosowałem regresję PLS i CCA, więc w tym przypadku mamy do czynienia z kombinacjami liniowymi po obu stronach (st. Maks. Kowariancja lub kryteria korelacji); przy dużej liczbie predyktorów interpretacja wektorów kanonicznych jest bolesna, więc przyglądamy się tylko najbardziej przyczyniającym się zmiennym. Teraz mogę sobie wyobrazić, że nie ma tak wielu predyktorów, aby wszystkie twoje argumenty (@Stephan, @Mike) miały sens.
chl
-1

X

xijstandardized=xijx.j¯sjot

To nie jest lekarstwo, ale zdecydowanie krok we właściwym kierunku.

suncoolsu
źródło
8
Transformacje liniowe (takie jak te) nigdy nie zmieniają współczynników korelacji. Celem normalizacji jest poprawa kondycjonowania normalnej matrycy.
whuber
1
Standaryzacja zmiennych nie wpłynie na korelacje między zmiennymi niezależnymi i nie „zmniejszy efektu korelacji” w żaden sposób, jaki mogę wymyślić w odniesieniu do tego problemu.
Brett
2
@Brett, typowym przykładem, w którym normalizacja pomaga, jest regresja wielomianowa . Zawsze zaleca się standaryzację regresorów. Standaryzacja nie zmienia macierzy korelacji, ale sprawia, że ​​macierz var cov (która jest teraz macierzą korelacji) dobrze się zachowuje (nazywana warunkowaniem przez @whuber, wskazując na numer stanu macierzy, IMHO).
suncoolsu
Zgoda. Centrowanie jest przydatne przy wprowadzaniu warunków wyższego rzędu, takich jak warunki wielomianowe lub warunki interakcji. Wydaje się, że tak nie jest i nie pomoże w rozwiązaniu problemu skorelowanych predyktorów.
Brett
Usunąłem go, ponieważ nie chciałem mylić ludzi z błędną odpowiedzią. Prawdopodobnie moderatorzy poruszyli to ponownie.
suncoolsu