Czy należy martwić się o wiele kolinearność przy stosowaniu modeli nieliniowych?

13

Powiedzmy, że mamy problem z klasyfikacją binarną z cechami głównie kategorycznymi. Do nauki tego używamy jakiegoś modelu nieliniowego (np. XGBoost lub Losowe lasy).

  • Czy należy nadal martwić się wielokulturowością? Dlaczego?
  • Jeśli odpowiedź na powyższe pytanie jest prawdziwa, jak należy z tym walczyć, biorąc pod uwagę, że używa się tego rodzaju modeli nieliniowych?
Josh
źródło

Odpowiedzi:

7

Wielokolinearność nie będzie stanowić problemu dla niektórych modeli. Takich jak losowy las lub drzewo decyzyjne. Na przykład, jeśli mamy dwie identyczne kolumny, drzewo decyzyjne / losowy las automatycznie „upuści” jedną kolumnę przy każdym podziale. Model nadal będzie działał dobrze.

Ponadto regularyzacja jest sposobem na „naprawienie” problemu wielokolinearności. Moja odpowiedź Metody regularyzacji regresji logistycznej dają szczegóły.

Haitao Du
źródło
5
Myślę, że poprawiłoby się to, gdybyś dokładnie opracował, na czym polega problem „rozwiązany” przez regularyzację.
Matthew Drury
2

Późno na imprezę, ale i tak oto moja odpowiedź, i brzmi „Tak”, zawsze należy się martwić o kolinearność, niezależnie od tego, czy model / metoda jest liniowa czy nie, czy głównym zadaniem jest przewidywanie lub klasyfikacja.

Załóżmy, że jako metodę stosuje się szereg współzależnych liniowo współzmiennych / cech obecnych w zbiorze danych i Losowym lesie. Oczywiście losowa selekcja na węzeł może wybierać tylko (lub głównie) cechy współliniowe, co może / będzie skutkować słabym podziałem, i może się to powtarzać, co negatywnie wpłynie na wydajność.

Teraz cechy współliniowe mogą być mniej pouczające o wyniku niż inne (nieliniowe) cechy i jako takie należy je rozważyć w celu wyeliminowania z zestawu cech. Załóżmy jednak, że funkcje znajdują się wysoko na liście „ważności funkcji” opracowanej przez RF. Jako takie byłyby przechowywane w zbiorze danych, niepotrzebnie zwiększając wymiar. Tak więc w praktyce zawsze jako krok eksploracyjny (spośród wielu powiązanych) sprawdzam parowanie powiązania cech, w tym korelację liniową.

dnqxt
źródło
Sądzę, że zdarzają się przypadki, w których multininearinearity można bezpiecznie zignorować, niektóre przypadki są omówione tutaj: statichorizons.com/multicollinearity
Dr Nisha Arora,
0
  1. Czy należy nadal martwić się wielokulturowością? Dlaczego?

Jeśli model nieliniowy jest modelem opartym na drzewach, nie powinieneś uważać go za poważny. Inny model drzewa będzie miał inną metodę postępowania, na przykład losowy las zachowa je oba (ponieważ budują drzewo niezależnie i losowo wybierają funkcję dla każdego drzewa), ale nie ma to wpływu na wydajność prognozowania, nawet jeśli usuniesz zbędny. Ale dla xgboost wybierze każdego z nich i użyje go do ostatniej kompilacji drzewa.

  1. Jeśli odpowiedź na powyższe pytanie jest prawdziwa, jak należy z tym walczyć, biorąc pod uwagę, że używa się tego rodzaju modeli nieliniowych?

Chodzi tylko o znaczenie interpretacji, dlatego sugeruje się usunięcie zmiennej o wysokiej korelacji.

wolfe
źródło
-3

Wielokolinearność jest zawsze możliwym problemem. Zmienne będące predyktorami w modelu wpłyną na przewidywanie, gdy są liniowo powiązane (tj. Gdy występuje kolinearność).

Michael R. Chernick
źródło
1
Dzięki, jeśli (1) nacisk kładziony jest na wydajność prognozowania (a nie na interpretację) i (2) model jest nieliniowy, czy mógłbyś wyjaśnić, dlaczego nadal może to stanowić problem? (i jak dokładnie to się przejawi?)
Josh
Te zmienne, które są predyktorami w modelu, wpłyną na przewidywanie, gdy są liniowo powiązane (tj. Występuje kolinearność).
Michael R. Chernick,
1
Jak dokładnie wpływać na prognozę? BTW, stats.stackexchange.com/a/138082/99274 , umieść kilka linków w swojej odpowiedzi lub staw czoła gniewowi tłumu „byłem tam, zrobiłem to”.
Carl
7
Ponieważ klasyfikacja jest tak ściśle związana z prognozowaniem, a predykcja nie cierpi z powodu wielokoliniowości, ważne jest, aby poprzeć swoje twierdzenie, że zawsze jest to „możliwy problem”, szczególnie w przypadku konkretnych modeli wymienionych w pytaniu. Jaki to byłby problem z klasyfikacją i dlaczego?
whuber
12
Jestem prawie pewien, że pytasz. Whuber zapytał, dlaczego przewidywanie cierpi z powodu wielokoliniowości, a w zasadzie odpowiedziałeś: „Przewidywanie cierpi z powodu wielokoliniowości, ponieważ przewidywanie cierpi z powodu wielokoliniowości”.
Matthew Drury