Powiedzmy, że mamy problem z klasyfikacją binarną z cechami głównie kategorycznymi. Do nauki tego używamy jakiegoś modelu nieliniowego (np. XGBoost lub Losowe lasy).
- Czy należy nadal martwić się wielokulturowością? Dlaczego?
- Jeśli odpowiedź na powyższe pytanie jest prawdziwa, jak należy z tym walczyć, biorąc pod uwagę, że używa się tego rodzaju modeli nieliniowych?
Późno na imprezę, ale i tak oto moja odpowiedź, i brzmi „Tak”, zawsze należy się martwić o kolinearność, niezależnie od tego, czy model / metoda jest liniowa czy nie, czy głównym zadaniem jest przewidywanie lub klasyfikacja.
Załóżmy, że jako metodę stosuje się szereg współzależnych liniowo współzmiennych / cech obecnych w zbiorze danych i Losowym lesie. Oczywiście losowa selekcja na węzeł może wybierać tylko (lub głównie) cechy współliniowe, co może / będzie skutkować słabym podziałem, i może się to powtarzać, co negatywnie wpłynie na wydajność.
Teraz cechy współliniowe mogą być mniej pouczające o wyniku niż inne (nieliniowe) cechy i jako takie należy je rozważyć w celu wyeliminowania z zestawu cech. Załóżmy jednak, że funkcje znajdują się wysoko na liście „ważności funkcji” opracowanej przez RF. Jako takie byłyby przechowywane w zbiorze danych, niepotrzebnie zwiększając wymiar. Tak więc w praktyce zawsze jako krok eksploracyjny (spośród wielu powiązanych) sprawdzam parowanie powiązania cech, w tym korelację liniową.
źródło
Jeśli model nieliniowy jest modelem opartym na drzewach, nie powinieneś uważać go za poważny. Inny model drzewa będzie miał inną metodę postępowania, na przykład losowy las zachowa je oba (ponieważ budują drzewo niezależnie i losowo wybierają funkcję dla każdego drzewa), ale nie ma to wpływu na wydajność prognozowania, nawet jeśli usuniesz zbędny. Ale dla xgboost wybierze każdego z nich i użyje go do ostatniej kompilacji drzewa.
Chodzi tylko o znaczenie interpretacji, dlatego sugeruje się usunięcie zmiennej o wysokiej korelacji.
źródło
Wielokolinearność jest zawsze możliwym problemem. Zmienne będące predyktorami w modelu wpłyną na przewidywanie, gdy są liniowo powiązane (tj. Gdy występuje kolinearność).
źródło