Dlaczego wielokoliniowość nie jest sprawdzana we współczesnych statystykach / uczeniu maszynowym

44

W tradycyjnej statystyce, budując model, sprawdzamy wielokoliniowość za pomocą metod takich jak szacunki współczynnika inflacji wariancji (VIF), ale w uczeniu maszynowym zamiast tego używamy regularyzacji do wyboru funkcji i nie wydaje się, aby sprawdzać, czy cechy są skorelowane w ogóle. Dlaczego to robimy?

użytkownik
źródło

Odpowiedzi:

51

Uwzględnienie wielokoliniowości jest ważne w analizie regresji, ponieważ w skrajności bezpośrednio dowodzi , czy Twoje współczynniki są jednoznacznie identyfikowane w danych. W mniej poważnych przypadkach nadal może to popsuć szacunki współczynników; niewielkie zmiany danych wykorzystywanych do oszacowania mogą powodować dzikie wahania szacowanych współczynników. Mogą to być problematyczne z punktu widzenia wnioskowania: jeśli dwie zmienne są silnie skorelowane, wzrosty w jednej mogą zostać zrównoważone przez spadki w drugiej, więc połączony efekt ma się wzajemnie zanegować. Przy więcej niż dwóch zmiennych efekt może być jeszcze bardziej subtelny, ale jeśli prognozy są stabilne, często wystarcza to w aplikacjach uczenia maszynowego.

Zastanów się, dlaczego regulujemy w kontekście regresji: musimy ograniczyć model, aby nie był zbyt elastyczny. Zastosowanie prawidłowej ilości regularyzacji nieznacznie zwiększy błąd systematyczny w celu większego zmniejszenia wariancji. Klasycznym przykładem tego jest dodanie do regresji terminów wielomianowych i efektów interakcji: W przypadku zdegenerowanym równanie prognostyczne interpoluje punkty danych, ale prawdopodobnie będzie straszne przy próbie przewidzenia wartości niewidzialnych punktów danych. Zmniejszenie tych współczynników prawdopodobnie zminimalizuje lub całkowicie wyeliminuje niektóre z tych współczynników i poprawi uogólnienie.

Jednak losowy las może mieć parametr regularyzacji poprzez liczbę zmiennych próbkowanych przy każdym podziale: im lepsze podziały, tym większe mtry(im więcej funkcji do wyboru; niektóre z nich są lepsze niż inne), ale to także sprawia, że ​​każde drzewo jest bardziej skorelowane ze sobą, nieco łagodząc efekt dywersyfikacji szacowania wielu drzew w pierwszej kolejności. Ten dylemat zmusza do znalezienia właściwej równowagi, zwykle osiągniętej za pomocą walidacji krzyżowej. Co ważne, w przeciwieństwie do analizy regresji, żadna część losowego modelu lasu nie jest niszczona przez wysoce współliniowe zmienne: nawet jeśli dwie zmienne zapewniają tę samą czystość węzła potomnego, możesz wybrać jedną bez pogorszenia jakości wyniku.

Podobnie, dla czegoś takiego jak SVM, możesz dołączyć więcej predyktorów niż funkcji, ponieważ sztuczka jądra pozwala działać wyłącznie na wewnętrznym produkcie tych wektorów cech. Posiadanie większej liczby funkcji niż obserwacji byłoby problemem w regresjach, ale sztuczka jądra oznacza, że ​​szacujemy tylko współczynnik dla każdego przykładu, podczas gdy parametr regularyzacji zmniejsza elastyczność rozwiązania - co jest zdecydowanie dobrą rzeczą, ponieważ szacowanie parametrów dlaCNNobserwacje w nieograniczony sposób zawsze będą tworzyć idealny model na danych testowych - a my zataczamy koło, wracając do scenariusza regresji grzbietu / LASSO / elastycznej siatki, w którym mamy ograniczoną elastyczność modelu jako sprawdzian w stosunku do zbyt optymistycznego modelu. Przegląd warunków KKT dla problemu SVM pokazuje, że rozwiązanie SVM jest unikalne, więc nie musimy się martwić problemami identyfikacyjnymi, które pojawiły się w przypadku regresji.

Na koniec rozważ faktyczny wpływ wielokoliniowości. Nie zmienia mocy predykcyjnej modelu (przynajmniej na danych treningowych), ale nie zgadza się z naszymi oszacowaniami współczynników. W większości aplikacji ML nie dbamy o same współczynniki, po prostu utratę naszych prognoz modelu, więc w tym sensie sprawdzenie VIF nie odpowiada na kolejne pytanie. (Ale jeśli niewielka zmiana danych spowoduje ogromną fluktuację współczynników [klasyczny objaw wielokoliniowości], może to również zmienić przewidywania, w którym to przypadku nam zależy - ale wszystko to [mamy nadzieję!] Charakteryzuje się, gdy przeprowadzić walidację krzyżową, która i tak jest częścią procesu modelowania.) Regresję łatwiej interpretować, ale interpretacja może nie być najważniejszym celem niektórych zadań.

Przywróć Monikę
źródło
1
W przypadku modelowania regresji przyczynowej przy użyciu technik takich jak ocena skłonności lub korekta regresji kolinearność może stanowić problem nawet przy prognozowaniu, ponieważ zazwyczaj celem jest dopasowanie modelu wyłącznie do grupy kontrolnej / nienaświetlonej, a następnie oszacowanie wyników za pomocą tego modelu na podstawie eksperymentu grupa, albo połącz dwie grupy, ale użyj zmiennej wskaźnikowej, aby zmierzyć wpływ, kontrolując inne czynniki, bycia w grupie eksperymentalnej.
ely
1
Jeśli kolinearność powoduje błędy we współczynnikach, regresja rozszerzona do grupy eksperymentalnej nie będzie działać. Podobnie oszacowanie współczynnika dla zmiennej wskaźnikowej poddanego leczeniu można odrzucić, wykonując pojedynczą regresję dla obu podprób. Współczesne techniki uczenia maszynowego zwykle nie są wykorzystywane do analizy tego rodzaju problemów przyczynowych, dlatego nikt nie musiał stawić czoła potrzebie narzędzi, aby to uwzględnić.
ely
@ely, w twoim pierwszym przykładzie, kolinearność (między zmiennymi towarzyszącymi, a nie leczenie) nie powoduje problemu, ponieważ ponownie celem jest przewidywanie wyników alternatywnych, a kolinearność nie stanowi problemu z prognozowaniem. Ponadto do wnioskowania przyczynowego często stosuje się nowoczesne metody ML; uogólnione ulepszone modelowanie i losowe lasy są szeroko stosowane do szacowania wyników skłonności, a TMLE wykorzystuje metody ML do przypisywania wyników alternatywnych. Twierdziłbym, że siłą metod przyczynowych jest to, że kolinearność zwykle nie stanowi dla nich problemu.
Noah
@Nieah Zwykle liczy się interpretacja współczynnika ekspozycji (i interpretacja również innych oszacowań efektu), a nie wyłącznie surowa dokładność prognoz. Zdaję sobie sprawę, że mój komentarz nie wyjaśnił tego, ale to jest problem. Jeśli ogólne przewidywanie jest dobre, ale nie wynika z faktycznego powiązania ze współczynnikiem oszacowanym dla narażenia, jest to zwykle niepożądany model wnioskowania przyczynowego.
ely
21

Powodem jest to, że cele „tradycyjnych statystyk” różnią się od wielu technik uczenia maszynowego.

Przez „tradycyjne statystyki” zakładam, że masz na myśli regresję i jej warianty. W regresji staramy się zrozumieć wpływ zmiennych niezależnych na zmienną zależną. Jeśli występuje silna wielokoliniowość, jest to po prostu niemożliwe. Żaden algorytm tego nie naprawi. Jeśli skrupulatność jest skorelowana z frekwencją i ocenami, nie możemy wiedzieć, co tak naprawdę powoduje, że oceny rosną - frekwencja lub uważność.

Jednak w technikach uczenia maszynowego, które koncentrują się na dokładności predykcyjnej, zależy nam tylko na tym, jak możemy użyć zestawu zmiennych do przewidywania innego zestawu. Nie obchodzi nas wpływ, jaki te zmienne wywierają na siebie.

Zasadniczo fakt, że nie sprawdzamy wielokoliniowości w technikach uczenia maszynowego, nie jest konsekwencją algorytmu, jest konsekwencją celu. Można to zobaczyć przez zauważyć, że silne kolinearność między zmiennymi nie boli predykcyjnego dokładności metod regresji.

TrynnaDoStat
źródło
11

Wydaje się, że istnieje tutaj podstawowe założenie, że sprawdzanie kolinearności jest rozsądną, a nawet najlepszą praktyką. To wydaje się wadliwe. Na przykład sprawdzenie idealnej kolinearności w zbiorze danych z wieloma predyktorami ujawni, czy dwie zmienne są w rzeczywistości tym samym, np. Data urodzenia i wiek (przykład wzięty z Dormann i wsp. (2013), Ecography , 36 , 1, s. 27–46) ). Czasami też widziałem problem idealnie skorelowanych predyktorów, który pojawiał się w konkursach Kaggle, gdzie konkurenci na forum próbują wyeliminować potencjalne predyktory, które zostały zanonimizowane (tj. Etykieta predyktora jest ukryta, częsty problem w konkursach Kaggle i podobnych do Kaggle).

Nadal istnieje także aktywność uczenia maszynowego wybierania predyktorów - identyfikacja wysoce skorelowanych predyktorów może pozwolić pracownikowi znaleźć predyktory, które są proxy dla innej podstawowej (ukrytej) zmiennej i ostatecznie znaleźć jedną zmienną, która najlepiej odpowiada reprezentacji zmiennej utajonej lub alternatywnie sugerują zmienne, które można łączyć (np. przez PCA).

Dlatego sugerowałbym, że chociaż metody uczenia maszynowego zwykle (lub przynajmniej często) były zaprojektowane tak, aby były solidne w obliczu skorelowanych predyktorów, zrozumienie stopnia, w jakim są one skorelowane, jest często przydatnym krokiem w tworzeniu solidnego i dokładnego modelu , i jest użyteczną pomocą w uzyskaniu zoptymalizowanego modelu.

Robert de Graaf
źródło
9

Głównym problemem związanym z wielokoliniowością jest to, że miesza ona współczynniki (beta) zmiennych niezależnych. Dlatego jest to poważny problem podczas badania związków między zmiennymi, ustalania przyczynowości itp.

Jeśli jednak nie jesteś zainteresowany tak dużym zrozumieniem tego zjawiska, ale koncentrujesz się wyłącznie na prognozowaniu i prognozowaniu, to wielokoliniowość jest mniejszym problemem. A przynajmniej tak myślą o tym ludzie.

Nie mówię tu o idealnej wielokoliniowości , która jest problemem technicznym lub identyfikacyjnym. Technicznie oznacza to po prostu, że macierz projektowa prowadzi do osobliwości, a rozwiązanie nie jest zdefiniowane.

Aksakal
źródło
4
Nawet przy idealnej kolinearności prognozy są dobrze określone.
whuber
@ whuber, jeśli użyjesz OLS, pakiet statystyk prawdopodobnie wyrzuci błąd, ponieważ nie będzie w stanie odwrócić macierzy. Sprytni mogą porzucić jeden z niezależnych varów i przejść dalej.
Aksakal,
2
Jeśli użyjesz uogólnionej odwrotności, ta osobliwość nie stanowi problemu.
Analityk
1
Nie podążam za twoją logiką, Aksakal: czy próbujesz zasugerować, że techniki uczenia maszynowego różnią się od technik statystycznych tym, że te pierwsze w jakiś sposób nie mają problemów z matrycami o zmniejszonej rangi? To ciekawy pomysł do odkrycia.
whuber
1
@ użytkownik, zmienna niezależna jest prawie zawsze skorelowana i zwykle jest OK. Tylko doskonała wielokoliniowość powoduje niedobór rang. Wielokoliniowość odnosi się do bardzo silnych korelacji i generalnie nie jest pożądana, ale jak napisałem wcześniej, jest to łagodny problem w wielu przypadkach.
Aksakal,
7

Regularyzacja w uczeniu maszynowym stabilizuje współczynniki regresji, więc przynajmniej oswoił się efekt wielokoliniowości. Ale co ważniejsze, jeśli zamierzasz przewidywać (którzy często uczą się maszyn), to „problem” z wielokoliniowości nie był tak duży. Jest to problem, gdy trzeba oszacować konkretny współczynnik i nie masz informacji.

Również moja odpowiedź na „ Kiedy LASSO wybiera skorelowane predyktory ” może być dla ciebie pomocna.

Ben Ogorek
źródło
1

Myślę, że wielokoliniowość powinna być sprawdzana w uczeniu maszynowym. Oto dlaczego: Załóżmy, że masz dwie wysoce skorelowane cechy X i Y w naszym zbiorze danych. Oznacza to, że płaszczyzna odpowiedzi nie jest wiarygodna (niewielka zmiana danych może mieć drastyczny wpływ na orientację płaszczyzny odpowiedzi). Co oznacza, że ​​prognozy modelu dla punktów danych dalekood linii, w której X i Y zwykle spadają, nie są niezawodne. Jeśli użyjesz modelu do przewidywania takich punktów, przewidywania prawdopodobnie będą bardzo złe. Innymi słowy, gdy masz dwie wysoce skorelowane cechy, jako model, uczysz się płaszczyzny, w której dane w większości wypadają w linii. Dlatego ważne jest, aby usunąć wysoce skorelowane funkcje z danych, aby zapobiec niewiarygodnym modelom i błędnym prognozom.

Sanyo Mn
źródło