Uwzględnienie wielokoliniowości jest ważne w analizie regresji, ponieważ w skrajności bezpośrednio dowodzi , czy Twoje współczynniki są jednoznacznie identyfikowane w danych. W mniej poważnych przypadkach nadal może to popsuć szacunki współczynników; niewielkie zmiany danych wykorzystywanych do oszacowania mogą powodować dzikie wahania szacowanych współczynników. Mogą to być problematyczne z punktu widzenia wnioskowania: jeśli dwie zmienne są silnie skorelowane, wzrosty w jednej mogą zostać zrównoważone przez spadki w drugiej, więc połączony efekt ma się wzajemnie zanegować. Przy więcej niż dwóch zmiennych efekt może być jeszcze bardziej subtelny, ale jeśli prognozy są stabilne, często wystarcza to w aplikacjach uczenia maszynowego.
Zastanów się, dlaczego regulujemy w kontekście regresji: musimy ograniczyć model, aby nie był zbyt elastyczny. Zastosowanie prawidłowej ilości regularyzacji nieznacznie zwiększy błąd systematyczny w celu większego zmniejszenia wariancji. Klasycznym przykładem tego jest dodanie do regresji terminów wielomianowych i efektów interakcji: W przypadku zdegenerowanym równanie prognostyczne interpoluje punkty danych, ale prawdopodobnie będzie straszne przy próbie przewidzenia wartości niewidzialnych punktów danych. Zmniejszenie tych współczynników prawdopodobnie zminimalizuje lub całkowicie wyeliminuje niektóre z tych współczynników i poprawi uogólnienie.
Jednak losowy las może mieć parametr regularyzacji poprzez liczbę zmiennych próbkowanych przy każdym podziale: im lepsze podziały, tym większe mtry
(im więcej funkcji do wyboru; niektóre z nich są lepsze niż inne), ale to także sprawia, że każde drzewo jest bardziej skorelowane ze sobą, nieco łagodząc efekt dywersyfikacji szacowania wielu drzew w pierwszej kolejności. Ten dylemat zmusza do znalezienia właściwej równowagi, zwykle osiągniętej za pomocą walidacji krzyżowej. Co ważne, w przeciwieństwie do analizy regresji, żadna część losowego modelu lasu nie jest niszczona przez wysoce współliniowe zmienne: nawet jeśli dwie zmienne zapewniają tę samą czystość węzła potomnego, możesz wybrać jedną bez pogorszenia jakości wyniku.
Podobnie, dla czegoś takiego jak SVM, możesz dołączyć więcej predyktorów niż funkcji, ponieważ sztuczka jądra pozwala działać wyłącznie na wewnętrznym produkcie tych wektorów cech. Posiadanie większej liczby funkcji niż obserwacji byłoby problemem w regresjach, ale sztuczka jądra oznacza, że szacujemy tylko współczynnik dla każdego przykładu, podczas gdy parametr regularyzacji zmniejsza elastyczność rozwiązania - co jest zdecydowanie dobrą rzeczą, ponieważ szacowanie parametrów dlaCNNobserwacje w nieograniczony sposób zawsze będą tworzyć idealny model na danych testowych - a my zataczamy koło, wracając do scenariusza regresji grzbietu / LASSO / elastycznej siatki, w którym mamy ograniczoną elastyczność modelu jako sprawdzian w stosunku do zbyt optymistycznego modelu. Przegląd warunków KKT dla problemu SVM pokazuje, że rozwiązanie SVM jest unikalne, więc nie musimy się martwić problemami identyfikacyjnymi, które pojawiły się w przypadku regresji.
Na koniec rozważ faktyczny wpływ wielokoliniowości. Nie zmienia mocy predykcyjnej modelu (przynajmniej na danych treningowych), ale nie zgadza się z naszymi oszacowaniami współczynników. W większości aplikacji ML nie dbamy o same współczynniki, po prostu utratę naszych prognoz modelu, więc w tym sensie sprawdzenie VIF nie odpowiada na kolejne pytanie. (Ale jeśli niewielka zmiana danych spowoduje ogromną fluktuację współczynników [klasyczny objaw wielokoliniowości], może to również zmienić przewidywania, w którym to przypadku nam zależy - ale wszystko to [mamy nadzieję!] Charakteryzuje się, gdy przeprowadzić walidację krzyżową, która i tak jest częścią procesu modelowania.) Regresję łatwiej interpretować, ale interpretacja może nie być najważniejszym celem niektórych zadań.
Powodem jest to, że cele „tradycyjnych statystyk” różnią się od wielu technik uczenia maszynowego.
Przez „tradycyjne statystyki” zakładam, że masz na myśli regresję i jej warianty. W regresji staramy się zrozumieć wpływ zmiennych niezależnych na zmienną zależną. Jeśli występuje silna wielokoliniowość, jest to po prostu niemożliwe. Żaden algorytm tego nie naprawi. Jeśli skrupulatność jest skorelowana z frekwencją i ocenami, nie możemy wiedzieć, co tak naprawdę powoduje, że oceny rosną - frekwencja lub uważność.
Jednak w technikach uczenia maszynowego, które koncentrują się na dokładności predykcyjnej, zależy nam tylko na tym, jak możemy użyć zestawu zmiennych do przewidywania innego zestawu. Nie obchodzi nas wpływ, jaki te zmienne wywierają na siebie.
Zasadniczo fakt, że nie sprawdzamy wielokoliniowości w technikach uczenia maszynowego, nie jest konsekwencją algorytmu, jest konsekwencją celu. Można to zobaczyć przez zauważyć, że silne kolinearność między zmiennymi nie boli predykcyjnego dokładności metod regresji.
źródło
Wydaje się, że istnieje tutaj podstawowe założenie, że sprawdzanie kolinearności jest rozsądną, a nawet najlepszą praktyką. To wydaje się wadliwe. Na przykład sprawdzenie idealnej kolinearności w zbiorze danych z wieloma predyktorami ujawni, czy dwie zmienne są w rzeczywistości tym samym, np. Data urodzenia i wiek (przykład wzięty z Dormann i wsp. (2013), Ecography , 36 , 1, s. 27–46) ). Czasami też widziałem problem idealnie skorelowanych predyktorów, który pojawiał się w konkursach Kaggle, gdzie konkurenci na forum próbują wyeliminować potencjalne predyktory, które zostały zanonimizowane (tj. Etykieta predyktora jest ukryta, częsty problem w konkursach Kaggle i podobnych do Kaggle).
Nadal istnieje także aktywność uczenia maszynowego wybierania predyktorów - identyfikacja wysoce skorelowanych predyktorów może pozwolić pracownikowi znaleźć predyktory, które są proxy dla innej podstawowej (ukrytej) zmiennej i ostatecznie znaleźć jedną zmienną, która najlepiej odpowiada reprezentacji zmiennej utajonej lub alternatywnie sugerują zmienne, które można łączyć (np. przez PCA).
Dlatego sugerowałbym, że chociaż metody uczenia maszynowego zwykle (lub przynajmniej często) były zaprojektowane tak, aby były solidne w obliczu skorelowanych predyktorów, zrozumienie stopnia, w jakim są one skorelowane, jest często przydatnym krokiem w tworzeniu solidnego i dokładnego modelu , i jest użyteczną pomocą w uzyskaniu zoptymalizowanego modelu.
źródło
Głównym problemem związanym z wielokoliniowością jest to, że miesza ona współczynniki (beta) zmiennych niezależnych. Dlatego jest to poważny problem podczas badania związków między zmiennymi, ustalania przyczynowości itp.
Jeśli jednak nie jesteś zainteresowany tak dużym zrozumieniem tego zjawiska, ale koncentrujesz się wyłącznie na prognozowaniu i prognozowaniu, to wielokoliniowość jest mniejszym problemem. A przynajmniej tak myślą o tym ludzie.
Nie mówię tu o idealnej wielokoliniowości , która jest problemem technicznym lub identyfikacyjnym. Technicznie oznacza to po prostu, że macierz projektowa prowadzi do osobliwości, a rozwiązanie nie jest zdefiniowane.
źródło
Regularyzacja w uczeniu maszynowym stabilizuje współczynniki regresji, więc przynajmniej oswoił się efekt wielokoliniowości. Ale co ważniejsze, jeśli zamierzasz przewidywać (którzy często uczą się maszyn), to „problem” z wielokoliniowości nie był tak duży. Jest to problem, gdy trzeba oszacować konkretny współczynnik i nie masz informacji.
Również moja odpowiedź na „ Kiedy LASSO wybiera skorelowane predyktory ” może być dla ciebie pomocna.
źródło
Myślę, że wielokoliniowość powinna być sprawdzana w uczeniu maszynowym. Oto dlaczego: Załóżmy, że masz dwie wysoce skorelowane cechy X i Y w naszym zbiorze danych. Oznacza to, że płaszczyzna odpowiedzi nie jest wiarygodna (niewielka zmiana danych może mieć drastyczny wpływ na orientację płaszczyzny odpowiedzi). Co oznacza, że prognozy modelu dla punktów danych dalekood linii, w której X i Y zwykle spadają, nie są niezawodne. Jeśli użyjesz modelu do przewidywania takich punktów, przewidywania prawdopodobnie będą bardzo złe. Innymi słowy, gdy masz dwie wysoce skorelowane cechy, jako model, uczysz się płaszczyzny, w której dane w większości wypadają w linii. Dlatego ważne jest, aby usunąć wysoce skorelowane funkcje z danych, aby zapobiec niewiarygodnym modelom i błędnym prognozom.
źródło