W moim rozumieniu wysoce skorelowane zmienne nie spowodują problemów z wieloma kolinearnością w losowym modelu lasu (proszę mnie poprawić, jeśli się mylę). Jednak z drugiej strony, jeśli mam zbyt wiele zmiennych zawierających podobne informacje, czy model będzie ważył za dużo na tym zestawie, a nie na innych?
Na przykład istnieją dwa zestawy informacji (A, B) o tej samej mocy predykcyjnej. Zmienna , , ... wszystkie zawierają informacje A, a tylko Y zawiera informacje B. W przypadku losowych zmiennych próbkowania większość drzew wyrośnie na podstawie informacji A, w wyniku czego informacja B nie zostanie w pełni uchwycona ?
multicollinearity
że NIE ma wpływu na losowy model lasu. Na przykład tutaj najbardziej pozytywna odpowiedź mówi, że „żadna część losowego modelu lasu nie jest uszkodzona przez wysoce współliniowe zmienne”. Czy to ma jakąkolwiek ważność?Stary wątek, ale nie zgadzam się z ogólnym stwierdzeniem, że kolinearność nie stanowi problemu z przypadkowymi modelami lasu. Gdy zestaw danych ma dwie (lub więcej) skorelowane cechy, wówczas z punktu widzenia modelu dowolna z tych skorelowanych cech może być użyta jako predyktor, bez konkretnej preferencji jednej spośród pozostałych.
Jednak po użyciu jednego z nich znaczenie innych jest znacznie zmniejszone, ponieważ skutecznie zanieczyszczenie, które można usunąć, jest już usuwane przez pierwszą funkcję.
W konsekwencji będą miały niższe zgłaszane znaczenie. Nie jest to problemem, gdy chcemy użyć wyboru funkcji w celu ograniczenia nadmiernego dopasowania, ponieważ sensowne jest usunięcie funkcji, które są w większości powielone przez inne funkcje, ale podczas interpretacji danych może to prowadzić do błędnego wniosku, że jedna ze zmiennych jest silny predyktor, podczas gdy inni w tej samej grupie są nieistotni, podczas gdy w rzeczywistości są bardzo blisko pod względem związku ze zmienną odpowiedzi.
Efekt tego zjawiska jest nieco zmniejszony dzięki losowemu wyborowi funkcji przy tworzeniu każdego węzła, ale ogólnie efekt nie jest całkowicie usuwany.
Powyżej przeważnie pochodzi z tego miejsca: Wybieranie dobrych funkcji
źródło