Czytałem w kilku źródłach, w tym w tym , że Lasy Losowe nie są wrażliwe na wartości odstające (na przykład tak, jak regresja logistyczna i inne metody ML).
Jednak dwie intuicje mówią mi inaczej:
Ilekroć budowane jest drzewo decyzyjne, wszystkie punkty muszą być klasyfikowane. Oznacza to, że nawet wartości odstające zostaną sklasyfikowane, a zatem wpłyną na drzewa decyzyjne, w których zostały wybrane podczas wzmocnienia.
Bootstrapping jest częścią tego, jak RandomForest robi podpróbkowanie. Bootstrapping jest podatny na wartości odstające.
Czy istnieje sposób na pogodzenie mojej intuicji dotyczącej jej wrażliwości na wartości odstające, ze źródłami, które się nie zgadzają?
random-forest
bootstrap
outliers
cart
Hunle
źródło
źródło
min_samples_leaf_node
tak1
, to może być podatne na wartości odstające.Odpowiedzi:
Twoja intuicja jest prawidłowa. Ta odpowiedź jedynie ilustruje to na przykładzie.
Rzeczywiście powszechne jest błędne przekonanie, że CART / RF są w pewnym stopniu odporne na wartości odstające.
Aby zilustrować brak odporności RF na obecność pojedynczych wartości odstających, możemy (lekko) zmodyfikować kod użyty w powyższej odpowiedzi Sorena Havelunda Wellinga, aby pokazać, że pojedyncze wartości „y” są wystarczające, aby całkowicie przechylić dopasowany model RF. Na przykład, jeśli obliczymy średni błąd prognozowania niezanieczyszczonych obserwacji jako funkcję odległości między wartością odstającą a resztą danych, możemy zobaczyć (zdjęcie poniżej), że wprowadzenie pojedynczej wartości odstającej (poprzez zastąpienie jednej z oryginalnych obserwacji przez dowolną wartość w przestrzeni „y”) wystarczy wyciągnąć przewidywania modelu RF arbitralnie daleko od wartości, które mieliby, gdyby były obliczone na oryginalnych (niezanieczyszczonych) danych:
Jak daleko? W powyższym przykładzie pojedyncza wartość odstała tak bardzo zmieniła dopasowanie, że średni błąd prognozowania (na niezanieczyszczonych) obserwacjach jest teraz o 1–2 rzędy wielkości większy niż byłby, gdyby model został dopasowany na niezanieczyszczonych danych.
Nie jest więc prawdą, że pojedyncza wartość odstająca nie może wpływać na dopasowanie RF.
Ponadto, jak wskazują, gdzie indziej , odstających są dużo trudniejsze do czynienia, gdy istnieją potencjalnie kilka z nich (choć nie musi być duża część danych na ich skutki, aby pokazać się). Oczywiście, zanieczyszczone dane mogą zawierać więcej niż jedną wartość odstającą; aby zmierzyć wpływ kilku wartości odstających na dopasowanie RF, porównaj wykres po lewej uzyskany z RF na niezanieczyszczonych danych z wykresem po prawej uzyskanym przez dowolne przesunięcie 5% wartości odpowiedzi (kod znajduje się poniżej odpowiedzi) .
Na koniec, w kontekście regresji, należy zauważyć, że wartości odstające mogą wyróżniać się z dużej ilości danych zarówno w przestrzeni projektowej, jak i odpowiedzi (1). W specyficznym kontekście RF, wartości odstające od projektu wpłyną na oszacowanie hiperparametrów. Jednak ten drugi efekt jest bardziej widoczny, gdy liczba wymiarów jest duża.
To, co obserwujemy tutaj, jest szczególnym przypadkiem bardziej ogólnego wyniku. Niezwykła wrażliwość na wartości odstające wielowymiarowych metod dopasowania danych opartych na wypukłych funkcjach utraty została wielokrotnie odkryta. Zobacz (2) ilustrację w specyficznym kontekście metod ML.
Edytować.
źródło
p
is
w formule?wartość odstająca 1a: ta wartość odstająca ma jedną lub więcej skrajnych wartości cech i jest umieszczona z dala od jakiejkolwiek innej próbki. Wartość odstająca wpłynie na początkowe podziały drzew jak każda inna próbka, więc nie ma silnego wpływu. Będzie miał niewielką odległość od jakiejkolwiek innej próbki i zdefiniuje strukturę modelu tylko w odległej części przestrzeni cech. Podczas przewidywania większość nowych próbek prawdopodobnie nie będzie podobna do tej wartości odstającej i rzadko kończy się w tym samym węźle końcowym. Ponadto drzewa decyzyjne traktują cechy tak, jakby były porządkowe (ranking). Wartość jest mniejsza / równa lub większa niż punkt przerwania, dlatego nie ma znaczenia, czy wartość cechy jest skrajną wartością odstającą.
wartość odstająca 1b: Do celów klasyfikacji jedna pojedyncza próbka może być uznana za wartość odstającą, jeżeli jest osadzona pośrodku wielu próbek innej klasy. Opisałem wcześniej, w jaki sposób na domyślny model RF wpłynie ta jedna próbka nieparzystej klasy, ale tylko bardzo blisko próbki.
wartość odstająca 2: ta wartość odstająca ma ekstremalną wartość docelową, być może wielokrotnie wyższą niż jakiekolwiek inne wartości, ale wartości funkcji są normalne. Frakcja 0,631 drzew będzie miała węzeł końcowy z tą próbką. Struktura modelu zostanie zmieniona lokalnie blisko wartości odstającej. Zauważ, że wpływ na strukturę modelu ma głównie równoległość do osi elementu, ponieważ węzły są dzielone jednorodnie.
EDYCJA: komentarz do użytkownika603
Tak w przypadku skrajnych wartości odstających na skali docelowej, należy rozważyć przekształcenie skali docelowej przed uruchomieniem RF. Dodałem poniżej funkcję robustModel (), która poprawia randomForest. Innym rozwiązaniem byłoby zalogowanie transformacji przed treningiem.
źródło
y[1]=200
, zobaczysz, że pojedynczo powoduje błąd prognozy na niezanieczyszczonych obserwacjach skokowy o współczynnik 20!Sam algorytm losowego lasu nie jest odporny na wartości odstające, ale bazowy uczeń, na którym się opiera: drzewo decyzyjne . Drzewa decyzyjne izolują nietypowe obserwacje na małe liście (tj. Małe podprzestrzenie pierwotnej przestrzeni). Ponadto drzewa decyzyjne są modelami lokalnymi . W przeciwieństwie do regresji liniowej, w której to samo równanie obowiązuje dla całej przestrzeni, bardzo prosty model jest dopasowywany lokalnie do każdej podprzestrzeni (tj. Do każdego liścia).
Dlatego na przykład w przypadku regresji wartości ekstremalne nie wpływają na cały model, ponieważ są one uśredniane lokalnie. Nie ma to wpływu na dopasowanie do innych wartości.
W rzeczywistości ta pożądana właściwość przenosi się na inne struktury drzewiaste, takie jak dendogramy. Hierarchiczne grupowanie, na przykład, od dawna wykorzystywane jest do czyszczenia danych, ponieważ automatycznie izoluje nieprawidłowe obserwacje na małe klastry. Patrz na przykład Loureiro i in. (2004). Wykrywanie wartości odstających przy użyciu metod grupowania: aplikacja do czyszczenia danych .
Krótko mówiąc, RF dziedziczy swoją niewrażliwość na wartości odstające od partycjonowania rekurencyjnego i dopasowywania modelu lokalnego .
Zauważ, że drzewa decyzyjne są modelami o niskim odchyleniu, ale o dużej wariancji: ich struktura jest podatna na zmiany po niewielkiej modyfikacji zestawu treningowego (usunięcie lub dodanie kilku obserwacji). Ale nie należy tego mylić z wrażliwością na wartości odstające, to inna sprawa.
źródło
labeled
lubunlabeled
dane? I w jaki sposób można osiągnąć takie grupowanie w przypadku danych heterogenicznych, które zawierają zarówno cechy jakościowe, jak i liczbowe?