Losowe założenia lasu

43

Jestem trochę nowym przypadkowym lasem, więc wciąż mam problemy z podstawowymi pojęciami.
W regresji liniowej zakładamy niezależne obserwacje, stałą wariancję…

  • Jakie są podstawowe założenia / hipotezy, kiedy korzystamy z losowego lasu?
  • Jakie są kluczowe różnice między losowymi lasami a naiwnymi laskami pod względem założeń modelowych?
użytkownik1848018
źródło

Odpowiedzi:

33

Dzięki za bardzo dobre pytanie! Spróbuję za tym oprzeć swoją intuicję.

Aby to zrozumieć, pamiętaj o „składnikach” losowego klasyfikatora leśnego (są pewne modyfikacje, ale jest to ogólny potok):

  1. Na każdym etapie budowania pojedynczego drzewa znajdujemy najlepszy podział danych
  2. Podczas budowania drzewa nie używamy całego zestawu danych, ale próbkę ładowania początkowego
  3. Poszczególne dane wyjściowe drzewa agregujemy przez uśrednienie (w rzeczywistości 2 i 3 oznaczają razem bardziej ogólną procedurę pakowania ).

Załóżmy pierwszy punkt. Nie zawsze jest możliwe znalezienie najlepszego podziału. Na przykład w poniższym zestawie danych każdy podział da dokładnie jeden błędnie sklasyfikowany obiekt. Przykład zestawu danych bez najlepszego podziału

I myślę, że dokładnie ten punkt może być mylący: w rzeczywistości zachowanie pojedynczego podziału jest w pewien sposób podobne do zachowania klasyfikatora Naive Bayes: jeśli zmienne są zależne - nie ma lepszego podziału dla drzew decyzyjnych, a klasyfikator Naive Bayes również zawodzi (tylko dla przypomnienia: zmienne niezależne są głównym założeniem, które przyjmujemy w klasyfikatorze Naive Bayes; wszystkie inne założenia pochodzą z wybranego przez nas modelu probabilistycznego).

Ale tu pojawia się wielką zaletą drzew decyzyjnych: bierzemy żadnego rozłamu i kontynuować dalszy podział. A dla kolejnych podziałów znajdziemy idealną separację (na czerwono). Przykład granicy decyzji

A ponieważ nie mamy modelu probabilistycznego, a jedynie podział binarny, nie musimy wcale przyjmować żadnych założeń.

Chodziło o Drzewo decyzyjne, ale dotyczy to także Losowego Lasu. Różnica polega na tym, że w Random Forest używamy Agregacji Bootstrap. Nie ma pod nim żadnego modelu, a jedynym założeniem, na którym się opiera, jest to, że próbkowanie jest reprezentatywne . Ale zwykle jest to powszechne założenie. Na przykład, jeśli jedna klasa składa się z dwóch składników, a w naszym zestawie danych jeden składnik jest reprezentowany przez 100 próbek, a inny składnik jest reprezentowany przez 1 próbkę - prawdopodobnie większość pojedynczych drzew decyzyjnych zobaczy tylko pierwszy składnik, a Losowy Las błędnie sklasyfikuje drugi . Przykład słabo reprezentowanego drugiego komponentu

Mam nadzieję, że da to trochę więcej zrozumienia.

Dmitrij Łaptiew
źródło
10

W jednym artykule z 2010 r. Autorzy udokumentowali, że losowe modele leśne nierzetelnie oszacowały znaczenie zmiennych, gdy zmienne były wielokoliniowe w wielowymiarowej przestrzeni statystycznej. Zazwyczaj sprawdzam to przed uruchomieniem losowych modeli lasu.

http://www.esajournals.org/doi/abs/10.1890/08-0879.1

Mina
źródło
3
Czy wierzysz w konkluzje „Określanie połączeń Bufo Boreas w Parku Narodowym Yellowstone z genetyką krajobrazu” w Ekologii autorstwa autorów z Colorado State zamiast autorów Berkeley w Machine Learning na temat algorytmów uczenia maszynowego?
Hack-R
8
Nie sądzę, że są ze sobą w sprzeczności. Breiman nie zbadał tego „specjalnego przypadku” wielokolonowości w przestrzeni wielowymiarowej. Poza tym ludzie ze stanu Kolorado też potrafią być sprytni - i tacy są.
Mina,