Do regresji wykorzystywane są losowe lasy. Jednak z tego, co rozumiem, przypisują średnią wartość docelową na każdym liściu. Ponieważ w każdym drzewie jest tylko ograniczona liczba liści, istnieją tylko określone wartości, które cel może uzyskać z naszego modelu regresji. Czy zatem nie jest to regresja „dyskretna” (jak funkcja krokowa), a nie regresja liniowa, która jest „ciągła”?
Czy rozumiem to poprawnie? Jeśli tak, jaką korzyść oferuje losowy las w regresji?
regression
random-forest
cart
użytkownik110565
źródło
źródło
Odpowiedzi:
To prawda - losowe lasy dyskrecjonują zmienne ciągłe, ponieważ są oparte na drzewach decyzyjnych, które działają poprzez rekurencyjne partycjonowanie binarne. Ale przy wystarczających danych i wystarczających podziałach funkcja krokowa z wieloma małymi krokami może w przybliżeniu działać płynnie. To nie musi być problem. Jeśli naprawdę chcesz uchwycić płynną odpowiedź za pomocą pojedynczego predyktora, obliczasz częściowy wpływ dowolnej konkretnej zmiennej i dopasowujesz do niej gładką funkcję (nie wpływa to na sam model, który zachowa ten charakter krokowy).
Losowe lasy oferują kilka zalet w stosunku do standardowych technik regresji dla niektórych aplikacji. Wspomnieć tylko trzy:
Jeśli chodzi o to, czy jest to „prawdziwa” regresja, jest to nieco semantyczne. W końcu regresja cząstkowa jest również regresją, ale również nie jest gładka. Jak każda regresja z predyktorem jakościowym, jak wskazano w komentarzach poniżej.
źródło
Jest dyskretny, ale wówczas każdy wynik w postaci liczby zmiennoprzecinkowej ze stałą liczbą bitów będzie dyskretny. Jeśli drzewo ma 100 liści, może dać 100 różnych liczb. Jeśli masz 100 różnych drzew, z których każde ma po 100 liści, teoretycznie Twój losowy las może mieć 100 ^ 100 różnych wartości, co daje 200 (dziesiętnych) cyfr precyzji lub ~ 600 bitów. Oczywiście będzie się nakładać, więc tak naprawdę nie zobaczysz 100 ^ 100 różnych wartości. Dystrybucja staje się bardziej dyskretna, im bardziej dochodzisz do skrajności; każde drzewo będzie miało jakiś minimalny liść (liść, który daje wynik, który jest mniejszy lub równy wszystkim pozostałym liściom), a kiedy zdobędziesz minimalny liść z każdego drzewa, nie możesz obniżyć go. Będzie więc minimalna ogólna wartość dla lasu, a kiedy odejdziesz od tej wartości, zaczniesz od wszystkich drzew z wyjątkiem kilku, które mają minimalny liść, robiąc małe odchylenia od minimalnej wartości wzrostu w skokach dyskretnych. Jednak obniżona niezawodność w skrajnościach jest właściwością regresji w ogóle, a nie tylko przypadkowych lasów.
źródło
Odpowiedź będzie zależeć od twojej definicji regresji, zobacz Definicja i delimitacja modelu regresji . Ale zwykłą definicją (lub częścią definicji) jest to, że regresja modeluje warunkowe oczekiwanie . A drzewo regresji można rzeczywiście postrzegać jako estymator warunkowych oczekiwań.
W węzłach liści przewidujesz średnią z obserwacji próbki osiągających ten liść, a średnia arytmetyczna jest estymatorem oczekiwań. Wzór rozgałęzienia w drzewie reprezentuje warunkowanie.
źródło