Czy losowy las regresji jest „prawdziwą” regresją?

18

Do regresji wykorzystywane są losowe lasy. Jednak z tego, co rozumiem, przypisują średnią wartość docelową na każdym liściu. Ponieważ w każdym drzewie jest tylko ograniczona liczba liści, istnieją tylko określone wartości, które cel może uzyskać z naszego modelu regresji. Czy zatem nie jest to regresja „dyskretna” (jak funkcja krokowa), a nie regresja liniowa, która jest „ciągła”?

Czy rozumiem to poprawnie? Jeśli tak, jaką korzyść oferuje losowy las w regresji?

regression random-forest cart użytkownik110565
źródło

2

Powiązane: Drzewa decyzyjne i regresja - Czy przewidywane wartości mogą znajdować się poza zakresem danych szkoleniowych?

S. Kolassa - Przywróć Monikę

23

To prawda - losowe lasy dyskrecjonują zmienne ciągłe, ponieważ są oparte na drzewach decyzyjnych, które działają poprzez rekurencyjne partycjonowanie binarne. Ale przy wystarczających danych i wystarczających podziałach funkcja krokowa z wieloma małymi krokami może w przybliżeniu działać płynnie. To nie musi być problem. Jeśli naprawdę chcesz uchwycić płynną odpowiedź za pomocą pojedynczego predyktora, obliczasz częściowy wpływ dowolnej konkretnej zmiennej i dopasowujesz do niej gładką funkcję (nie wpływa to na sam model, który zachowa ten charakter krokowy).

Losowe lasy oferują kilka zalet w stosunku do standardowych technik regresji dla niektórych aplikacji. Wspomnieć tylko trzy:

Pozwalają na użycie dowolnie wielu predyktorów (możliwe jest więcej predyktorów niż punktów danych)
Mogą aproksymować złożone kształty nieliniowe bez specyfikacji apriorycznej
Mogą uchwycić złożone interakcje między prognozami bez specyfikacji a priori .

Jeśli chodzi o to, czy jest to „prawdziwa” regresja, jest to nieco semantyczne. W końcu regresja cząstkowa jest również regresją, ale również nie jest gładka. Jak każda regresja z predyktorem jakościowym, jak wskazano w komentarzach poniżej.

mkt - Przywróć Monikę
źródło

7

Ponadto regresja z tylko kategorycznymi cechami również nie byłaby płynna.

Tim

3

Czy regresja z choćby jedną kategoryczną cechą może być płynna?

Dave

4

Jest dyskretny, ale wówczas każdy wynik w postaci liczby zmiennoprzecinkowej ze stałą liczbą bitów będzie dyskretny. Jeśli drzewo ma 100 liści, może dać 100 różnych liczb. Jeśli masz 100 różnych drzew, z których każde ma po 100 liści, teoretycznie Twój losowy las może mieć 100 ^ 100 różnych wartości, co daje 200 (dziesiętnych) cyfr precyzji lub ~ 600 bitów. Oczywiście będzie się nakładać, więc tak naprawdę nie zobaczysz 100 ^ 100 różnych wartości. Dystrybucja staje się bardziej dyskretna, im bardziej dochodzisz do skrajności; każde drzewo będzie miało jakiś minimalny liść (liść, który daje wynik, który jest mniejszy lub równy wszystkim pozostałym liściom), a kiedy zdobędziesz minimalny liść z każdego drzewa, nie możesz obniżyć go. Będzie więc minimalna ogólna wartość dla lasu, a kiedy odejdziesz od tej wartości, zaczniesz od wszystkich drzew z wyjątkiem kilku, które mają minimalny liść, robiąc małe odchylenia od minimalnej wartości wzrostu w skokach dyskretnych. Jednak obniżona niezawodność w skrajnościach jest właściwością regresji w ogóle, a nie tylko przypadkowych lasów.

Akumulacja
źródło

Liście mogą przechowywać dowolną wartość z danych treningowych (więc przy odpowiednich danych treningowych 100 drzew na 100 liści może przechowywać do 10 000 różnych wartości). Ale zwrócona wartość jest średnią wybranego liścia z każdego drzewa. Tak więc liczba bitów precyzji tej wartości jest taka sama, niezależnie od tego, czy masz 2 drzewa, czy 100 drzew.

Darren Cook

3

Odpowiedź będzie zależeć od twojej definicji regresji, zobacz Definicja i delimitacja modelu regresji . Ale zwykłą definicją (lub częścią definicji) jest to, że regresja modeluje warunkowe oczekiwanie . A drzewo regresji można rzeczywiście postrzegać jako estymator warunkowych oczekiwań.

W węzłach liści przewidujesz średnią z obserwacji próbki osiągających ten liść, a średnia arytmetyczna jest estymatorem oczekiwań. Wzór rozgałęzienia w drzewie reprezentuje warunkowanie.

kjetil b halvorsen
źródło

Czy losowy las regresji jest „prawdziwą” regresją?

Odpowiedzi: