Losowy las jest zbiorem drzew decyzyjnych tworzonych przez losowo wybierając tylko niektóre funkcje, aby zbudować każde drzewo z (a czasem pakowania danych treningowych). Najwyraźniej dobrze się uczą i generalizują. Czy ktoś zrobił MCMC próbkowanie przestrzeni drzewa decyzyjnego lub porównał je z losowymi lasami? Wiem, że uruchomienie MCMC i zapisanie wszystkich próbkowanych drzew może być droższe obliczeniowo, ale interesują mnie teoretyczne cechy tego modelu, a nie koszty obliczeniowe. Mam na myśli coś takiego:
- Skonstruuj losowe drzewo decyzyjne (prawdopodobnie działałoby okropnie)
- Oblicz prawdopodobieństwo drzewa za pomocą czegoś takiego jak , lub może dodaj termin .P p r i o r ( T r e e )
- Wybierz losowy krok, aby zmienić drzewo i wybierz na podstawie prawdopodobieństwa .
- Co N kroków, zapisz kopię bieżącego drzewa
- Wróć do 3 dla niektórych dużych N * M razy
- Skorzystaj z kolekcji M zapisanych drzew, aby dokonać prognoz
Czy to dałoby wyniki podobne do losowych lasów? Pamiętaj, że tutaj nie wyrzucamy dobrych danych ani funkcji na żadnym etapie, w przeciwieństwie do losowych lasów.
mcmc
monte-carlo
random-forest
cart
wysoka przepustowość
źródło
źródło
Odpowiedzi:
Zrobili to około 13 lat temu Chapman, George i McCulloch (1998, JASA) . Oczywiście istnieje ogromna literatura na temat drzew regresji bayesowskiej, które wyrosły z tego pomysłu.
źródło
Niestety Chipman i in. w ich bayesowskim podejściu CART wyodrębnia tylko najbardziej prawdopodobne drzewo. Nigdy nie próbowali uśredniać liczby drzew i porównywać wydajności do losowego lasu i dodatkowych drzew.
Właśnie przeczytałem artykuł BART od Chipmana. Jeśli dobrze rozumiem, jest to bayesowskie uśrednianie próbek K w zbiorze m drzewa. Jest interesujący na wiele sposobów i wydaje się, że działa naprawdę dobrze. Gdy m = „1”, jest to proste uśrednianie bayesowskie próbek K z 1 drzewa, pochodzących z tyłu. Nie przeprowadzono jednak wielu testów tego konkretnego aspektu. I nadal chciałbym wiedzieć, w jaki sposób Random Forest lub Extra-Trees porównuje się do prawdziwego modelu Bayesa.
źródło